- Python code
def getWebContent(url): response = urllib2.urlopen(url, timeout=20) return response.read() if __name__=="__main__": print(getWebContent("http://www.hao123.com"))
显示的结果中:中文为
<meta name="keywords" content="\xe8\xae\xba\xe5\x9d\x9b" />
<meta name="description" content="\xe8\xae\xba\xe5\x9d\x9b " />
请问如何自动判断页面的编码得到正确的中文?
------解决方案--------------------
google urllib2 charset
------解决方案--------------------
python的编码是个复杂的问题,需要先搞清楚,还有你想怎么保存数据,是原样还是统一转换为utf8
------解决方案--------------------
咋编的就咋解...
------解决方案--------------------
解析内容,获取编码
好像返回的头信息里一般也有编码类型,可以getHeader一下
------解决方案--------------------
有的可以通过encode后再decode获取,另外也是html页面charset决定得