python用正则解析html的有关问题

发布时间：2011-06-29 20:11:18 文章来源：www.iduyao.cn 采编人员：星星草

python用正则解析html的问题
用py读取网页，并简单地解析html源码，遇到了一些问题，还希望各位能花些时间帮忙解答一下。
py版本是2.7，系统平台是win
比如cn.bing.com的网页，有<div id="sw_pb"></div>的部分。我想用正则获取到这部分。

Python code


import re, urllib2

request = urllib2.urlopen('http://cn.bing.com/')
html = request.read()

p = re.compile('<div id="sw_pb">.*</div>')
print p.match(html)

最后一行输出的结果是 None

后来想到可能是编码的问题，稍稍改写了下代码

Python code


# -*- coding: utf-8 -*-
import re, urllib2

request = urllib2.urlopen("http://cn.bing.com/")
html = request.read()

p = re.compile(unicode('<div id="sw_pb">.*</div>', 'utf-8').encode('utf-8'))
print p.match(html)

结果还是 None，无匹配项

py用的不多，经验不足，不明白这种情况是为什么……还希望各位能解惑，谢谢。

------解决方案--------------------
翻翻文档先，看看match、search这两个函数有啥不同...
------解决方案--------------------
2楼的方法可以；楼主的问题在于应该用search，而不是match；

另外正则也稍微有点问题，应该用.*?而不是.*，否则贪婪匹配到最后一个</div>才结束。

p = re.compile('<div id="sw_pb">(.*?)</div>')
print p.search(html).group(1)

友情提示：
信息收集于互联网，如果您发现错误或造成侵权，请及时通知本站更正或删除，具体联系方式见页面底部联系我们，谢谢。

其他相似内容：

能不能找到支持 python 2.6 2.7 3.x 版本的 mod_python 呢？解决方法

能不能找到支持 python 2.6 2.7 3.x 版本的 mod_python 呢？ http://archive.apache.org/dist/httpd/modpython/win/3.3.1/ 我在...
windows下安装apache + python + django + mod_wsgi.so解决思路

windows下安装apache + python + django + mod_wsgi.so 对应版本： Apache：Apache HTTP Server (httpd) 2.2.19 Python：Python2.7 Dja...
手工执行python3程序没有关问题，放在cron里面就不执行有中文的代码，高手帮忙啊

手工执行python3程序没问题，放在cron里面就不执行有中文的代码，高手帮忙啊。急！先介绍下基本情况环境: redhat Python3.2 目的：定...
PYTHON用什么编辑器？该怎么解决

PYTHON用什么编辑器？是用自带的IDLE不? ------解决方案-------------------- 看下国外的Python用户都用什么吧： http://jobs.pyth...
为什么在python25中输入下面的代码是异常的？求大神

为什么在python25中输入下面的代码是错误的？？求大神！ if 1 < 0: print '”x” must be atleast 0!' ------解决方案-----...
pyhthon zipfile获取压缩文件列表后怎样打开其中某个文件？该如何处理

pyhthon zipfile获取压缩文件列表后怎样打开其中某个文件？如题。似乎ZipFile没有open操作.. zCmfile = zipfile.ZipFile(target...
本人初学者一个，哪位大神帮小弟我解释一下下面两段

本人菜鸟一个，哪位大神帮我解释一下下面两段 import sys print >> sys.stderr, 'Fatal error: invalid input!' import sys ...
老王的python学习网站！推荐！该怎么处理

老王的python学习网站！推荐！ http://blog.csdn.net/hendom/article/details/7173207 很不错的python学习网站。 http://www.cnpyt...
myeclipse里导入python项目,该怎么处理

myeclipse里导入python项目初学python，我在myeclipse里导入已有项目，选择路径后为什么没出现该项目，这项目不应该有问题啊，我用的是m...
安装PyQt的有关问题

安装PyQt的问题？今天在ubuntu下安装了PyQt-x11-gpl-4.9，但是我按照《getting started with PyQt》上的一个例子 import sys from ...

python用正则解析html的有关问题

其他相似内容：

热门推荐：