您当前的位置: 首页 > Perl/Python

一个咸鱼的Python爬虫之路（3）：爬取网页图片

发布时间：2011-06-29 17:51:03 文章来源：www.iduyao.cn 采编人员：星星草

一个咸鱼的Python爬虫之路（三）：爬取网页图片

学完Requests库与Beautifulsoup库我们今天来实战一波，爬取网页图片。依照现在所学只能爬取图片在html页面的而不能爬取由JavaScript生成的图。
所以我找了这个网站http://www.ivsky.com

网站里面有很多的图集，我们就找你的名字这个图集来爬取

http://www.ivsky.com/bizhi/yourname_v39947/

来看看这个页面的源代码：

可以看到我们想抓取的图片信息在<li> 里面然后图片地址在img里面那么我们这里可以用BeautifulSoup库方法来解析网页并抓取图片信息。

soup =BeautifulSoup(html,'html.parser')
    all_img=soup.find_all('img')
    for img in all_img:
       src=img['src']

url方面我们用requests库去获取：

def getHtmlurl(url):         #获取网址
    try:
       r=requests.get(url)
       r.raise_for_status()
       r.encoding=r.apparent_encoding
       return r.text
    except:
        return ""

我们要将图片下载下来并存在本地：

       try:                              #创建或判断路径图片是否存在并下载
           if not os.path.exists(root):
               os.mkdir(root)
           if not os.path.exists(path):
               r = requests.get(img_url)
               with open(path, 'wb') as f:
                   f.write(r.content)
                   f.close()
                   print("文件保存成功")
           else:
               print("文件已存在")
       except:
           print("爬取失败")

整个爬虫的框架与思路：

import requests
from bs4 import BeautifulSoup
import os

def getHtmlurl(url):  #获取网址
pass

def getpic(html): #获取图片地址并下载
pass

def main(): 主函数
pass

这里给出完整代码

import requests
from bs4 import BeautifulSoup
import os

def getHtmlurl(url):         #获取网址
    try:
       r=requests.get(url)
       r.raise_for_status()
       r.encoding=r.apparent_encoding
       return r.text
    except:
        return ""

def getpic(html): #获取图片地址并下载
    soup =BeautifulSoup(html,'html.parser')
    all_img=soup.find_all('img')
    for img in all_img:
       src=img['src']
       img_url=src
       print (img_url)
       root='D:/pic/'
       path = root + img_url.split('/')[-1]
       try:                              #创建或判断路径图片是否存在并下载
           if not os.path.exists(root):
               os.mkdir(root)
           if not os.path.exists(path):
               r = requests.get(img_url)
               with open(path, 'wb') as f:
                   f.write(r.content)
                   f.close()
                   print("文件保存成功")
           else:
               print("文件已存在")
       except:
           print("爬取失败")



def main():
    url='http://www.ivsky.com/bizhi/yourname_v39947/'
    html=(getHtmlurl(url))

    print(getpic(html))
main()

运行代码：

我们可以看到图片都保存在本地了

这就是简单的实战案列，大家可以自己试试。

上一篇：python之面向对象二
下一篇：Python学习笔记（2）——HelloWorld

友情提示：
信息收集于互联网，如果您发现错误或造成侵权，请及时通知本站更正或删除，具体联系方式见页面底部联系我们，谢谢。

其他相似内容：

能不能找到支持 python 2.6 2.7 3.x 版本的 mod_python 呢？解决方法

能不能找到支持 python 2.6 2.7 3.x 版本的 mod_python 呢？ http://archive.apache.org/dist/httpd/modpython/win/3.3.1/ 我在...
windows下安装apache + python + django + mod_wsgi.so解决思路

windows下安装apache + python + django + mod_wsgi.so 对应版本： Apache：Apache HTTP Server (httpd) 2.2.19 Python：Python2.7 Dja...
手工执行python3程序没有关问题，放在cron里面就不执行有中文的代码，高手帮忙啊

手工执行python3程序没问题，放在cron里面就不执行有中文的代码，高手帮忙啊。急！先介绍下基本情况环境: redhat Python3.2 目的：定...
PYTHON用什么编辑器？该怎么解决

PYTHON用什么编辑器？是用自带的IDLE不? ------解决方案-------------------- 看下国外的Python用户都用什么吧： http://jobs.pyth...
为什么在python25中输入下面的代码是异常的？求大神

为什么在python25中输入下面的代码是错误的？？求大神！ if 1 < 0: print '”x” must be atleast 0!' ------解决方案-----...
pyhthon zipfile获取压缩文件列表后怎样打开其中某个文件？该如何处理

pyhthon zipfile获取压缩文件列表后怎样打开其中某个文件？如题。似乎ZipFile没有open操作.. zCmfile = zipfile.ZipFile(target...
本人初学者一个，哪位大神帮小弟我解释一下下面两段

本人菜鸟一个，哪位大神帮我解释一下下面两段 import sys print >> sys.stderr, 'Fatal error: invalid input!' import sys ...
老王的python学习网站！推荐！该怎么处理

老王的python学习网站！推荐！ http://blog.csdn.net/hendom/article/details/7173207 很不错的python学习网站。 http://www.cnpyt...
myeclipse里导入python项目,该怎么处理

myeclipse里导入python项目初学python，我在myeclipse里导入已有项目，选择路径后为什么没出现该项目，这项目不应该有问题啊，我用的是m...
安装PyQt的有关问题

安装PyQt的问题？今天在ubuntu下安装了PyQt-x11-gpl-4.9，但是我按照《getting started with PyQt》上的一个例子 import sys from ...

一个咸鱼的Python爬虫之路（3）：爬取网页图片

其他相似内容：

热门推荐：