专注收集记录技术开发学习笔记、技术难点、解决方案
网站信息搜索 >> 请输入关键词:
您当前的位置: 首页 > 行业应用

百度知道采撷方法

发布时间:2010-06-06 16:58:32 文章来源:www.iduyao.cn 采编人员:星星草
百度知道采集方法

本文演示无需代码可视化的方法快速抓取百度知道内容的方法,三分钟即可上手制作完成,抓取到的数据可以直接导入到数据库或网站。



在开始之前,可以先参考一下这些文章,希望有帮助:
小白30分钟学会网页爬虫
网页爬虫真实案例记录

 

文中以不需要代码的方法实现,使用到了八 爪鱼(了解详情),只作为演示使用,替换成自己拿手的工具也一样的。

 

需要抓取百度内容的,在网页简易模式界面里点选百度进去之后可以看到所有关于百度的规则信息,我们直接使用就可以的。

 

 

放大看>>

 

抓取百度知道内容(下图所示)即打开百度知道主页输入关键词进行搜索,抓取搜索到的内容。

1、找到百度知道规则然后点选立即使用

 

 

放大看>>

 

2、下图显示的即为简易模式里面百度知道的规则

查看详情:点开可以看到示例网址,抓取的关键词为大数据

任务名:自定义任务名,默认为百度知道

任务组:给任务划分一个保存任务的组,如果不设置会有一个默认组

搜索关键词:设置要抓取的关键词,如果有多个关键词一行一个

示例数据:这个规则抓取的所有字段信息

 

 

放大看>>

 

3、规则制作示例

例如抓取百度知道关键词为抓取器的数据信息,在设置里如下图所示:

任务名:自定义任务名,也可以不设置按照默认的就行

任务组:自定义任务组,也可以不设置按照默认的就行

搜索关键词:输入抓取器,如果有多个关键词则一行一个

设置好之后点选保存

 

 

放大看>>

 

保存之后会出现开始抓取的按钮

 

 

放大看>>

 

3、选择开始抓取之后系统将会弹出运行任务的界面

可以选择启动本地抓取(本地执行抓取流程)或者启动云抓取(由云 器执行抓取流程),这里以启动本地抓取为例,我们选择启动本地抓取按钮

 

 

放大看>>

 

5、选择本地抓取按钮之后,系统将会在本地执行这个抓取流程来抓取数据,下图为本地抓取的效果

 

 

放大看>>

 

6、抓取完毕之后选择导出数据按钮即可,这里以导出excel2007为例,选择这个选项之后点选确定

 

 

放大看>>

 

7、然后选择文件存放在电脑上的路径,路径选择好之后选择保存

 

 

放大看>>

 

8、这样数据就被完整的导出到自己的电脑上来了哦

 

 

放大看>>

 

 

文中以不需要代码的方法实现,使用到了八 爪鱼(了解详情),只作为演示使用,替换成自己拿手的工具也一样的。

友情提示:
信息收集于互联网,如果您发现错误或造成侵权,请及时通知本站更正或删除,具体联系方式见页面底部联系我们,谢谢。

其他相似内容:

  • 《松本行弘的程序全世界》之面向对象

    《松本行弘的程序世界》之面向对象 最近读《SICP》把脑细胞搞死大半,还没看完2章,而且看得也是一知半解,实在是受不了了,...

  • GroovyHelp 3.2.7 GA公布

    GroovyHelp 3.2.7 GA发布 GroovyHelp简介   GroovyHelp是一款Javadoc及Groovydoc搜索查阅软件,它能够帮助Java开发人员以...

  • Velocity在Roller中的使用

    Velocity在Roller中的应用 Velocity是java世界中出现比较早,也比较成熟的、性能比较好的、应用也比较广泛的模板框架。   所...

  • Rpc远程调用框架的设计与兑现(2)

    Rpc远程调用框架的设计与实现(2) 接上: 3   基于Json的前后端数据交互 3.1   轻量级的数据交换形式 3.1.1    什么是Jso...

  • excel 单元格的锁定 以及 JXL的兑现方式

    excel 单元格的锁定 以及 JXL的实现方式 在使用excel表格时,有些列是不希望用户可以修改的,诸如审计日志里面确定的部分,而审计...

  • 仓秤跟散料秤:java连接opc Server

    仓秤和散料秤:java连接opc Server 这三篇都是之前写好的,一直没发。 这次一起发出来吧。   java连接硬件很痛苦,特别是对我这...

  • Rpc远程调用框架的设计与兑现(1)

    Rpc远程调用框架的设计与实现(1) Rpc远程调用框架的设计与实现 1     Rpc远程调用框架设计概述 1.1   研究背景 1.1.1...

  • 集合中的线程安全有关问题

    集合中的线程安全问题 一、why? Java中常用的集合框架推荐使用的三个实现:HashSet\ArrayList\HashMap都是线程不安全的.如...

  • Java定时任务的兑现

    Java定时任务的实现 本例依据Java自身提供的接口实现,通过监听器(Listener)和定时器(Timer)定时执行某个任务(Task)。 MyListener: ...

  • java中log日记的使用

    java中log日志的使用 一、介绍  Log4j是Apache的一个开放源代码项目,通过使用Log4j,我们可以控制日志信息输送的目的地是控...

热门推荐: