Spider工作流程.

最新推荐文章于 2021-08-25 16:50:04 发布

夏天7788

最新推荐文章于 2021-08-25 16:50:04 发布

阅读量1.5k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xuxiatian/article/details/52936899

版权

可参考scrapy架构概览：http://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/architecture.html

Spider(1)使用request获取网页.

(2)使用selector解析网页构建Item.

(3)使用pipeline存储获取的Item.

学习要点：

1. HTML语言，网页文本语言解读，标签语言，标签属性等。

2. Spider中的request和response，如何获取网页列表，如何复制网页内容，并将网页内容存起来以待分析，是Spider的动力源，驱动Spider发起动作

3. 得到response之后Spider使用selector去解析网页，使用selector获得自己想要的信息，selector解析HTML语言有多种方式，我们可以先学习XPath方法，使用Xpath解析HTML语言，获得自己想要的数据项Item

4. Spider中的Item，构造自己想要的Item模样，存储Item到自己创建的数据库中

Spider运作流程：

以初始的URL初始化Request，并设置回调函数。

The first requests to perform are obtained by calling the start_requests() method which (by default) generates Request for the URLs specified in the start_urls and the parse method as callback function for the Requests.
在回调函数内分析返回的(网页)内容，返回 Item 对象或者 Request 或者一个包括二者的可迭代容器。返回的Request对象之后会经过Scrapy处理，下载相应的内容，并调用设置的callback函数(函数可相同)。
在回调函数内，您可以使用选择器(Selectors) (您也可以使用BeautifulSoup, lxml 或者您想用的任何解析器) 来分析网页内容，并根据分析的数据生成item。
最后，由spider返回的item将被存到数据库(由某些 Item Pipeline 处理)或使用 Feed exports 存入到文件中。

http://python.usyiyi.cn/documents/scrapy_12/topics/spiders.html

关键细节点：

1. xpath 参考：

http://www.w3school.com.cn/xpath/

http://www.zvon.org/xxl/XPathTutorial/General_chi/examples.html

http://www.runoob.com/xpath/xpath-syntax.html

2. HTML语言，参考手册：http://www.w3school.com.cn/tags/html_ref_byfunc.asp

3. CSS选择器：http://www.w3school.com.cn/cssref/css_selectors.asp

4. 查看网页源码方法：google浏览器ctrl+shift+I 点击左上角小箭头指定位置定位源码

5. 编辑自己的items，在文件Item.py中定义，（在所建的Scrapy工程中存在Item.py文件），使用语句：

from tutorial.items import DmozItem

在调用Item的py文件中导入item定义。import关键字类似于c语言中的include

6. 编辑自己的pipelines，在文件pipelines.py中定义，pipeline是用来加工Item并将其导出到文件或数据库，并使用语句：

custom_settings = {
    'ITEM_PIPELINES':{'spider.pipelines.BondPipeline': 300},
}

与主程序建立链接。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。