嵩天老师网络爬虫之Scrapy框架解析笔记(四)

一、Scrapy爬虫框架介绍
功能强大的网络爬虫框架,重要的技术路线
(一)、安装 pip install scrapy
(二)、scrapy不是一个简单的函数功能库,而是一个爬虫框架。
爬虫框架:是实现爬虫功能的一个软件结构和功能组件集合。它是一个半成品,能够帮助用户实现专业网络爬虫。
(三)、Scrapy爬虫框架结构
下面这个图将其工作流程图形化,帮助我们很好的理解Scrapy爬虫框架的工作过程。
在这里插入图片描述
在这里插入图片描述
二、Scrapy爬虫框架解析
5个主要模块和2个中间件。
Engine模块:控制左右模块之间的数据流,根据条件触发事件,不需要用户修改。
Downloader模块:根据请求下载网页,不需要用户修改。
Scheduler模块:对所需要爬取请求进行调度管理,不需要用户修改。
Downloader Middleware中间件:其目的是实施Engine、Scheduler和Downloader之间进行用户可配置的控制;其功能是修改、丢弃、新增请求或响应。用户是可以编写配置代码。
Spider模块:解析Downloader返回的响应(Response),产生爬取项(scraped item),产生额外的爬取请求(Request),需要用户编写配置代码。
Item Pipelines模块:以流水线方式处理Spider产生的爬取项。由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型。可能操作包括:清理、检验和查重爬取项中的HTML数据、将数据存储到数据库。需要用户编写配置代码。
Spider Middleware中间件:其目的是对请求和爬取项的再处理,功能是:修改丢弃和新增请求或爬取项。用户可以编写配置代码。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值