【Scrapy爬虫框架】{1} ——Scrapy爬虫框架解析

最新推荐文章于 2022-01-22 19:40:46 发布

Giyn

最新推荐文章于 2022-01-22 19:40:46 发布

阅读量310

点赞数 5

分类专栏：【Scrapy爬虫框架】文章标签： python

本文链接：https://blog.csdn.net/weixin_45961774/article/details/104510396

版权

7 篇文章 2 订阅

订阅专栏

参考资料：Python网络爬虫与信息提取（北京理工大学慕课）

回忆一下Scrapy爬虫框架的“5+2”结构：

其中整个框架的核心是 Engine。

任何模块和模块之间的数据流动都要经过 Engine 模块的调度。

Downloader：功能比较单一，只是获得一个请求，并且向网络中提交这个请求，最终获得返回的相关内容。

Scheduler：对于一个中规模爬虫，可能同一时间有很多对网络的爬取请求，哪些先访问，哪些后访问，由Scheduler模块进行调度。由于调度方法和调度功能相对的固定，因此不需要用户修改。

Engine、Downloader、Scheduler这三个模块都不需要用户修改。
但它们放在一起，却形成了一个功能：由 Scheduler 发送访问请求，经过 Engine，到达 Downloader。

简单说，它向整个框架提供了最初始的访问链接，同时对每次爬取回来的内容进行解析，再次产生新的爬取请求，并且从内容中分析出、提取出相关的数据，是整个爬虫框架最核心的一个单元。

需要用户编写配置代码。

  Item Pipelines里边的功能是完全由用户来编写和定义的。
  用户需要关心的是，对于从网页中提取出来的信息，这些以Items类型封装的信息，
  用户希望怎么做，是将数据存储到数据库里，还是经过简单的清洗，用在什么地方。
  这些是在Item Pipelines中实现的。

框架中的五个模块形成了既定的功能，我们重点编写的是 Spiders 和 Item Pipelines 模块。

用户为了操作其中的数据流，对数据流进行一定的控制，可以通过两个中间键，对其中的 REQUESTS、RESPONSE 和 ITEMS 做一定的操作。

关注