scrapy的各个模块的作用以及数据在从各个模块的流向

最新推荐文章于 2024-04-07 19:27:38 发布

网友高某某

最新推荐文章于 2024-04-07 19:27:38 发布

阅读量556

点赞数 1

分类专栏： python爬虫的学习文章标签：中间件 python 爬虫

本文链接：https://blog.csdn.net/weixin_65006301/article/details/125076780

版权

5 篇文章 0 订阅

订阅专栏

引擎，处理整个系统的数据流处理、触发事务，是整个框架的核心

项目、它定义了爬取的结果的数据结构，爬取的数据会被赋值成为该Item对象

调度器，接收引擎发送过来的请求并将其放入消息队列，在引擎再次请求的时候将request（请求）给到Engine

下载器，下载网页的内容，并将网页的内容返回给spiders

蜘蛛，其内部定义了爬取的逻辑和网页的解析规则，它主要负责的是解析响应并生成提取结果和新的请求。

项目管道，负责处理蜘蛛从网页中抽取的项目，它的主要工作是清洗，验证，存储数据

下载中间件，位于引擎和下载器之间的钩子框架，主要是处理下载器和引擎之间的请求以及响应

蜘蛛中间件，位于引擎和蜘蛛中的中间件，位于引擎和蜘蛛之间的钩子框架，主要是处理蜘蛛输入的响应和输出结果以及新的请求

以下简单的描述了scrapy引擎中的数据流：

1、Engine首先先打开一个网页，找到该网页的spider，并向Spider请求第一个要爬取的url

2、Engine从Spider中获取到第一个要爬取的url，并通过scheduler（调度器）以Request的形式来调度

3、Engine向Scheduler请求下一个要爬取的URL

4、Scheduler返回一个要爬取的URL给Engine,Engine将URL通过Downloader Middlewares 发送给Downloader下载

5、一旦下载完成，Downloader生成该页面的Response，并将其通过Downloader Middlewares（下载中间件）发送给Engine（调度器）

6、Engine从下载器中介收到Response，并将其通过spiderMiddlewares 发送给spider处理

7、spider处理response，并返回爬取到的item及新的Request给到Engine

8、Engine将Spider返回的item给到管道（Item Pipeline），将新的Request给到scheduler

9、重复2-8的步骤，直到Scheduler没有更多的Request，Engine关闭该网站，爬取结束

	9、重复2-8的步骤，直到Scheduler没有更多的Request，Engine关闭该网站，爬取结束

关注

专栏目录