scrapy中各文件作用

最新推荐文章于 2023-05-31 16:37:43 发布

卑微小钟

最新推荐文章于 2023-05-31 16:37:43 发布

阅读量7w

点赞数 2

分类专栏： scrapy python 爬虫文章标签： python 爬虫中间件

本文链接：https://blog.csdn.net/zhongjianboy/article/details/123466290

版权

python 同时被 3 个专栏收录

34 篇文章 3 订阅

订阅专栏

爬虫

24 篇文章 1 订阅

订阅专栏

scrapy

13 篇文章 1 订阅

订阅专栏

scrapy中各文件作用

一、目录

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mOoXwzmp-1647176996199)(images\20191205105124.png)]

spider文件夹一般爬虫都放置在该文件夹中。
items.py负责处理被spider提取出来的item，定义数据。
pipelines.py通道文件，当我们的items被返回的时候，会自动调用我们的pipelines类中process_item()（需要加到settings.py里面）
middlewares.pyscrapy框架的扩展插件
setting.pyscrapy爬虫的配置文件。

二、Scrapy架构

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4rMtXwfT-1647176996200)(images\scrapy_architecture.png)]
Scrapy Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器)：它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理。
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)。
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：一个可以自定扩展和操作引擎和Spider中间通信的功能组件