python“最好用的爬虫框架”Scrapy框架详解

最新推荐文章于 2024-06-22 16:33:22 发布

九瓜

最新推荐文章于 2024-06-22 16:33:22 发布

阅读量641

点赞数 1

分类专栏： # Python爬虫 # Python 文章标签： Scrapy详解

本文链接：https://blog.csdn.net/weixin_43796109/article/details/87733275

版权

Python 同时被 2 个专栏收录

44 篇文章 3 订阅

订阅专栏

Python爬虫

5 篇文章 1 订阅

订阅专栏

开局一张图

如果这张图你能够看明白那就以及明白了Scrapy框架爬虫的基本原理
为了你们能够看明白所以就加上了点注释
在这里插入图片描述

Scrapy简介（百度百科）

Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等

详解Scrapy框架

Scrapy共有Scrapy Engine（引擎）、Scheduler（调度器）、Downloader（下载器）、spider爬虫、ItemPipeline（管道）、SpiderMiddlewares(中间件)、DownloaderMiddlewares(下载中间件）组成

scrapy框架的工作流程：
1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。

2.Scheduler（排序，入队）处理后，经ScrapyEngine DownloaderMiddlewares(下载中间件—可选，主要有User_Agent, Proxy代理)交给Downloader。

3.Downloader（下载器）向互联网发送请求，并接收下载响（response）。将响应（response）经ScrapyEngine（引擎），SpiderMiddlewares(中间件–可选)交给Spiders。

4.Spiders处理response，提取数据并将数据经ScrapyEngine（引擎）交给ItemPipeline（管道）保存（可以是本地，可以是数据库）。

提取url重新经ScrapyEngine（引擎）交给Scheduler（调度器）进行下一个循环。直到无Url请求程序停止结束。

个人理解

引擎：负责各个模块之间的通信交流；
管道：负责处理爬虫的item，进行数据清洗格式化存储（存储到本地或数据库）等；
调度器：负责接收引擎发来的request请求，并按照一定顺序入栈，当引擎需要的时候返还给引擎；
下载器：负责下载引擎发来的所有requests请求，并将responses返还给引擎；
spider爬虫：负责引擎发来的responses，提取里面的数据，获取item所需要的字段，并把获取到的url给调度器；

九瓜

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python“最好用的爬虫框架”Scrapy框架详解

开局一张图如果这张图你能够看明白那就以及明白了Scrapy框架爬虫的基本原理为了你们能够看明白所以就加上了点注释Scrapy简介（百度百科）Scrapy，Python开发的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的...
复制链接

扫一扫

专栏目录