Python----Python爬虫（scrapy框架使用，Scarpy开发第一个爬虫）-CSDN博客

本文链接：https://blog.csdn.net/weixin_64110589/article/details/144971430

一、Scrapy的介绍

Scrapy 是一个用于抓取网站和提取结构化数据的应用程序框架，可用于各种有用的应用程序，如数据挖掘、信息处理或历史存档。

尽管 Scrapy 最初是为网络抓取而设计的，但它也可用于使用 API提取数据或用作通用网络爬虫。

Scrapy的优势

可以容易构建大规模的爬虫项目

内置re、xpath、css选择器

可以自动调整爬行速度

开源和免费的网络爬虫框架

可以快速导出数据文件: JSON，CSV和XML

可以自动方式从网页中提取数据(自己编写规则)

Scrapy很容易扩展，快速和功能强大

这是一个跨平台应用程序框架（在Windows，Linux，Mac OS）

Scrapy请求调度和异步处理

Spiders：定义爬虫逻辑和提取数据的规则。

Engine：协调各个组件（Scheduler、Downloader、Item Pipeline）的工作，管理数据流。

Scheduler：接收来自引擎的请求，将待爬取的 URL 排队。

Downloader：下载指定的网页内容，返回给引擎。

Spiders：解析下载的网页内容，提取数据。

Item Pipeline：处理、清洗和存储提取到的数据。

引擎(engine)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息, 即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

下载器中间件(Downloader Middlewares)

位于Scrapy引擎和下载器之间的框架，主要是处理Scrapy引擎与下载器之间的请求及响应

爬虫中间件(Spider Middlewares)

介于Scrapy引擎和爬虫之间的框架，主要工作是处理蜘蛛的响应输入和请求输出

调度中间件(Scheduler Middewares)

介于Scrapy引擎和调度之间的中间件，从Scrapy引擎发送到调度的请求和响应