爬虫scrapy框架运行流程

最新推荐文章于 2023-05-08 09:48:05 发布

棠牧师

最新推荐文章于 2023-05-08 09:48:05 发布

阅读量466

点赞数

分类专栏： python知识点 spider 文章标签： python scrapy

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44252966/article/details/90266541

版权

python知识点同时被 2 个专栏收录

33 篇文章 2 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。

Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。

（一）运作流程

1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）交给Scheduler（调度器）。

2.Scheduler（排序，入队）处理后，经ScrapyEngine（引擎）【DownloaderMiddlewares(下载中间件，可以附带User_Agent, Proxy代理等)】交给Downloader。

3.Downloader向互联网发送请求，并接收下载响应（response）。将响应（response）【经ScrapyEngine（引擎），SpiderMiddlewares(spider中间件)】交给Spiders。　　　　　

4.Spiders处理response，提取数据并将数据经ScrapyEngine（引擎）交给ItemPipeline保存（可以是本地，可以是数据库）。

5.提取url重新经ScrapyEngine（引擎）交给Scheduler（调度器）进行下一个循环。直到无Url请求程序停止结束。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
爬虫scrapy框架运行流程

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。Scrapy 常应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。通常我们可以很简单的通过 Scrapy 框架实现一个爬虫，抓取指定网站的内容或图片。（一）运作流程1.首先Spiders（爬虫）将需要发送请求的url(requests)经ScrapyEngine（引擎）...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。