爬虫 scrapy框架简介

最新推荐文章于 2024-11-04 21:51:40 发布

荒野老狮子

最新推荐文章于 2024-11-04 21:51:40 发布

阅读量199

点赞数

文章标签： python 爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50199986/article/details/110940367

版权

在这里插入图片描述

创建scrapy项目：scrapy startproject xxx
创建爬虫文件：scrapy genspider 爬虫名爬虫名.com
运行scrapy项目：scrapy crawl 爬虫名

在创建完爬虫项目后，首先第一步，到settings.py中将ROBOTSTXT_OBEY = True改为False

scrapy engine（引擎）：控制四大组件，负责四大组件之间的通讯、数据传递工作。
scheduler（调度器）：负责接收引擎传递的url，按照一定的方式进行排列队列，当引擎需要时，将存放的url传递给引擎。
Downloader（下载器）：负责下载引擎发送的所有请求，并获取response，交给引擎，再由引擎交给spider组件处理。
spider（爬虫组件）：负责处理response，从中提取数据等，如果里面有需要请求的url时，会将url再交给调度器处理。
itempipeline（管道）：负责处理spider组件传递的item（是一个类字典对象），保存item/处理item。
DownloaderMiddler（下载中间件）：可以自定义扩展功能。比如随机UA、设置代理、设置selenium等等。
spiderMiddler（爬虫中间件）：一般用不到，可以指定信号等等。
在这里插入图片描述

荒野老狮子

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。