scrapy五大组件及setting配置

最新推荐文章于 2023-12-22 06:00:00 发布

June_Hoo

最新推荐文章于 2023-12-22 06:00:00 发布

阅读量288

点赞数

分类专栏：爬虫 web基础知识

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44088790/article/details/115337887

版权

web基础知识同时被 2 个专栏收录

10 篇文章 1 订阅

订阅专栏

3 篇文章 0 订阅

订阅专栏

settings:

增加并发:

默认scrapy开启的并发线程为32个，可以适当进行增加。在settings中修改：CONCURRENT_REQUESTS = 32

降低日志级别：

在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为：LOG_LEVEL=‘ERROR’

Python的内置日志记录定义了5个不同的级别来指示给定日志消息的严重性。以下是标准的，按降序排列：

CRITICAL - 严重错误

ERROR - 一般错误

WARNING - 警告信息

INFO - 一般信息

DEBUG - 调试信息

禁止COOKIE：

如果不是真的需要cookie，则在scrapy爬取数据时可以禁止cookie从而减少CPU使用率，提升性能：COOKIES_ENABLED = False

禁止重试：

对失败的HTTP进行重新请求（重试）会减慢爬虫速度，因此可以禁止重试：RETRY_ENABLED=False

减少下载超时：

如果对一个非常慢的链接进行爬取，减少下载超时可以能让卡住的链接快速放弃，从而提高下载性能：DOWNLOAD_TIMEOUT=10

五大核心组件
引擎(Scrapy)

用来处理整个系统的数据流处理, 触发事务(框架核心)

调度器(Scheduler)

用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列,
由它来决定下一个要抓取的网址是什么, 同时去除重复的网址

下载器(Downloader)

用于下载网页内容, 并将网页内容返回给蜘蛛(Scrapy下载器是建立在twisted这个高效的异步模型上的)

爬虫(Spiders)

爬虫是主要干活的, 用于从特定的网页中提取自己需要的信息,即所谓的实体(Item)。用户也可以从中提取出链接,让Scrapy继续抓取下一个页面

项目管道(Pipeline)

负责处理爬虫从网页中抽取的实体，主要的功能是持久化实体、验证实体的有效性、清除不需要的信息。当页面被爬虫解析后，将被发送到项目管道，并经过几个特定的次序处理数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

June_Hoo CSDN认证博客专家 CSDN认证企业博客

码龄6年

10: 原创

78万+: 周排名

34万+: 总排名

3万+: 访问

: 等级

238: 积分

4: 粉丝

9: 获赞

2: 评论

60: 收藏

私信

关注

热门文章

分类专栏

最新评论

Python中二进制转换
CSDN-Ada助手: 非常感谢CSDN博主分享的Python中二进制转换的博客，我觉得这篇文章对于想要深入了解Python编程中二进制转换的读者来说非常有用。下一篇博客建议可以围绕Python编程中的数据类型展开，例如介绍Python中的字符串、列表、元组等数据类型的使用和操作。相信这样的技术文章对其他用户也会非常有帮助。期待更多优质的技术分享，让更多读者受益。为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
POST方法和GET方法的区别
weixin_44605476: 帅啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。