02-27 提高scrapy爬取效率的方法

1、增加并发(增加并发线程数)

scrapy默认开启的线程为32个,可以适当增加。在setting文件中修改为 100

2、降低日志级别

在运行scrapy时会有大量日志信息输出,为了减少日志信息的输出,降低CPU的使用率,可以设置

输出错误日志 LOG_LEVEL='ERROR'  或者 'INFO'

3、禁止cookie

如果不是真的需要cookie,则在爬取数据时可以禁止cookie,从而减少CPU的使用率。在
setting中写 COOKIES_ENABLED=False

4、禁止重试:

对失败的HTTP进行重新请求会降低爬取速度,因此可以禁止重试;设置 RETRY_ENABLED=False

5、减少下载超时

如果对一个非常慢的连接进行爬取,减少下载超时可以能让卡主的连接快速被放弃,从而提升
效率。设置: DOWNLOAD_TIMEUT=10 (超时时间为10s)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值