1、增加并发(增加并发线程数)
scrapy默认开启的线程为32个,可以适当增加。在setting文件中修改为 100
2、降低日志级别
在运行scrapy时会有大量日志信息输出,为了减少日志信息的输出,降低CPU的使用率,可以设置
输出错误日志 LOG_LEVEL='ERROR' 或者 'INFO'
3、禁止cookie
如果不是真的需要cookie,则在爬取数据时可以禁止cookie,从而减少CPU的使用率。在
setting中写 COOKIES_ENABLED=False
4、禁止重试:
对失败的HTTP进行重新请求会降低爬取速度,因此可以禁止重试;设置 RETRY_ENABLED=False
5、减少下载超时
如果对一个非常慢的连接进行爬取,减少下载超时可以能让卡主的连接快速被放弃,从而提升
效率。设置: DOWNLOAD_TIMEUT=10 (超时时间为10s)