scrapy-redis所有request爬取完毕，如何解决爬虫空跑问题？

最新推荐文章于 2024-03-05 15:23:22 发布

VIP文章 Kosmoo

最新推荐文章于 2024-03-05 15:23:22 发布

阅读量9.5k

点赞数 2

分类专栏： python爬虫文章标签：爬虫分布式爬虫结束

本文链接：https://blog.csdn.net/zwq912318834/article/details/78873172

版权

scrapy-redis所有request爬取完毕，如何解决爬虫空跑问题？

1. 背景

这里写图片描述
根据scrapy-redis分布式爬虫的原理，多台爬虫主机共享一个爬取队列。当爬取队列中存在request时，爬虫就会取出request进行爬取，如果爬取队列中不存在request时，爬虫就会处于等待状态，行如下：

E:\Miniconda\python.exe E:/PyCharmCode/redisClawerSlaver/redisClawerSlaver/spiders/main.py
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Overridden settings: {
  'SPIDER_LOADER_WARN_ONLY': True}
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2017-12-12 15:54:18 [myspider_redis] INFO: Reading start URLs from redis key 'myspider:start_urls' (batch size: 110, encoding: utf-8
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'redisClawerSlaver.middlewares.ProxiesMiddleware',
 'redisClawerSlaver.middlewares.HeadersMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled item pipelines:
['redisClawerSlaver.pipelines.ExamplePipeline',
 'scrapy_redis.pipelines.RedisPipeline']
2017-12-12 15:54:18 [scrapy.core.engine] INFO: Spider opened
2017-12-12 15:54:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:55:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:56:18 [scrapy.extension

最低0.47元/天解锁文章

Kosmoo

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
scrapy-redis所有request爬取完毕，如何解决爬虫空跑问题？

scrapy-redis所有request爬取完毕，如何解决爬虫空跑问题？1. 背景根据scrapy-redis分布式爬虫的原理，多台爬虫主机共享一个爬取队列。当爬取队列中存在request时，爬虫就会取出request进行爬取，如果爬取队列中不存在request时，爬虫就会处于等待状态，行如下：E:\Miniconda\python.exe E:/PyCharmCode/redisClawer
复制链接

扫一扫