Redisspider的爬虫和scrapy.spider的区别

最新推荐文章于 2023-02-22 12:25:00 发布

荒城以北

最新推荐文章于 2023-02-22 12:25:00 发布

阅读量827

点赞数

分类专栏： scrapy框架

本文链接：https://blog.csdn.net/weixin_44090435/article/details/86653993

版权

13 篇文章 0 订阅

订阅专栏

Redisspider 分布式爬虫，请求的持久化，去重的持久化

区别
- 父类不一样，RedisSpider
- start_urls没有了，多了redis_key ，往redis_key存入start_url地址
- settings 中多了几行配置
创建爬虫
- scrapy genspider 爬虫名爬取范围
- 修改父类名
- 修改redis_key
启动爬虫
- 1. 让爬虫就绪：scrapy crawl 爬虫名
- 1. redis中存入url地址：lpush redis_key url

RedisCrawlSpider 分布式爬虫，请求的持久化，去重的持久化

区别
- 父类RedisCrawlSpider
- start_urls没有了，多了redis_key ，往redis_key存入start_url地址
- settings 中多了几行配置
创建爬虫
- scrapy genspider -t crawl 爬虫名爬取范围
- 修改父类名
- 修改redis_key
启动爬虫
- 1. 让爬虫就绪：scrapy crawl 爬虫名
- 1. redis中存入url地址：lpush redis_key url

在爬虫中使用crontab

cd `dirname $0`
scrapy crawl 爬虫名 >> run.log 2>&1

关注