Redisspider的爬虫和scrapy.spider的区别
Redisspider 分布式爬虫,请求的持久化,去重的持久化
-
区别
- 父类不一样,RedisSpider
- start_urls没有了,多了redis_key ,往redis_key存入start_url地址
- settings 中多了几行配置
-
创建爬虫
- scrapy genspider 爬虫名 爬取范围
- 修改父类名
- 修改redis_key
-
启动爬虫
-
- 让爬虫就绪:scrapy crawl 爬虫名
-
- redis中存入url地址:lpush redis_key url
-
RedisCrawlSpider的爬虫和crwalspdier的区别
RedisCrawlSpider 分布式爬虫,请求的持久化,去重的持久化
-
区别
- 父类RedisCrawlSpider
- start_urls没有了,多了redis_key ,往redis_key存入start_url地址
- settings 中多了几行配置
-
创建爬虫
- scrapy genspider -t crawl 爬虫名 爬取范围
- 修改父类名
- 修改redis_key
-
启动爬虫
-
- 让爬虫就绪:scrapy crawl 爬虫名
-
- redis中存入url地址:lpush redis_key url
-
crontab使用的方法
- 分钟 小时 日 月 星期 命令
- 30 9 8 * * ls #每个月的8号的9:30执行ls命令
在爬虫中使用crontab
-
- 爬虫启动命令写入脚本文件
cd `dirname $0`
scrapy crawl 爬虫名 >> run.log 2>&1
-
- 给脚本添加可执行权限
chmod +x run.sh
-
- 把脚本文件添加到crontab的配置中
30 6 * * * /home/python/myspider/run.sh