scrapy
红山1206
这个作者很懒,什么都没留下…
展开
-
scrapy_redis 实现分布式爬虫
scrapy_redis要实现分布式爬虫,需要分析项目中的spiders文件夹中的爬虫文件#----1 导入分布式爬虫类from scrapy_redis.spiders import RedisSpider#----2 继承分布式爬虫类class BookSpider(RedisSpider):#----3 注销start_urls,增加了一个redis-key,没有start_u...原创 2019-08-05 10:30:08 · 201 阅读 · 0 评论 -
scrapy 断点续爬 在setting中的配置项
从settings.py中的三个配置来进行分析 分别是:RedisPipeline # 管道类RFPDupeFilter # 指纹去重类Scheduler # 调度器类SCHEDULER_PERSIST # 是否持久化请求队列和指纹集合Scrapy_redis之RedisPipeline RedisPipeline中观察process_item,进行数据的保存,存入了redi...原创 2019-08-05 09:43:03 · 2190 阅读 · 0 评论 -
scrapy_splash组件的使用
什么是scrapy_splash?scrapy-splash加载js数据是基于Splash来实现的。 Splash是一个Javascript渲染服务。它是一个实现了HTTPAPI的轻量级浏览器,Splash是用Python和Lua语言实现的,基于Twisted和QT等模块构建。使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。...原创 2019-08-06 19:43:56 · 242 阅读 · 0 评论