- 博客(3)
- 收藏
- 关注
原创 scrapy_splash组件的使用
什么是scrapy_splash? scrapy-splash加载js数据是基于Splash来实现的。 Splash是一个Javascript渲染服务。 它是一个实现了HTTPAPI的轻量级浏览器,Splash是用Python和Lua语言实现的,基于Twisted和QT等模块构建。 使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。 ...
2019-08-06 19:43:56 244
原创 scrapy_redis 实现分布式爬虫
scrapy_redis要实现分布式爬虫,需要分析项目中的spiders文件夹中的爬虫文件 #----1 导入分布式爬虫类 from scrapy_redis.spiders import RedisSpider #----2 继承分布式爬虫类 class BookSpider(RedisSpider): #----3 注销start_urls,增加了一个redis-key,没有start_u...
2019-08-05 10:30:08 208
原创 scrapy 断点续爬 在setting中的配置项
从settings.py中的三个配置来进行分析 分别是: RedisPipeline # 管道类 RFPDupeFilter # 指纹去重类 Scheduler # 调度器类 SCHEDULER_PERSIST # 是否持久化请求队列和指纹集合 Scrapy_redis之RedisPipeline RedisPipeline中观察process_item,进行数据的保存,存入了redi...
2019-08-05 09:43:03 2192
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人