![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
数据采集
数据采集
adamyoungjack
师傅领进门,修行看个人。
展开
-
Scrapy_splash
1. 简介1.1 定义scrapy_splash是scrapy的一个组件scrapy-splash加载js数据是基于Splash来实现的。Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器,Splash是用Python和Lua语言实现的,基于Twisted和QT等模块构建。使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码1.2 作用scrapy-splash能够模拟浏览器加载js,并返回j原创 2020-11-27 12:40:38 · 2015 阅读 · 0 评论 -
Scrapy_redis和Scrapy_splash配合使用
1. 简介1.1 配置信息1. Scrapy_redisDUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" # 指纹生成以及去重类SCHEDULER = "scrapy_redis.scheduler.Scheduler" # 调度器类SCHEDULER_PERSIST = True # 持久化请求队列和指纹集合ITEM_PIPELINES = {'scrapy_redis.pipelines.RedisPipeline': 40原创 2020-11-27 15:20:36 · 620 阅读 · 0 评论 -
Scrapyd
1. 简介1.1 定义scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们所谓json api本质就是post请求的webapi2. 使用2.1 安装scrapyd服务端:pip install scrapydscrapyd客户端:pip install scrapyd-client2.2 启动在scrapy项目路径下 启动scrapy原创 2020-11-27 12:45:17 · 192 阅读 · 0 评论 -
Gerapy
1. 简介1.1 定义Gerapy 是一款 分布式爬虫管理框架,支持 Python 3,基于 Scrapy、Scrapyd、Scrapyd-Client、Scrapy-Redis、Scrapyd-API、Scrapy-Splash、Jinjia2、Django、Vue.js 开发1.1 作用更方便地控制爬虫运行更直观地查看爬虫状态更实时地查看爬取结果更简单地实现项目部署更统一地实现主机管理2. 安装执行如下命令,等待安装完毕pip install gerapy验证ger原创 2020-11-27 12:48:43 · 2244 阅读 · 0 评论