环境准备
pip install scrapy
pip install scrapyd
pip install scrapyd-client
pip install spiderkeeper
首先进入scrapy项目路径中,按shift右键打开终端,输入scrapyd
启动scrapyd服务:
启动之后就可以打开本地运行的scrapyd,浏览器中访问本地6800端口可以查看scrapyd的监控界面
然后再启动spiderkeeper,命令行输入spiderkeeper
:
打开浏览器访问spiderkeeper的地址,127.0.0.1:5000,然后输入用户名、密码,默认都是admin
至此,环境准备完毕。
部署爬虫
配置需要部署的项目
编辑需要部署的项目的scrapy.cfg文件(需要将哪一个爬虫部署到scrapyd中,就配置该项目的该文件)
[deploy:部署名(部署名可以自行定义)]
url = http://127.0.0.1:6800/
project = 项目名(创建爬虫项目时使用的名称)
部署项目到scrapyd
同样在scrapy项目路径下执行
scrapyd-deploy 部署名 -p 项目名称
部署项目到spiderkeeper
进入scrapy项目路径下执行命令
scrapyd-deploy --build-egg output.egg
生成egg文件
然后在spiderkeeper可视化界面点击creat project
随便输入一个名字
点击创建,跳到这个界面:
上传egg文件:
点击提交:
上传成功:
此时,部署完成。
运行爬虫
部署完后,点击 Dashboard 这个按钮,再选择 mpc项目,然后点击 RunOnce 按钮创建爬虫
这里参数都默认即可:
点击创建爬虫按钮:然后刷新网页,
Periodic Jobs
定时任务,点击右上角的addjobs后可以添加任务,除了之前有的选项之后还可以设置每个月/每星期/每天/每小时/每分钟 的定时爬虫
Running Stats
查看爬虫的运行情况
至此,爬虫运行完毕。
查看日志点 log 即可,停止爬虫点 stop 即可,其他操作请查看官方文档:https://github.com/DormyMo/SpiderKeeper