1:准备
安装scrapyd和gerapy,pip install scrapyd ,pip install scrapyd-client, pip install gerapy,windows系统需进入Python的安装目录(如果是虚拟环境则进入虚拟环境)下的scrapts,创建文件scrapyd-deploy.bat 并记事本打开写入内容
@echo off
"C:\Users\qianzhen\Envs\scrapySpider\Scripts\python.exe" "C:\Users\qianzhen\Envs\scrapySpider\Scripts\scrapyd-deploy" %1 %2 %3 %4 %5 %6 %7 %8 %9
第一个是Python的路径,第二个是scrapyd-deploy也是scrapyd-deploy.bat所在的路径。
2测试命令(可忽略)
cmd进入爬虫项目(新建一个也可以,是包含cfg路径的目录)测试scrapyd-deploy是否能正常运行
3 配置爬虫
修改scrapy爬虫项目的cfg配置文件
4 查看cfg设置是否正确(可忽略)
scrapyd-depoly -l
5 检查是否有功做未完成
开始打包前,执行一个命令:scrapy list ,这个命令执行成功说明可以打包了,如果没执行成功说明还有工作没完成
6 开始打包
scrapyd-deploy (cfg中配置的deploy:后的) -p (你的项目名称)如果status:ok成功error有错误
7 运行
然后使用curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫名称(更多请求请查看scrapyd手册)
运行成功去网页中查看爬虫运行状态IP:6800/ 点击jobs(如果想配置外网ip请在Python的\Lib\site-packages\scrapyd\default_scrapyd.conf中配置bind=0.0.0.0)
8 配置gerapy
1>创建文件夹,存放部署的项目
2>进入文件夹,gerapy init 初始化
3>进入gerapy文件夹,gerapy migrate创建数据表
4>gerapy runserver 启动项目
5>浏览器输入http://127.0.0.1:8000就可以使用