使用docker创建2个容器作为爬虫的服务器
使用docker run 运行容器,并指定端口
docker run -itd -p 9901:22 --name ubantu1 docker.io/ubuntu:latest /bin/bash
停止容器 :docker stop f7fe504ac8c8(CONTAINER ID)
使用docker ps查看容器运行状态
在两台服务器上安装scrapyd,scrapy,宿主机安装scrapy-client:
直接命令安装: pip install scrapyd
安装完成后修改默认的配置文件default_scrapyd.conf
将default_scrapyd.conf拷贝到/etc/scrapyd/scrapyd.conf
并将默认绑定的127.0.0.1ip修改为服务端ip
将代码上传至宿主机上
进入爬虫的项目配置文件所在目录
#部署分布式爬虫
scrapyd-deploy -a
#启动分布式爬虫
curl http://172.17.0.3:6800/schedule.json -d project=projectname -d spider=spidername
curl http://172.17.0.2:6800/schedule.json -d project=projectname -d spider=spidername
#关闭分布式爬虫
curl http://172.17.0.3:6800/cancel.json -d project=projectname -d job=f13e4276134e11eba24b0242ac110003
curl http://172.17.0.2:6800/cancel.json -d project=projectname -d job=f4a3869c134e11eb8fec0242ac110002