linux部署scrapyd+scrapydweb

linux部署scrapyd+scrapydweb

在公司内网服务器上部署scrapyd和scrapydweb。

项目目录

需要自己创建,名字自定义
/kgdata/baike/document:项目目录
项目目录下的文件:
content:爬虫抓取的内容
projectscrapyd:scrapyd运行目录和日志所在位置
scrapydweb: scrapydweb运行目录
scrapydproject:scrapy项目目录

scrapyd安装部署

参考:https://blog.csdn.net/qq_1290259791/article/details/82913925

安装必要包:

pip install scrapyd
pip install scrapyd-client

配置文件

在 /etc 创建scrapyd文件
在 /etc/scrapyd 新建配置文件/scrapyd.conf, Scrapyd在运行的时候会读取此配置文件。
官方conf文件https://scrapyd.readthedocs.io/en/stable/config.html
max_proc_per_cpu = 10 表示每个cpu运行10个爬虫,默认是4。

运行scrapyd

projectscrapyd 目录下运行 scrapyd
会生成 logs eggs dbs twistd.pid (eggs_dir,logs_dir,dbs_dir,配置文件的地址写的projectscrapyd才会生成logs eggs dbs,否则只有 twistd.pid)

查看界面

打开http://127.0.0.1:6800

scrapydweb 安装部署

pip 安装

pip install scrapydweb

scrapydweb 运行 (scrapydweb先运行)

在scrapydweb目录下运行命令 scrapydweb (首次启动将自动在当前工作目录生成配置文件)
文件名称:scrapydweb_settings_v8.py

scrapydweb配置文件

参考:https://blog.csdn.net/xyb1206/article/details/89395316

运行界面

打开地址:http://127.0.0.1:6800
运行界面

Logparser 日志文件解析

能解析日志文件,把item数量写在web界面

安装Logparser

pip install Logparser

运行

logparser -dir /kgdata/baike/document/projectscrapyd/logs (目录是日志地址)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值