python+ubuntu 怎么做自动定时爬虫

爬虫工程师在工作时,有时候需要做到定时爬虫,下面是代码写好之后,如何添加定时任务的过程(无论是requests还是scrapy框架爬虫,都可以使用)

  • 1.在当前目录下增加一个可执行的脚本
    requests在当前目录下, scrapy在配置文件scrapy.cfg目录下增加
    脚本内容如下;

    脚本内容如下;
    #!/bin/sh  
    export PATH=$PATH:/home/python/.local/bin:/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin   
    执行时所拥有的环境变量    查询环境变量命令: echo $PATH
    
    cd `dirname $0` || exit 1   切换到当前目录  也可以使用根目录
    nohup python3 resou.py >> run.log 2>&1    
    执行     命令语句                     出错日志输出
    
  • 2.给脚本增加执行权限 使用 ls -l 查看文件权限
    chmod +x/w/r 文件名
    增加执行/写/读

    也可以 chmod 777 文件名
    执行 代表的值 为 4 第一个7 root用户拥有的权限
    写 代表的值 为 2 第二7 其他用户
    读 代表的值 为 1 第三个7 当前用户

  • 3.添加到送死任务 crontab
    首先确定时候安装crontab, 未安装的上网搜安装教程
    基本命令
    crontab -e 修改或增加执行
    crontab -l 查看所有自动执行的文件

    如果编辑器选择错误, 没有选择vim,输入一下命令选择vim编辑器 单次执行

    export EDITOR="/usr/bin/vim" ; crontab -

    更简单的办法,直接执行命令:select-editor 重新选择编辑器

    crontab -e编辑本文如下
    在这里插入图片描述

*/1 * * * * /home/python/Desktop/weibo/resou/resou.sh >> /home/python/Desktop/weibo/resou/log.log 2>&1
分钟 小时 日期 月份 星期    脚本文件所在路径(建议使用pwd命令查的)   >> 日志输出位置   2>&1代表的时错误日志
5*号分别代表的时间单位 


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值