linux定时任务

crontab

在命令行,为当前用户编辑定时任务
在这里插入图片描述

#选择编辑器
select-editor
usage:	crontab [-u user] file
	crontab [ -u user ] [ -i ] { -e | -l | -r }
		(default operation is replace, per 1003.2)
	-e	(edit user's crontab) 编辑定时任务
	-l	(list user's crontab)
	-r	(delete user's crontab)
	-i	(prompt before deleting user's crontab)

#进入编辑定时任务
crontab -u lauf -e

#m h  dom mon dow   command
1 * * * * ls >> log.txt 2>&1 &
1 * * * * /home/lauf/spider.sh
#保存退出,即定时任务开始工作
#这里的时间是具体的时间点,以上为每月、每周、每天、每小时的第一分钟执行该命令  shell 为绝对路径
#每分钟执行一次 */1 * * * *
#每天的22:00执行  0 22 * * * xxxx

#编辑spider.sh,并加可执行权限
sudo vim spider.sh
#!/bin/bash
#打开shell中的alias扩展,默认没有启动
shopt -s expand_aliases
#加载配置
source /etc/profile
#使用别名
lauf_spider

#sudo chmod -R u+x spider.sh


#全局定义别名
sudo vim /etc/profile
alias lauf_spider="cd /home/tarena/Lauf;scrapy crawl lauf"
#一定要进入项目目录,在执行scrapy crawl lauf 

service cron start|restart|stop #重启服务可以
定时使用的命令,需在cron的PATH路径中,它与系统PATH不同

cd /etc/cron.d/anacron

在这里插入图片描述

定时执行shell失败

  1. 定时任务正常
  2. 单独执行shell也正常
    定时执行该shell 就是失败
    查看cron log,发现/var/log/下没有cron.log。配置搞起:
tarena@master:~$ cd /etc/rsyslog.d/
tarena@master:/etc/rsyslog.d$ ls
20-ufw.conf  50-default.conf
tarena@master:/etc/rsyslog.d$ vim 50-default.conf 
#将cron.* 前的注释取消
tarena@master:/etc/rsyslog.d$ sudo service rsyslog restart

然后可以到/var/log/cron.log查看:
在这里插入图片描述
sudo apt-get install -y postfix
数据还是没有写入数据库!!!postfix邮件服务不影响。

终于解决:
在shell 文件中修改如下,

sudo vim spider.sh
#!/bin/bash
#进入项目目录
cd /home/lauf/Lauf

#python3 ./run.py  可行

#如下亦可行
python3 ./run.py >> ~/lauf_spider.log 2>&1

#如下方式就没有数据写入数据库
#scrapy crawl lauf 
#注意

创建项目

scrapy startproject Lauf
cd Lauf

#在项目目录下创建爬虫文件
scrapy genspider lauf domain

#在项目目录下执行 启动
scrapy crawl lauf

#1 配置 settings.py
#2 定义数据结构items.py
	class D1Item(scrapy.Item):
		name = scrapy.Field()
		price = scrapy.Field()
#3 定义spiders内部的爬虫文件
	class LaufSpider(scrapy.Spider):
		name = 'lauf' #project name
		allowed_domain = ["www.baidu.com"]
		start_url = ["http://www.baidu.com"]
		def parse(self,response):
			item = D1Item()
			item["name"] = response.xpath("/xx/xx/text()").get()
			item['url'] = response.xpath("/div/img/@url").get()

			#storage data,give data to pipeline
			yield item
			#give url to scheduler
			yield scrapy.Request(url=item["url"],callback=self.parse,meta={"item":item,"proxy":proxy})

#4  定义管道pipelines.py
	class D1Pipeline(object):
		def open_spider(self,spider):
			"""打开爬虫时,执行一次,用于数据库的连接"""
			self.conn = pymysql.connect(host="localhost",port=3306,user=user,password=password,db="dbname")#尽量按照这个格式写
			self.cursor = self.conn.cursor()
		def process_item(self,item,spider):
			sql = "insert into stu(name,url) values (%s,%s);"
			data = [item["name"],item["url"]]
			self.cursor.execute(sql,data)
			#self.cursor.executemany(sql,datas)
			self.conn.commit()
			return item
		def close_spider(self,spider):
			"""关闭爬虫时,执行一次,用于关闭数据库"""
			self.cursor.close()
			self.conn.close()
#安装管道
ITEM_PIPELINES = {
	#项目.模块.类: 优先级(越小越优先)
   'Lauf.pipelines.LaufPipeline': 300,
}

 
 
 
 
上一篇:js里的困惑

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

laufing

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值