一、监控的意义
爬虫脚本是基于网站的结构去写的,但是随着互联网的发展,很多公司的页面结构会发生变化,发生的变化就会导致我们写的爬虫失效,最主要的失效方式是xpath的失效。随着我们写的爬虫越来越多,越就越来越难以发现这些失效的脚本,导致数据更新失败,不及时,或者不满足抓取的质量和数量要求。这就需要对爬虫的脚本进行监控。
监控的目的是让数据及时的更新,脚本及时的发现bug以及解决bug。提高我们的工作效率。更好的保证线上数据产品的优质性。
我们需要介绍两种常见的监控方式:1、邮件 2、钉钉
二、Python邮件监控(SMTP)
1. SMTP简介
SMTP(Simple Mail Transfer Protocol)即简单邮件传输协议,它是一组用于由源地址到目的地址传送邮件的规则,由它来控制信件的中转方式。
python的smtplib提供了一种很方便的途径发送电子邮件。它对smtp协议进行了简单的封装。
Python创建 SMTP 对象语法如下:
import smtplib
smtpObj = smtplib.SMTP( [host [, port [, local_hostname]]] )
参数说明:
- host: SMTP 服务器主机。 你可以指定主机的ip地址或者域名如: runoob.com,这个是可选参数。
- port: 如果你提供了 host 参数, 你需要指定 SMTP 服务使用的端口号,一般情况下 SMTP 端口号为25。
- local_hostname: 如果 SMTP 在你的本机上,你只需要指定服务器地址为 localhost 即可。
Python SMTP 对象使用 sendmail 方法发送邮件,语法如下:
SMTP.sendmail(from_addr, to_addrs, msg[, mail_options, rcpt_options])
参数说明:
- from_addr: 邮件发送者地址。
- to_addrs: 字符串列表,邮件发送地址。
- msg: 发送消息
这里要注意一下第三个参数,msg 是字符串,表示邮件。我们知道邮件一般由标题,发信人,收件人,邮件内容,附件等构成,发送邮件的时候,要注意 msg 的格式。这个格式就是 smtp 协议中定义的格式。
2. 邮件监控五个步骤
#导入邮件包
import smtplib
# 1.创建邮件对象
smtp_obj = smtplib.SMTP()
# 2.连接服务器
smtp_obj.connect()
#3.登录操作
smtp_obj.login()
#4.发邮件
smtp_obj.sendmail()
#5.退出操作
smtp_obj.quit()