简单说明
本文主要实现的功能有两个,不包含爬虫部分的教学:
- 定时功能,实现python的定时自动爬取功能;
- 通知功能,实现python发邮件通知信息功能;
代码实现
1.定时功能
下面是一些关于定时功能的应用方法介绍,后续想要什么时间定时爬取自己修改即可
import schedule
import time
#引入schedule和time
def job():
print("I'm working...")
#定义一个叫job的函数,函数的功能是打印'正在工作中...'
schedule.every(10).minutes.do(job) #部署每10分钟执行一次job()函数的任务
schedule.every().hour.do(job) #部署每×小时执行一次job()函数的任务
schedule.every().day.at("10:30").do(job) #部署在每天的10:30执行job()函数的任务
schedule.every().monday.do(job) #部署每个星期一执行job()函数的任务
schedule.every().wednesday.at("13:15").do(job)#部署每周三的13:15执行函数的任务
#检查部署的情况,如果任务准备就绪,就开始执行任务。
while True:
schedule.run_pending()
time.sleep(1)
2.通知功能
在这里我是通过QQ邮件进行通知,其流程为:
连接服务器的部分如下,我用的是qq邮箱,所以搜索qq邮箱的smtp服务器地址(百度),如果想用网易邮箱,也可以搜索网易邮箱的smtp服务器地址
import smtplib
mailhost='smtp.qq.com'
#把qq邮箱的服务器地址赋值到变量mailhost上
qqmail = smtplib.SMTP()
#实例化一个smtplib模块里的SMTP类的对象,这样就可以SMTP对象的方法和属性了
qqmail.connect(mailhost,25)
#连接服务器,第一个参数是服务器地址,第二个参数是SMTP端口号。
账号密码登录,此处的密码不是QQ账号密码,该密码需要去这里获取:https://mail.qq.com/,登录你的邮箱,然后点击位于顶部的【设置】按钮,选择【账户设置】,然后下拉到这个位置:
把首个SMTP服务开启,QQ邮箱会提供给你一个授权码,注意保护好你的授权码,该授权码就是这里的密码
account = input('请输入你的邮箱:')
#获取邮箱账号
password = input('请输入你的密码:')
#获取邮箱密码
qqmail.login(account,password)
#登录邮箱,第一个参数为邮箱账号,第二个参数为邮箱密码
receiver=input('请输入收件人的邮箱:')
#获取收件人的邮箱
下面是邮件正文,该部分比较好理解:
from email.mime.text import MIMEText
from email.header import Header
#引入Header和MIMEText模块
content=input('请输入邮件正文:')
message = MIMEText(content, 'plain', 'utf-8')
#实例化一个MIMEText邮件对象,该对象需要写进三个参数,分别是邮件正文,文本格式和编码.
subject = input('请输入你的邮件主题:')
message['Subject'] = Header(subject, 'utf-8')
#在等号的右边,是实例化了一个Header邮件头对象,该对象需要写入两个参数,分别是邮件主题和编码,然后赋值给等号左边的变量message['Subject']。
3.整体实现
爬取的天气网站是http://www.weather.com.cn/weather/101280601.shtml
将爬虫+定时+通知三个模块组装,就完成了整个流程,总代码如下:
import requests
import smtplib
import schedule
import time
from bs4 import BeautifulSoup
from email.mime.text import MIMEText
from email.header import Header
account = input('请输入你的邮箱:')
password = input('请输入你的密码:')
receiver = input('请输入收件人的邮箱:')
def weather_spider():
headers={'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'}
url='http://www.weather.com.cn/weather/101280601.shtml'
res=requests.get(url,headers=headers)
res.encoding='utf-8'
soup=BeautifulSoup(res.text,'html.parser')
tem1= soup.find(class_='tem')
weather1= soup.find(class_='wea')
tem=tem1.text
weather=weather1.text
return tem,weather
def send_email(tem,weather):
mailhost='smtp.qq.com'
qqmail = smtplib.SMTP()
qqmail.connect(mailhost,25)
qqmail.login(account,password)
content= tem+weather
message = MIMEText(content, 'plain', 'utf-8')
subject = '今日天气预报'
message['Subject'] = Header(subject, 'utf-8')
try:
qqmail.sendmail(account, receiver, message.as_string())
print ('邮件发送成功')
except:
print ('邮件发送失败')
qqmail.quit()
# 发送成功后显示“邮件发送成功”,失败的时候提示我们“邮件发送失败”
def job():
print('开始一次任务')
tem,weather = weather_spider()
send_email(tem,weather)
print('任务完成')
schedule.every().day.at("07:30").do(job)
#定在每天7:30爬取和发送
while True:
schedule.run_pending()
time.sleep(1)