信息爬取新闻
一. 实验背景
如今的生活比较繁忙,而接收到的信息量巨大,会有忽略的时候,所以我选择信息爬取实验,来爬取本校数信学院的官网上关于本科生的通知,然后发送到邮箱,方便对信息进行查阅。
二. 数据来源
华南农业大学数学与信息学院、软件学院的官网
三. 原始数据
从官网上拿到的html数据,如下是官网截图
四. 数据描述和处理
用爬虫获取到的是html数据,需要使用BeautifulSoup对数据进行解析,转换成能够提取相应节点的数据。
数信官网html分析
五. 实验环境
编译器:pycharm2017
python版本:3.7.4
六. 程序处理步骤
- 使用requests包对网页发起请求,获取对于的html数据
- 用BeautifulSoup对html数据进行解析提取
- 使用smpt创建发送服务器
- 使用email包创建email的格式和内容
- 查看接受的邮件
实验结果:
七. 核心代码及解析
爬虫代码:
设置请求头的浏览器参数
headers = {
'User - Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebK