爬取华农数信院官网的新闻，并且发送到邮箱

木棉m

已于 2022-01-19 20:51:39 修改

阅读量1.1k

点赞数

文章标签：爬虫 python 数据挖掘

于 2022-01-19 15:19:23 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46739744/article/details/121602353

版权

信息爬取新闻

一．实验背景

如今的生活比较繁忙，而接收到的信息量巨大，会有忽略的时候，所以我选择信息爬取实验，来爬取本校数信学院的官网上关于本科生的通知，然后发送到邮箱，方便对信息进行查阅。

二．数据来源

华南农业大学数学与信息学院、软件学院的官网

三．原始数据

从官网上拿到的html数据，如下是官网截图
在这里插入图片描述

四．数据描述和处理

用爬虫获取到的是html数据，需要使用BeautifulSoup对数据进行解析，转换成能够提取相应节点的数据。

数信官网html分析
在这里插入图片描述

五．实验环境

编译器：pycharm2017
python版本：3.7.4

六．程序处理步骤

使用requests包对网页发起请求，获取对于的html数据
用BeautifulSoup对html数据进行解析提取
使用smpt创建发送服务器
使用email包创建email的格式和内容
查看接受的邮件

实验结果：
在这里插入图片描述

七．核心代码及解析

爬虫代码：

设置请求头的浏览器参数

    headers = {
   
        'User - Agent': 'Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebK

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬取华农数信院官网的新闻，并且发送到邮箱

信息爬取新闻一．实验背景如今的生活比较繁忙，而接收到的信息量巨大，会有忽略的时候，所以我选择信息爬取实验，来爬取本校数信学院的官网上关于本科生的通知，然后发送到邮箱，方便对信息进行查阅。二．数据来源华南农业大学数学与信息学院、软件学院的官网三．原始数据从官网上拿到的html数据，如下是官网截图四．数据描述和处理用爬虫获取到的是html数据，需要使用BeautifulSoup对数据进行解析，转换成能够提取相应节点的数据。数信官网html分析部分原始数据如下：五．实验环境编译器
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。