Python爬虫：BeautifulSoup解析静态HTML页面 —— 爬取学校官网新闻标题

小小岛风

已于 2023-04-07 22:47:15 修改

阅读量258

点赞数

文章标签： python 爬虫 beautifulsoup

于 2023-04-07 22:46:49 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_58973212/article/details/130022185

版权

该文章演示了如何使用Python的requests库获取网页内容，然后利用lxml的etree模块进行初步解析，再通过BeautifulSoup进行深入分析。具体操作包括设置User-Agent，抓取特定class的HTML元素，以及提取<a>标签内的文本信息。

摘要由CSDN通过智能技术生成

import requests
from lxml import etree
from bs4 import BeautifulSoup

url = "http://www.glutnn.cn/list.aspx?s=1&ClassID=110101&Curpage=1"
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 '
                  'Safari/537.36 Edg/111.0.1661.62'}
                  
response = requests.get(url=url, headers=headers)
response.encoding = 'utf-8'

html = etree.HTML(response.text)

# 保存网页→html文件
open('work.html', 'w', encoding='utf-8').write(response.text)
# 解析页面信息
soup = BeautifulSoup(open('work.html', encoding='utf-8'), features='html.parser')
# 获取所有 class_="td_list" 的 <td></td>
for title in soup.find_all('td', class_="td_list"):
    # <td>标签下第一个<a>标签的文本的值
    print(title.a.text)

参考文章：https://huaweicloud.csdn.net/63808503dacf622b8df8986b.html?spm=1001.2101.3001.6650.16&utm_medium=distribute.pc_relevant.none-task-blog-2_defaultBlogCommendFromBaidu_{activity-16-127072138-blog-123870433.235^v28^pc_relevant_recovery_v2&depth_1-utm_source=distribute.pc_relevant.none-task-blog-2}default_{BlogCommendFromBaidu}activity-16-127072138-blog-123870433.235^v28pc_relevant_recovery_v2&utm_relevant_index=24

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫：BeautifulSoup解析静态HTML页面 —— 爬取学校官网新闻标题

参考文章：https://huaweicloud.csdn.net/63808503dacf622b8df8986b.html?
复制链接

扫一扫

小小岛风 CSDN认证博客专家 CSDN认证企业博客

码龄3年

6: 原创

191万+: 周排名

47万+: 总排名

1605: 访问

: 等级

60: 积分

0: 粉丝

0: 获赞

3: 评论

2: 收藏

私信

关注

热门文章

最新评论

Python实现插入、选择、冒泡排序
CSDN-Ada助手: 非常感谢您的第二篇博客，看到您能够用Python实现三种排序算法，我不禁为您的技能点赞。希望您能够继续分享您的学习和经验，让更多的人受益。除了插入、选择、冒泡排序，如果您还了解其他的排序算法，比如归并排序、快速排序等等，也可以分享给我们。另外，如果您能够介绍一些常用的Python库，比如NumPy、Pandas、Matplotlib等等，也会让我们受益匪浅。再次感谢您的分享！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2 如果您持续创作，完成第三篇博客，并且质量分达到 80 分以上，在评论区就有机会获得红包奖励哦！
【有待理解和修改的代码】协程爬取学校网页
CSDN-Ada助手: 非常感谢您的努力创作，看到您能够探索协程爬取学校网页，让我感到非常欣慰。不过，您也提到了代码还有待理解和修改，这也是我们在学习过程中常常遇到的问题。希望您能够继续学习和探索，不断改进自己的代码，让其更加优秀和稳定。同时，建议您在下一步的创作中，可以尝试更加深入的探索和研究，挖掘出更多有价值的内容，祝您一切顺利！ CSDN 会根据你创作的前四篇博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply4 看奖励名单。
Python爬虫：BeautifulSoup解析静态HTML页面 —— 爬取学校官网新闻标题
CSDN-Ada助手: 恭喜您开始博客创作，这篇关于Python爬虫的文章很有价值。特别是对于解析静态HTML页面和爬取学校官网新闻标题的内容，让读者能够更深入地了解这个领域。期待您未来更多的优秀文章！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
Python实现猴子选大王
CSDN-Ada助手: Python入门技能树或许可以帮到你：https://edu.csdn.net/skill/python?utm_source=AI_act_python

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。