Python爬虫：BeautifulSoup解析静态HTML页面【附完整代码】

Java Punk

已于 2022-09-28 19:18:13 修改

阅读量7.8k

点赞数 10

分类专栏：《Python从入门到精通》文章标签： python 爬虫 beautifulsoup

于 2022-09-27 16:37:48 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44259720/article/details/127072138

版权

前言

前短时间，为了验证公司的验证码功能存在安全漏洞，写了一个爬虫程序爬取官网图库，然后通过二值分析，破解验证码进入系统刷单。其中，整个环节里关键的第一步就是利用 Python 爬虫技术就是拿到数据。

今天，我打算把爬虫经验分享一下，因为不能泄露公司核心信息，所以只能再一次拿“某瓣电影”开刀啦，O(∩_∩)O哈哈~

通过本篇，你将学会破解【身份鉴别】类的反爬虫程序，并利用 BeautifulSoup 解析静态的HTML页面，还有使用 xlwt 插件操作 Excel。

本文仅教学使用，无任何攻击行为或意向。

正文

一、页面分析

1. 打开页面，提取关键信息

首先，打开“某瓣电影一周新片榜”的页面：https://movie.douban.com/chart，截图省略了下面列表部分。

然后，提取榜单里的关键信息，如：电影名，图片链接，详情链接，评分，评论数等，这是我们需要爬取的数据，接下来就需要弄清楚他们在 Html 中的位置。

2. 分析Html页面

Chrome浏览器 - 【F12】检查下 Html 页面结构，找到排行榜数据的具体位置，这对我们后续利用 BeautifulSoup 解析至关重要。

下面图片里可以看到，TOP10榜单信息在 “<div class="indent"></div>” 标签里，而每一条记录都在 “<tr class="item"></tr>” 标签里，10条 “<tr></tr> ”标签形成一个List集合。

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Java Punk 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。