Python爬虫：Selenium+BeautifulSoup解析动态HTML页面【附完整代码】

Java Punk

已于 2022-10-08 17:36:50 修改

阅读量9.4k

点赞数 17

分类专栏：《Python从入门到精通》文章标签： python 爬虫 selenium

于 2022-10-08 17:10:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44259720/article/details/127075628

版权

前言

前短时间，为了验证公司的验证码功能存在安全漏洞，写了一个爬虫程序抓取官网图库，然后通过二值分析，破解验证码进入系统刷单。其中，整个环节里关键的第一步就是拿到数据 -- Python 爬虫技。

今天，我打算把爬虫经验分享一下，因为不能泄露公司核心信息，所以我随便找了一个第三方网站——《懂车帝》做演示。为了展示Selenium效果，网站需满足：需要动态加载（下拉）才能获取完整（或更多）数据的网页，如：淘宝，京东，拼多多的商品也都可以。

通过本篇，你将学会通过Selenium自动化加载HTML的技巧，并利用 BeautifulSoup 解析静态的HTML页面，还有使用 xlwt 插件操作 Excel。

本文仅教学使用，无任何攻击行为或意向。

正文

一、页面分析

1. 打开页面，提取关键信息

首先，打开“某瓣电影一周新片榜”的页面：https://www.dongchedi.com/sales，截图省略了下面列表部分。

然后，提取榜单里的关键信息，如：当前月份，汽车排名，图片链接，汽车名称，汽车品牌，评论数等，这是我们需要爬取的数据，接下来就需要弄清楚他们在 Html 中的位置。

2. 分析Html页面

Chrome浏览器 - 【F12】检查下 Html 页面结构，找到排行榜数据的具体位置，这对我们后续利用 Selenium 和 BeautifulSoup 解析至关重要。

下面图片里可以看到，月份信息在 “<div class="more_more__z2kQC"></div>” 标签里（篇幅原因，没有展示全），而当月的榜单信息在"<li class="list_item__3gOKl">"的标签里，10条 “<tr></tr> ”标签形成一个List集合。

注意：当前页面第一次进来页面只会加载出10条记录，如果想要获取全量的排行榜数据，我们需要用到 Selenium 技术动态加载页面，直到数据全部加载出来为止。

最低0.47元/天解锁文章

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Java Punk 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。