100天玩转python——day67 使用Selenium抓取网页动态内容

最新推荐文章于 2025-08-17 18:07:40 发布

白话机器学习

最新推荐文章于 2025-08-17 18:07:40 发布

阅读量1.4k

点赞数

CC 4.0 BY-SA版权

分类专栏： 100天玩转python语言文章标签： python selenium 开发语言

本文链接：https://blog.csdn.net/zy_dreamer/article/details/131754973

100天玩转python语言专栏收录该内容

78 篇文章 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用Selenium自动化测试工具抓取网页动态内容，详细讲解了Selenium的安装、加载页面、查找元素、模拟用户行为、等待策略、执行JavaScript以及应对反爬策略，还提供了无头浏览器的设置方法。通过实例展示了如何从360图片网站搜索并下载图片。

使用Selenium抓取网页动态内容

根据权威机构发布的全球互联网可访问性审计报告，全球约有四分之三的网站其内容或部分内容是通过JavaScript动态生成的，这就意味着在浏览器窗口中“查看网页源代码”时无法在HTML代码中找到这些内容，也就是说我们之前用的抓取数据的方式无法正常运转了。解决这样的问题基本上有两种方案，一是获取提供动态内容的数据接口，这种方式也适用于抓取手机 App 的数据；另一种是通过自动化测试工具 Selenium 运行浏览器获取渲染后的动态内容。对于第一种方案，我们可以使用浏览器的“开发者工具”或者更为专业的抓包工具（如：Charles、Fiddler、Wireshark等）来获取到数据接口，后续的操作跟上一个章节中讲解的获取“360图片”网站的数据是一样的，这里我们不再进行赘述。这一章我们重点讲解如何使用自动化测试工具 Selenium 来获取网站的动态内容。

Selenium 介绍

Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的行为，最终帮助爬虫开发者获取到网页的动态内容。简单的说，只要我们在浏览器窗口中能够看到的内容，都可以使用 Selenium 获取到，对于那些使用了 JavaScript 动态渲染技术的网站，Selenium 会是一个重要的选择。下面，我们还是以 Chrome 浏览器为例，来讲解 Selenium 的用法，大家需要先安装 Chrome 浏览器并下载它的驱动。Chrome 浏览器的驱动程序可以在ChromeDriver官网进行下载，驱动的版本要跟浏览器的版