一、安装 Selenium
利用 Ajax 接口 爬取数据的方法通常有两种:
- 一种是深挖其中的逻辑,把请求需要的参数的构造逻辑完全找出来,在使用 Python 代码复现,构造 Ajax 请求;
- 另一种是直接模拟浏览器的运行,绕过这个过程,因为在浏览器里是可以看到这个数据的,所以如果能把看到的数据直接爬取下来,当然就能获取对应的信息了。
两种方式各有优劣,具体采用哪一种,需要根据实际情况进行分析。举个简单例子:如果你的工作时间紧任务重,老板数据要得着急,网站请求参数构造的逻辑又相对复杂,我们可以采取第 2 种方式先拿到数据,性能什么的可以先暂时忽略。
题外话:就我个人而言,并不太喜欢使用 Selenium。如果所有数据都依赖于 Sele
本文介绍了如何使用Selenium自动化测试工具来模拟浏览器运行,爬取JavaScript动态渲染的网页数据。讲解了Selenium的安装、ChromeDriver的配置,并提供了反屏蔽网站策略,适合处理动态加载和需要交互的网页。
订阅专栏 解锁全文
3105

被折叠的 条评论
为什么被折叠?



