使用Selenium模拟浏览器，实现自动爬取数据

最新推荐文章于 2024-08-03 20:32:40 发布

文宇肃然

最新推荐文章于 2024-08-03 20:32:40 发布

阅读量2.1k

点赞数

分类专栏：人工智能AI实战系列代码全解析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wenyusuran/article/details/107181965

版权

人工智能AI实战系列代码全解析专栏收录该内容

64 篇文章 248 订阅 ¥29.90 ¥99.00

订阅专栏

本文介绍了如何使用Selenium自动化爬取数据，重点在于模拟浏览器操作，如文本输入、选择元素和点击按钮。通过Selenium解决动态网页抓取问题，适合对网页技术有一定了解并寻求高效解决方案的Python开发者。

摘要由CSDN通过智能技术生成

最近需要在一个网站下载一批数据。但是输入一个查询，返回三四万条结果，每次只能导出500条，而且每次还得输入下载条目的范围！这样点击下载，还不要了我的老命。于是乎想自动化这个过程。

我的需求主要是两点：1. 要求自动化程度高。最好有直接模拟浏览器鼠标和键盘动作的成熟接口，比如在文本框输入，选择下拉列表，单选框，复选框，点击按钮等。2. 不要求效率。因为我要的数据量相对来说很小。3. python下的框架。因为平时几乎主要用python。

我不太懂网站技术，和网站沾边的经验只有两个：开发过一个很简单安卓的客户端，用python的scrapy框架写过爬虫来自动爬取新闻。所以了解一些客户端和服务端基本的交互方式、了解如何分析网页源代码、了解xpath语法。

刚开始针对这个问题，我连搜啥都不太清楚。知乎的这篇文章提供了很多有用信息：“Python 爬虫如何获取 JS 生成的 URL 和网页内容？” 顺着它我又权衡了很多方法，最后选择了Selenium。主要优点是学习成本极小，代码实现快。缺点是爬取效率低。想要高效率的朋友，就要花一些时间学习更复杂的工具包了。

网站技术

想要自动爬取网页，得了解一些基本的知识，这样做起来更快。这

了解本专栏

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

文宇肃然 精神和物质鼓励你选一个吧

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。