基于selenium和xpath定位方法爬取某个话题下的微博内容！是真的强！

最新推荐文章于 2023-11-19 10:17:52 发布

爬遍天下无敌手

最新推荐文章于 2023-11-19 10:17:52 发布

阅读量1.6k

点赞数 7

分类专栏： Python 文章标签： python selenium java 人工智能 js

本文链接：https://blog.csdn.net/weixin_43881394/article/details/115441723

版权

本文介绍了如何使用selenium和xpath来模拟用户操作，爬取微博中#嘉兴南湖#话题的评论内容。详细讲解了从安装Firefox驱动到定位元素、模拟输入、翻页等步骤，以及处理翻页和循环结构的重难点。

摘要由CSDN通过智能技术生成

为什么这期要叫暴力爬虫呢？因为笔者认为基于selenium方法非常的简单粗暴！！理由有两点：

1.在selenium方法下，我们可以通过调用浏览器驱动来实现模拟鼠标点击、滑轮下滑以及输入文本等操作，就像真正的用户正在操作浏览器一样（如此一来便可以解决某些需要用户登录才能获取界面的网站），而且在访问网站层面，它的安全性是高于requests方法的，因为它不需要构造一个虚拟请求，所有的操作都是真实发生的。

2.selenium获取网页信息的方法是基于网页的elements而不是network。网页的编排规则一般是：network 下显示了服务器响应给浏览器的文件，这些文件可能包含html、json等格式，浏览器拿到这些文件后，组装成 elements，显示出来。简单理解为，elements是封装得最好的信息，我们在网页上看得到的，elements中都有，即“所见即可得”。在这种情况下，获取到的数据文本就不需要再经过复杂的解析。目前selenium只支持通过Firefox和Chrome两款浏览器进行操作，本文以Firefox为例进行介绍。

安装Firefox驱动

根据操作系统下载Firefox驱动的压缩包，Firefox驱动的中文下载网站：https://liushilive.github.io/github_selenium_drivers/md/Firefox.html

下载好压缩包后，解压得到geckodriver.exe文件，将该文件安装到Python的环境文件夹中site-packages，也可以单独对该文件配置环境变量，

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import selenium.webdriver.support.ui as ui
from selenium.webdriver.common.action_chains import ActionChains  ##引入ActionChains鼠标操作类