使用selenium自动化操作浏览器

最新推荐文章于 2024-06-26 17:22:14 发布

生信修炼手册

最新推荐文章于 2024-06-26 17:22:14 发布

阅读量987

点赞数

文章标签：火狐 selenium 编程语言 firefox css

本文链接：https://blog.csdn.net/weixin_43569478/article/details/109349336

版权

这篇博客介绍了selenium作为浏览器自动化测试工具的使用，包括如何选择和匹配浏览器驱动，如chromedriver和geckodriver。selenium支持无头浏览器PhantomJS，但推荐使用火狐和谷歌浏览器的headless模式。文章展示了selenium的基本用法，如启动浏览器、定位和操作元素，并强调其在爬虫中的应用，特别是处理动态页面。此外，还列举了定位和操作元素的各种方法，如find_element系列和send_keys等。

摘要由CSDN通过智能技术生成

欢迎关注”生信修炼手册”!

selenium是一个浏览器自动测试工具，通过驱动程序来自动化操作对应的浏览器，包括了打开浏览器窗口，定位元素，点击按钮，上传文件等操作，支持以下多款主流浏览器

selenium借助驱动程序webdriver来驱动相应的浏览器，以最常用的谷歌和火狐浏览器为例，对应的驱动程序如下

1. chromdriver, 谷歌浏览器的驱动程序

2. geckodriver, 火狐浏览器的驱动程序

chromdriver的下载地址如下

>http://chromedriver.storage.googleapis.com/index.html

geckodriver的下载地址如下

>https://github.com/mozilla/geckodriver/releases

需要注意的，要保证驱动程序和浏览器版本的匹配，这样才可以成功驱动浏览器。

在浏览器之中，有一个特殊的浏览器，称之为无头浏览器PhantomJS，是一个没有GUI界面的浏览器，原生支持命令行运行模式，非常实用linux服务器上的自动化。但是随着该项目没人进一步维护，以及谷歌和火狐浏览器对于无头模式，即headless模式的支持，在python的selenium模块中，更推荐使用火狐和谷歌浏览器。

下面来看下selenium操作浏览器的最基本使用方式，代码如下

>>> from selenium import webdriver
>>> browser = webdriver.PhantomJS()
>>> browser.get('https://www.baidu.com')
>>> browser.close()

上述程序通过webdriver来启动PhantomJS浏览器，然后打开了百度首页，操作完毕之后关闭了浏览器的窗口。

在爬虫程序中，通过自动化操作浏览器，来模拟真实用户的浏览操作，避开了动态资源解析的难点，使得程序的结果和我们在浏览器中获得的结果完全一致，所以selenium是爬虫的一大利器，是解决动态页面的终极武器，但是缺点也很显著，就是速度慢了很多，所以主要应用于复杂网站的资源爬取。

通过selenium模块，还可以实现以下操作

1. 定位元素，就是查找html中的特定元素

2. 操作元素，进行下拉列表的选择，文本框的输入，按钮的提交等操作

1. 定位元素

有多种方法来查找元素，对应find_element系列方法，又可以细分为查找单个元素和多个元素，区别就是多个元素对应的函数名字为find_elements。以查找单个元素为例，有以下几种方法

1. find_element_by_id

2. find_element_by_name

3. find_element_by_xpath

4. find_element_

最低0.47元/天解锁文章

生信修炼手册

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用selenium自动化操作浏览器

欢迎关注”生信修炼手册”!selenium是一个浏览器自动测试工具，通过驱动程序来自动化操作对应的浏览器，包括了打开浏览器窗口，定位元素，点击按钮，上传文件等操作，支持以下多款主流浏览器...
复制链接

扫一扫