爬虫之selenium

最新推荐文章于 2024-07-23 21:08:13 发布

Yietong309

最新推荐文章于 2024-07-23 21:08:13 发布

阅读量2.3k

点赞数 2

分类专栏：爬虫文章标签： python chrome 开发语言

本文链接：https://blog.csdn.net/weixin_67531112/article/details/128207021

版权

本文详细介绍了Selenium模块的使用，包括初始化浏览器、元素操作、等待加载、执行JavaScript、处理异常、登录与保存cookie、使用XPath、动作链以及如何应对验证码。特别地，讲解了如何利用动作链进行滑动验证码的破解，并提到了第三方打码平台的运用。

摘要由CSDN通过智能技术生成

selenium介绍

由于requests模块不能执行js，有的页面内容，我们在浏览器中可以看到，但是请求下来没有。

selenium模块：模拟操作浏览器，完成人的行为。

selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器。

模块安装：

pip install selenium

下载驱动

驱动浏览器需要下载相应的驱动，谷歌要下谷歌的驱动，火狐要下火狐的驱动，并且版本要与当前浏览器对应。

这里我选择谷歌浏览器，首先查看当前谷歌浏览器的版本：

版本：

下载驱动，地址：CNPM Binaries Mirror (npmmirror.com)，一定要下载对应的版本驱动，比如我谷歌浏览器版本为103.0.5060.134，就要下103.0.5060.134的驱动

下载对应操作系统即可。

基本使用

导入模块：

from selenium import webdriver

初始化(打开浏览器)：

browser = webdriver.Chrome(executable_path='驱动路径')

# 不写路径，要放到项目路径下或环境变量中
browser = webdriver.Chrome()

在地址栏输入地址：

browser.get('http://www.baidu.com')

关闭标签：

browser.close()

关闭浏览器：

browser.quit()

selenium用法

元素操作

操作浏览器页面中的标签。

1.搜索标签

新版本：by=根据什么查找，value=查找的值

find_element(by, value)：找第一个
find_elements(by, value)：找所有

by的参数	含义
By.ID	根据标签id属性查找
By.LINK_TEXT	根据a标签的文字查找
By.PARTIAL_LINK_TEXT	根据a标签的文字模糊匹配
By.TAG_NAME	根据标签名查找
By.CLASS_NAME	根据标签class属性查找
By.NAME	根据标签name属性查找
By.CSS_SELECTOR	根据css选择器查找
By.XPATH	根据xpath查找

from selenium.webdriver.common.by import By
# 查找网页中id为'login'的标签
tag = browser.find_element(by=By.ID, value='login')
# 查找网页中class为'login'的所有标签
tags = browser.find_elements(By.CLASS_NAME, value='login')
# 查找网页div标签中class属性为'dd'的标签
tag = browser.find_element(by=By.CSS_SELECTOR, value='div .dd')
# 查找网页中a标签文字为'登录'的标签
tag = browser.find_element(by=By.LINK_TEXT, value='登录')

老版本：

browser.find_element_by_id()  # 根据id
browser.find_element_by_link_text()  # 根据a标签的文字
browser.find_element_by_partial_link_text()  # 根据a标签的文字模糊匹配
browser.find_element_by_tag_name()  # 根据标签名
browser.find_element_by_class_name()  # 根据类名
browser.find_element_by_name()  # 根据name属性
browser.find_element_by_css_selector()  # css选择器

2.点击标签

# 查找网页中id为'login'的标签
tag = browser.find_element(by=By.ID, value='login')
# 标签点击
tag.click()

3.向输入框中写内容

tag = browser.find_element(by=By.ID, value='inputTag')
tag.send_keys('内容')

4.清空

tag = browser.find_element(by=By.ID, value='inputTag')
tag.clear()

举例：打开百度搜索'博客园'：

from selenium import webdriver
from selenium.webdriver.common.by import By
# 打开浏览器
browser = webdriver.Chrome()
# 输入网址进入
browser.get('http://www.baidu.com')
# 查找百度输入框
word = browser.find_element(By.ID, 'kw')
# 输入框添加内容
word.send_keys('博客园')
# 查找搜索按钮
btn = browser.find_element(By.ID, 'su')
# 点击搜索按钮
btn.click()

# 等待2秒关闭浏览器
import time
time.sleep(2)
browser.quit()

等待元素被加载

程序操作页面非常快，所以在取每个标签的时候，标签可能没有加载好，取标签时就会报错，所以需要设置等待时间。

如果标签找不到，就会等待，还找不到就会报错：

from selenium import webdriver
from selenium.webdriver.common.by import By
# 打开浏览器
browser = webdriver.Chrome()
# 找不到标签就等待2秒
browser.implicit

最低0.47元/天解锁文章

Yietong309

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
爬虫之selenium

目录selenium介绍基本使用selenium用法元素操作等待元素被加载元素各项属性执行js代码切换选项卡浏览器前进后退无界面浏览器xpath的使用简单介绍selenium中使用异常处理登录获取cookie保存动作链打码平台使用(验证码破解)由于requests模块不能执行js，有的页面内容，我们在浏览器中可以看到，但是请求下来没有。selenium模块：模拟操作浏览器，完成人的行为。selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持
复制链接

扫一扫

专栏目录