测试selenium

小Pawn爷

已于 2024-03-03 16:12:21 修改

阅读量917

点赞数 1

分类专栏： 14.Test 文章标签： python selenium

于 2021-08-15 18:19:11 首次发布

本文链接：https://blog.csdn.net/weixin_44689630/article/details/119717514

版权

14.Test 专栏收录该内容

2 篇文章 1 订阅

订阅专栏

在这里插入图片描述

1.安装工作

安装过程可以参考：ChromeDriver 的安装和Selenium 的安装

2.基本使用

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support import expected_conditions as ec
from selenium.webdriver.support.wait import WebDriverWait


browser = webdriver.Chrome()

try:
    browser.get('https://www.baidu.com')
    my_input = browser.find_element_by_id('kw')
    my_input.send_keys('Python')
    my_input.send_keys(Keys.ENTER)
    wait = WebDriverWait(browser, 10)
    wait.until(ec.presence_of_element_located((By.ID, 'content_left')))
    print(browser.current_url)
    print(browser.get_cookies())
    print(browser.page_source)

finally:
    browser.close()

3.声明浏览器对象

from selenium import webdriver
browser = webdriver.Chrome() 
browser = webdriver.Firefox() 
browser = webdriver.Edge() 
browser = webdriver.Safari()

4.访问页面

from selenium import webdriver
browser = webdriver.Chrome() 
#访问淘宝
browser.get('https://www.taobao.com') 
#获取网页的源代码
print(browser.page_source) 
browser.close()

5.查找节点

5.1单节点

from selenium import webdriver

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
input_first = browser.find_element_by_id('q')
input_second = browser.find_element_by_css_selector('#q')
input_third = browser.find_element_by_xpath('//*[@id="q"]')
print(input_first)  # 结果为WebElement类型
print(input_second)
print(input_third)
browser.close()

获取单个节点的方法
find_element_by_id
find_element_by_name
find_element_by_xpath
find_element_by_link_text
find_element_by_partial_link_text
find_element_by_tag_name
find_element_by_class_name
find_element_by_css_selector

find_element (查找方式 By,值)

from selenium import webdriver 

from selenium.webdriver.common.by import By
browser = webdriver.Chrome() 
browser.get('https://www.taobao.com') 
input_first = browser.find_element(By.ID, 'q') 
print(input_first) 
browser.close()

5.2多节点

from selenium import webdriver 
browser = webdriver.Chrome() 
browser.get('https://www.taobao.com') 
#注意，在这个方法的名称中，element 多了一个 s，注意区分
lis = browser.find_elements_by_css_selector('.service-bd li') 
print(lis) # 结果为列表类型
browser.close()

多节点方法
find_elements_by_id
find_elements_by_name
find_elements_by_xpath
find_elements_by_link_text
find_elements_by_partial_link_text
find_elements_by_tag_name
find_elements_by_class_name
find_elements_by_css_selector

find_elements (查找方式 By,值)->列表

lis = browser.find_elements(By.CSS_SELECTOR, '.service-bd li')

6.节点交互

Selenium 可以驱动浏览器来执行一些操作，或者说可以让浏览器模拟执行一些动作。比较常见的用法有：输入文字时用 send_keys 方法，清空文字时用 clear 方法，点击按钮时用 click 方法。示例如下：

from selenium import webdriver
import time

browser = webdriver.Chrome()
browser.get('https://www.taobao.com')
my_input = browser.find_element_by_id('q')
my_input.send_keys('iPhone')
time.sleep(1)
my_input.clear()
my_input.send_keys('iPad')
button = browser.find_element_by_class_name('btn-search')
button.click()

节点交互官方文档。

7.动作链

在上面的实例中,一些交互动作都是针对某个节点执行的.比如,对于输入框,我们调用它的输入文字和清空文字方法,对于按钮,我们调用它的点击方法.其实,还有另外一些操作,它们没有特定的执行对象,比如鼠标拖拽,键盘按键等,这些动作用另一种方式来执行,那就是动作链

# 实现一个节点的拖拽操作,将某个节点从一处拖拽到另外一处
from selenium import webdriver 
from selenium.webdriver import ActionChains 
browser = webdriver.Chrome() 
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable' 
browser.get(url) 
browser.switch_to.frame('iframeResult') 
source = browser.find_element_by_css_selector('#draggable') 
target = browser.find_element_by_css_selector('#droppable') 
#声明ActionChains对象
actions = ActionChains(browser)
#调用drag_and_drop
actions.drag_and_drop(source, target)
#执行动作
actions.perform()

结果如图所示：

拖拽前页面

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-inokJorl-1629022716843)(https://s0.lgstatic.com/i/image3/M01/7D/12/Cgq2xl59oBaAebZXAACbaBgWl4k530.png)]

拖拽后页面
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e9gO2h8O-1629022716846)(https://s0.lgstatic.com/i/image3/M01/03/FC/Ciqah159oBeAZICwAACKn0bkfog611.png)]

更多的动作链操作可以参考官方文档的动作链介绍：动作链操作官方文档。

8.执行JavaScript

Selenium API 并没有提供实现某些操作的方法,比如,下拉进度条.但它可以直接模拟运行 JavaScript.此时使用 execute_script 方法即可实现,代码如下：

from selenium import webdriver 
browser = webdriver.Chrome() 
browser.get('https://www.zhihu.com/explore') 
# 将进度条下拉到最底部
browser.execute_script('window.scrollTo(0, document.body.scrollHeight)') 
# 弹出 alert 提示框
browser.execute_script('alert("To Bottom")')

9.获取节点信息

from selenium import webdriver
browser = webdriver.Chrome()
url = 'https://dynamic2.scrape.center/'
browser.get(url)
# 选中节点
logo = browser.find_element_by_class_name('logo-image')
print(logo)
#get_attribute获取src属性
print(logo.get_attribute('src'))
# 选中节点
my_input = browser.find_element_by_class_name('logo-title') 
print(my_input.text) #获取文本
print(my_input.id) #获取id
print(my_input.location)# 获取位置
print(my_input.tag_name) # 获取标签名
print(my_input.size)# 获取大小

10.切换 Frame

1.switch_to.frmae()

2.switch_to.parent_frame()

from selenium import webdriver
from selenium.common.exceptions import NoSuchElementException
browser = webdriver.Chrome()
url = 'http://www.runoob.com/try/try.php?filename=jqueryui-api-droppable'
browser.get(url)
browser.switch_to.frame('iframeResult')
try:
    logo = browser.find_element_by_class_name('logo')
except NoSuchElementException:
    print('NO LOGO')
browser.switch_to.parent_frame()
logo = browser.find_element_by_class_name('logo')
print(logo)
print(logo.text)

11.延时等待

1.隐式等待

隐式等待可以在我们查找节点而节点并没有立即出现的时候,等待一段时间再查找 DOM,默认的时间是0

from selenium import webdriver
browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get('https://dynamic2.scrape.center/')
my_input = browser.find_element_by_class_name('logo-image')
print(my_input)

2.显式等待

指定要查找的节点,然后指定一个最长等待时间.如果在规定时间内加载出来了这个节点,就返回查找的节点,如果到了规定时间依然没有加载出该节点,则抛出超时异常

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
browser = webdriver.Chrome()
browser.get('https://www.taobao.com/')
# 创建WebDriverWait对象,指定等待时间10s超过等待时间则抛出异常
wait = WebDriverWait(browser, 10)
# 判断ID为q的元素是否存在
my_input = wait.until(EC.presence_of_element_located((By.ID, 'q')))
#判断css选择器为.btn-search 的按钮是否可点击
button = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '.btn-search')))
print(my_input)
print(button)

等待条件:

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GKiHqMn2-1629022716848)(https://s0.lgstatic.com/i/image3/M01/04/3A/Ciqah1596FyAIAjtAAECe0Jujuw745.png)]

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-dzeEcz2y-1629022716850)(https://s0.lgstatic.com/i/image3/M01/04/3A/Ciqah1596R2Af973AAEiFfxC3E4161.png)]

更多详细的等待条件的参数及用法介绍可以参考官方文档：显示等待条件官方文档

12.前进后退

平常我们使用浏览器时都有前进和后退功能,Selenium 也可以完成这个操作,它使用 back 方法后退,使用 forward 方法前进.示例如下：

import time 
from selenium import webdriver 
browser = webdriver.Chrome() 
browser.get('https://www.baidu.com/') 
browser.get('https://www.taobao.com/') 
browser.get('https://www.python.org/') 
# 回到第 2 个页面
browser.back() 
time.sleep(1) 
# 前进到第 3 个页面
browser.forward() 
browser.close()

13.Cookies

使用 Selenium，还可以方便地对 Cookies 进行操作，例如获取、添加、删除 Cookies 等。示例如下：

from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.zhihu.com/explore')
# 获取cookie
print(browser.get_cookies())
# 增加cookie
browser.add_cookie({'name': 'name', 'domain': 'www.zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
# 删除cookie
browser.delete_all_cookies()
print(browser.get_cookies())

14.选项卡管理

在访问网页的时候，我们通常会开启多个选项卡。在 Selenium 中，我们也可以对选项卡进行操作。示例如下：

import time
from selenium import webdriver
browser = webdriver.Chrome()
browser.get('https://www.baidu.com')
# 新增空白标签
browser.execute_script('window.open()')
# 输出浏览器已有的选项卡
print(browser.window_handles)
# 跳转到浏览器的第二个选项卡
browser.switch_to.window(browser.window_handles[1])
browser.get('https://www.taobao.com')
time.sleep(1)
# 跳转到浏览器的第一个选项卡
browser.switch_to.window(browser.window_handles[0])
browser.get('https://python.org')

15.异常处理

from selenium import webdriver
from selenium.common.exceptions import TimeoutException, NoSuchElementException

browser = webdriver.Chrome()
try:
    browser.get('https://www.baidu.com')
except TimeoutException:
    print('Time Out')
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

关于更多的异常类,可以参考官方文档：selenium异常类

16.反屏蔽

现在很多网站都加上了对 Selenium 的检测,检测基本原理是检测当前浏览器窗口下的 window.navigator 对象是否包含 webdriver 这个属性.因为在正常使用浏览器的情况下,这个属性是 undefined,然而一旦我们使用了 Selenium,Selenium 会给 window.navigator 设置 webdriver 属性.很多网站就通过 JavaScript 判断如果 webdriver 属性存在,那就直接屏蔽

在 Selenium 中,我们可以使用 CDP(即 Chrome Devtools-Protocol,Chrome 开发工具协议)来解决这个问题,通过 CDP 我们可以实现在每个页面刚加载的时候执行 JavaScript 代码,执行的 CDP 方法叫作 Page.addScriptToEvaluateOnNewDocument,然后传入Object.defineProperty(navigator, "webdriver", {get: () => undefined})JavaScript 代码即可,这样我们就可以在每次页面加载之前将 webdriver 属性置空了.另外我们还可以加入几个选项来隐藏 WebDriver 提示条和自动化扩展信息,代码实现如下

from selenium import webdriver
from selenium.webdriver import ChromeOptions

option = ChromeOptions()
# 隐藏提示条
option.add_experimental_option('excludeSwitches', ['enable-automation'])
# 隐藏自动化扩展信息
option.add_experimental_option('useAutomationExtension', False)
browser = webdriver.Chrome(options=option)
# 执行cdp的addScriptToEvaluateOnNewDocument方法
# 将window.navigator对象webdriver设置为空
browser.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
    'source': 'Object.defineProperty(navigator, "webdriver", {get: () => undefined})'
})
browser.get('https://antispider1.scrape.center/')

17.无头模式

from selenium import webdriver
from selenium.webdriver import ChromeOptions
option = ChromeOptions()
#添加无头参数
option.add_argument('--headless')
browser = webdriver.Chrome(options=option)
#无头模式需要设置窗口
browser.set_window_size(1366, 768)
browser.get('https://www.baidu.com')
browser.get_screenshot_as_file('preview.png')