python selenium学习笔记

最新推荐文章于 2024-09-25 10:56:04 发布

wjd1994

最新推荐文章于 2024-09-25 10:56:04 发布

阅读量817

点赞数 1

文章标签： python3 selenium

本文链接：https://blog.csdn.net/wjd1994/article/details/79182035

版权

首先先放出一个自动操作百度搜索并进入对应页面的操作代码

from selenium import webdriver
driver = webdriver.Chrome("chromedriver.exe")
driver.implicitly_wait(30) # 隐性等待，最长等30秒 
driver.get("http://www.baidu.com")
elem0 = driver.find_element_by_id("kw")
elem0.send_keys("python selenium教程")
elem1 = driver.find_element_by_xpath("..")
elem1.click()
windows = driver.window_handles
#获取当前打开的所有窗口
driver.close()#关闭当前窗口
driver.switch_to.window(windows[-1])#切换为最新打开的窗口
driver.quit()

下面是一个自动下载linux_chromedriver驱动的代码

from selenium import webdriver
driver = webdriver.Chrome("chromedriver.exe")
driver.implicitly_wait(30) # 隐性等待，最长等30秒 
driver.get("https://chromedriver.storage.googleapis.com/index.html?path=2.35/")

elem4 = driver.find_element_by_xpath("/html/body/table/tbody/tr[4]/td[2]/a")
elem4.click()
a = input("please input any key to quit")
driver.quit()

首先pip3.6 install selenium安装包

然后我们就可以用selenium了，我们用chrome浏览器，此时我们需要下载chrome驱动放到python.exe所在目录下

然后我们程序中导入相关包

from selenium import webdriver

关联驱动

driver = webdriver.Chrome("chromedriver.exe")

等待相关操作

第一种也是最简单粗暴的一种办法就是强制等待sleep(xx)，强制让闪电侠等xx时间，不管凹凸曼能不能跟上速度，还是已经提前到了，都必须等xx时间。

二种办法叫隐性等待，implicitly_wait(xx)，隐性等待的意义是：闪电侠和凹凸曼约定好，不论闪电侠去哪儿，都要等凹凸曼xx秒，如果凹凸曼在这段时间内来了，则俩人立即出发去打怪兽，如果凹凸曼在规定时间内没到，则闪电侠自己去，那自然就等着凹凸曼给你抛异常吧。

第三种办法就是显性等待，WebDriverWait，配合该类的until()和until_not()方法，就能够根据判断条件而进行灵活地等待了。它主要的意思就是：程序每隔xx秒看一眼，如果条件成立了，则执行下一步，否则继续等待，直到超过设置的最长时间，然后抛出TimeoutException。

WebDriverWait(driver, 超时时长, 调用频率, 忽略异常).until(可执行方法, 超时时返回的信息)

打开百度网页

driver.get("http://www.baidu.com")

找到输入框id

elem0 = driver.find_element_by_id("kw")

找到输入框位置后我们进入输入操作

elem0.send_keys("python selenium教程")

elem0.clear()#清除搜索框中的内容

找搜索到内容的元素，这里我们找xpath

elem1 = driver.find_element_by_xpath("..")

elem1.click()

然后我们需要进行操作窗口切换

cur_window = driver.current_window_handle#获取当前操作

窗口

windows = driver.window_handles#获取当前打开的所有窗口

driver.close()#关闭当前窗口

driver.switch_to.window(windows[-1])#切换为最新打开的窗口

。。。

driver.back()#后退

driver.quit()

webdriver 相关api,具体参照官方api

定位操作（使用浏览器自带的开发人员选项功能，F12）

以下是所有定位操作的 API :

返回一个匹配元素, 即一个 WebElement 元素
find_element_by_id()
find_element_by_name()
find_element_by_class_name()
find_element_by_tag_name()
find_element_by_link_text()
find_element_by_partial_link_text()
find_element_by_xpath()
find_element_by_css_selector()
返回一个列表, 包含所有匹配的元素，即一个 WebElement 列表
find_elements_by_id()
find_elements_by_name()
find_elements_by_class_name()
find_elements_by_tag_name()
find_elements_by_link_text()
find_elements_by_partial_link_text()
find_elements_by_xpath()
find_elements_by_css_selector()

使用的时候需注意下面几点 :

python selenium 提供了两种对象 : WebDriver 和 WebElement
这两种对象都可以使用这些 API
这些 API 一旦执行失败(即查找不到), 就会抛出异常
因此必须使用 try: .. except: ... 机制避免错误的行为影响程序继续进行
WebDriver 调用以上 API 进行全局定位
WebElement 调用以上 API 可以进行层级定位, 即 查找当前元素的子元素

WebDriver 的使用

# 获取所有的广告
all_ads_li = browser.find_elements_by_css_selector('#e_idea_pp li')

WebElement 的使用

使用 browser.find_element_by_xx() 得到的是一个 WebElement 实例
使用获得的实例调用上面的 API 即可进行层级查找
使用 browser.find_elements_by_xx() 得到的是一个元素是 WebElement 实例的 list
通过对 list 的遍历, 即可对各个实例进行相应的操作

WebDriver 的一些常用操作

browser.curren_url : 获取当前加载页面的 URL
browser.close() : 关闭当前窗口, 如果当前窗口是最后一个窗口, 浏览器将关闭
browser.quit() : 关闭所有窗口并停止 ChromeDriver 的执行

browser.add_cookie(cookie_dict) : 为当前会话添加 cookie
browser.get_cookie(name) : 得到执行 cookie
browser.get_cookies() : 得到所有的 cookie

driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’}) driver.add_cookie({‘name’ : ‘foo’, ‘value’ : ‘bar’, ‘path’ : ‘/’, ‘secure’:True})

browser.delete_all_cookies() : 删除当前会话的所有cookie
browser.delete_cookie(name) : 删除指定 cookie
browser.back() : 相当于浏览器的后退历史记录
browser.forward() : 相当于浏览器的前进历史记录
browser.execute_script(script, *args) : 同步执行 js 脚本
browser.execute_async_script(script, *args) : 异步执行 js 脚本
browser.get(url) : 在当前窗口加载 url
browser.refresh() : 刷新当前页面
browser.current_window_handle : 当前窗口的 handle，相当于一个指针一样的东西, 用来指向当前窗口
browser.window_handles : 当前浏览器中的已经打开的所有窗口, 是一个 list
browser.switch_to_window(window_handle) : 切换 window_handle 指向的窗口
browser.title : 当前页面的 title
browser.name : 当前浏览器的名字