python爬虫学习——Selenium的使用

最新推荐文章于 2022-04-08 11:03:16 发布

指针从不空

最新推荐文章于 2022-04-08 11:03:16 发布

阅读量613

点赞数 1

分类专栏： python学习手记文章标签： selenium

本文链接：https://blog.csdn.net/weixin_45605341/article/details/107212314

版权

python学习手记专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。

一、准备工作

正确安装Chrome浏览器并配置好了 ChromeDriver
或者Firefox游览器和GeckoDriver
另外，还需要正确安装好 Python 的 Selenium 库

二、基本使用

1.声明游览器对象

from selenium import webdriver 
#browser = webdriver.Chrome() 
#browser = webdriver.Edge() 
browser=webdriver.Firefox()
#browser=webdriver.safari()

这样就完成了浏览器对象的初始化并将其赋值为 browser 对象。接下来，我们要做的就是调用browser 对象，让其执行各个动作以模拟浏览器操作。

2.访问页面

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
print(browser.page_source)
browser.close()

3.查找结点

单个节点

也可以根据css选择器

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
input_first=browser.find_element_by_id('q')
#input_first=browser.find_elements_by_css_selector('#q')
print(input_first)
browser.close()

另外，Selenium 还提供了通用方法find_element(), 它需要传入两个参数:查找方式By和值。实际上，它就是find element by_ id()这种方法的通用函数版本，比如find_ element_ by_ id(id) 就等价于find _element(By.ID， id), 二者得到的结果完全一致。

多个节点

如果查找的目标在网页中只有一个，那么完全可以用 find_element（）方法。但是有多个节点，再用 find_element（）方法查找，就只能得到第一个节点了。如果要查找所有满足条件的节点，需要用 find_elements（）这样的方法。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
lis=browser.find_elements_by_css_selector('.service-bd li a')
print(lis)
browser.close()

4.节点交互

比较常见的用法有：输入文字时用 send_keys（）方法，清空文字时用 clear（）方法，点击按钮时用click（）方法。

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
lis=browser.find_element_by_css_selector('#q')
lis.send_keys("iphone")
lis.clear()
time.sleep(3)
lis.send_keys("iphone")
buttom=browser.find_element_by_css_selector('.btn-search.tb-bg')
buttom.click()
browser.close()
#获取输入框后，输入iPhone删除等待三秒再输入

5.动作链

还有另外一些操作，它们没有特定的执行对象，比如鼠标拖曳、键盘按键等，这些动作用另一种方式来执行，那就是动作链。

比如一个拖拽节点的操作

from selenium import webdriver 
from selenium.webdriver import ActionChains
import time
browser=webdriver.Firefox()
browser.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
browser.switch_to_frame('iframeResult')#frame切换
source=browser.find_element_by_id('draggable')
target=browser.find_element_by_id('droppable')
action=ActionChains(browser)
action.drag_and_drop(source,target)
action.perform()
browser.close()

首先，打开网页中的一个拖曳实例，然后依次选中要拖曳的节点和拖曳到的目标节点，接着声明ActionChains对象并将其赋值为action变量，然后通过调用actions变量的drag_ and_ drop()方法，再调用perform()方法执行动作，此时就完成了拖曳操作。

6.执行JavaScript

对于某些操作， Selenium API并没有提供。比如，下拉进度条，它可以直接模拟运行JavaScript，此时使用execute_ script()方法即可实现。

from selenium import webdriver 
from selenium.webdriver import ActionChains
import time
browser=webdriver.Firefox()
browser.get('https://weibo.com')
time.sleep(5)
for i in range(0,5):
    browser.execute_script('window.scrollTo(0,document.body.offsetHeight)')#网页可见区域
    time.sleep(4)
browser.close()

7.获取节点信息

通过page_ source 属性可以获取网页的源代码，接着就可以使用解析库来提取信息了。

不过，既然Selenium已经提供了选择节点的方法，返回的是WebElement类型，那么它也有相关的方法和属性来直接提取节点信息，如属性、文本等。这样的话，我们就可以不用通过解析源代码来提取信息了，非常方便。

获取属性

我们可以使用get_attribute()方法来获取节点的属性,但是其前提是先选中这个节点。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore')
time.sleep(3)
logo=browser.find_element_by_id('special')
print(logo.get_attribute('class'))
browser.close()

获取文本值
每个WebElement 节点都有text属性，直接调用这个属性就可以得到节点内部的文本信息。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore')
time.sleep(3)
logo=browser.find_element_by_class_name('ExploreFollowButton')
print(logo.text)
browser.close()

输出：关注专题

获取id，位置、标签名和大小

另外，WebElement节点还有一些其他属性，比如id属性可以获取节点id, location 属性可以获取该节点在页面中的相对位置，tag_ name属性可以获取标签名称，size 属性可以获取节点的大小，也就是宽高。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore')
logo=browser.find_element_by_class_name('ExploreFollowButton')
print(logo.text)
print(logo.location)
print(logo.id)
browser.close()
'''
关注专题
{'x': 1017, 'y': 382}
096067bf-7378-491a-82d8-7111d5c7478b
'''

8.切换frame

我们知道网页中有一种节点叫作iframe,也就是子Frame,相当于页面的子页面，它的结构和外部网页的结构完全一致。 Selenium打开页面后，它默认是在父级Frame里面操作，而此时如果页面中还有子Frame,它是不能获取到子Frame里面的节点的。这时就需要使用switch to. frame()方法来切换Frame。

from selenium import webdriver 
from selenium.webdriver import ActionChains
browser=webdriver.Firefox()
browser.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
browser.switch_to_frame('iframeResult')#frame切换

9.延时等待
在Selenium中，get()方法会在网页框架加载结束后结束执行，此时如果获取page_ source,可能并不是浏览器完全加载完成的页面，如果某些页面有额外的Ajax 请求，我们在网页源代码中也不一定能成功获取到。所以，这里需要延时等待一定时间，确保节点已经加载出来。

隐式等待

当使用隐式等待执行测试的时候，如果Selenium没有在DOM中找到节点，将继续等待，超出设定时间后，则抛出找不到节点的异常。换句话说，当查找节点而节点并没有立即出现的时候，隐式等待将等待一段时间再查找DOM,默认的时间是0。示例如下:

from selenium import webdriver 
browser=webdriver.Firefox()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
logo=browser.find_element_by_class_name('ExploreFollowButton')
print(logo)
browser.close()

这里我们用implicitly_ wait()方法实现了隐式等待。

显式等待
这里还有一种更合适的显式等待方法，它指定要查找的节点，然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点，就返回查找的节点;如果到了规定时间依然没有加载出该节点，则抛出超时异常。示例如下:

from selenium import webdriver 
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import time
browser=webdriver.Firefox()
browser.get('https://www.taobao.com/')
wait=WebDriverWait(browser,10)
logo=wait.until(EC.presence_of_element_located((By.ID,'q')))
print(logo)
browser.close()

在这里插入图片描述

10.前进后退

平常使用浏览器时都有前进和后退功能，Selenium 也可以完成这个操作，它使用back()方法后退，使用forward()方法前进。示例如下:

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get('https://www.taobao.com/')
browser.get('https://www.zhihu.com/explore')
browser.get('https://www.taobao.com/')
browser.back()
time.sleep(2)
browser.forward()
browser.close()

11. Cookies

使用Selenium,还可以方便地对Cookies进行操作，例如获取、添加、删除Cookies等。示例如下:

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore') 
print(browser.get_cookies())
browser.add_cookie({'name': ' name' , ' domain': 'www. zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
browser.close()

12.选项卡管理

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore') 
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com/')
time.sleep(2)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://www.baidu.com/')
browser.close()

首先访问了知乎，然后调用了execute_ script()方法，这里传人window. open()这个JavaScript语句新开启一个选项卡。接下来，我们想切换到该选项卡。这里调用window handles属性获取当前开启的所有选项卡，返回的是选项卡的代号列表。要想切换选项卡，只需要调用switch_to_ window()方法即可。

13.异常处理

在使用Selenium的过程中，难免会遇到一些异常，例如超时、节点未找到等错误，一旦出现此类错误，程序便不会继续运行了。这里我们可以使用try except 语句来捕获各种异常。

from selenium import webdriver 
from selenium.common .exceptions import TimeoutException, NoSuchElementExcephon 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore') 
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()

指针从不空

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
python爬虫学习——Selenium的使用

Selenium 是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。一、准备工作正确安装Chrome浏览器并配置好了 ChromeDriver或者Firefox游览器和GeckoDriver另外，还需要正确安装好 Python 的 Selenium 库二、基本使用1.声明游览器对象from selenium import webdriver #browser = webdriver.Chrome()
复制链接

扫一扫