python爬虫学习——Selenium的使用

Selenium 是一个 自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作, 同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。

一、准备工作

正确安装Chrome浏览器并配置好了 ChromeDriver
或者Firefox游览器和GeckoDriver
另外,还需要正确安装好 Python 的 Selenium 库

二、基本使用

1.声明游览器对象

from selenium import webdriver 
#browser = webdriver.Chrome() 
#browser = webdriver.Edge() 
browser=webdriver.Firefox()
#browser=webdriver.safari()

这样就完成了浏览器对象的初始化并将其赋值为 browser 对象。 接下来,我们要做的就是调用browser 对象,让其执行各个动作以模拟浏览器操作。

2.访问页面

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
print(browser.page_source)
browser.close()

3.查找结点

  • 单个节点

也可以根据css选择器

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
input_first=browser.find_element_by_id('q')
#input_first=browser.find_elements_by_css_selector('#q')
print(input_first)
browser.close()

另外,Selenium 还提供了通用方法find_element(), 它需要传入两个参数:查找方式By和值。实际上,它就是find element by_ id()这种方法的通用函数版本,比如find_ element_ by_ id(id) 就等价于find _element(By.ID, id), 二者得到的结果完全一致。

  • 多个节点

如果查找的目标在网页中只有一个,那么完全可以用 find_element()方法。 但是有多个节点, 再用 find_element()方法查找,就只能得到第一个节点了。 如果要查找所有满足条件的节点, 需要用 find_elements()这样的方法。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
lis=browser.find_elements_by_css_selector('.service-bd li a')
print(lis)
browser.close()

4.节点交互

比较常见 的用法有:输入文字时用 send_keys()方法,清空文字时用 clear()方法,点击按钮时用click()方法。

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get("https://www.taobao.com")
lis=browser.find_element_by_css_selector('#q')
lis.send_keys("iphone")
lis.clear()
time.sleep(3)
lis.send_keys("iphone")
buttom=browser.find_element_by_css_selector('.btn-search.tb-bg')
buttom.click()
browser.close()
#获取输入框后,输入iPhone删除等待三秒再输入

5.动作链

还有另外一些操作,它们没有特定的执行对象,比如鼠标拖曳、键盘按键等,这些动作用另一种方式来执行,那就是动作链。

比如一个拖拽节点的操作

from selenium import webdriver 
from selenium.webdriver import ActionChains
import time
browser=webdriver.Firefox()
browser.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
browser.switch_to_frame('iframeResult')#frame切换
source=browser.find_element_by_id('draggable')
target=browser.find_element_by_id('droppable')
action=ActionChains(browser)
action.drag_and_drop(source,target)
action.perform()
browser.close()

首先,打开网页中的一个拖曳实例,然后依次选中要拖曳的节点和拖曳到的目标节点,接着声明ActionChains对象并将其赋值为action变量,然后通过调用actions变量的drag_ and_ drop()方法,再调用perform()方法执行动作,此时就完成了拖曳操作。

6.执行JavaScript

对于某些操作, Selenium API并没有提供。 比如,下拉进度条,它可以直接模拟运行JavaScript,此时使用execute_ script()方法即可实现。

from selenium import webdriver 
from selenium.webdriver import ActionChains
import time
browser=webdriver.Firefox()
browser.get('https://weibo.com')
time.sleep(5)
for i in range(0,5):
    browser.execute_script('window.scrollTo(0,document.body.offsetHeight)')#网页可见区域
    time.sleep(4)
browser.close()

7.获取节点信息

通过page_ source 属性可以获取网页的源代码,接着就可以使用解析库来提取信息了。

不过,既然Selenium已经提供了选择节点的方法,返回的是WebElement类型,那么它也有相关的方法和属性来直接提取节点信息,如属性、文本等。这样的话,我们就可以不用通过解析源代码来提取信息了,非常方便。

  • 获取属性

我们可以使用get_attribute()方法来获取节点的属性,但是其前提是先选中这个节点。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore')
time.sleep(3)
logo=browser.find_element_by_id('special')
print(logo.get_attribute('class'))
browser.close()
  • 获取文本值
    每个WebElement 节点都有text属性,直接调用这个属性就可以得到节点内部的文本信息。
from selenium import webdriver 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore')
time.sleep(3)
logo=browser.find_element_by_class_name('ExploreFollowButton')
print(logo.text)
browser.close()

输出:关注专题

  • 获取id,位置、 标签名和大小

另外,WebElement节点还有一些其他属性,比如id属性可以获取节点id, location 属性可以获取该节点在页面中的相对位置,tag_ name属性可以获取标签名称,size 属性可以获取节点的大小,也就是宽高。

from selenium import webdriver 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore')
logo=browser.find_element_by_class_name('ExploreFollowButton')
print(logo.text)
print(logo.location)
print(logo.id)
browser.close()
'''
关注专题
{'x': 1017, 'y': 382}
096067bf-7378-491a-82d8-7111d5c7478b
'''

8.切换frame

我们知道网页中有一种节点叫作iframe,也就是子Frame,相当于页面的子页面,它的结构和外部网页的结构完全一致。 Selenium打开页面后,它默认是在父级Frame里面操作,而此时如果页面中还有子Frame,它是不能获取到子Frame里面的节点的。这时就需要使用switch to. frame()方法来切换Frame。

from selenium import webdriver 
from selenium.webdriver import ActionChains
browser=webdriver.Firefox()
browser.get("https://www.runoob.com/try/try.php?filename=jqueryui-api-droppable")
browser.switch_to_frame('iframeResult')#frame切换

9.延时等待
在Selenium中,get()方法会在网页框架加载结束后结束执行,此时如果获取page_ source,可能并不是浏览器完全加载完成的页面,如果某些页面有额外的Ajax 请求,我们在网页源代码中也不一定能成功获取到。所以,这里需要延时等待一定时间, 确保节点已经加载出来。

  • 隐式等待

当使用隐式等待执行测试的时候,如果Selenium没有在DOM中找到节点,将继续等待,超出设定时间后,则抛出找不到节点的异常。换句话说,当查找节点而节点并没有立即出现的时候,隐式等待将等待一段时间再查找DOM,默认的时间是0。示例如下:

from selenium import webdriver 
browser=webdriver.Firefox()
browser.implicitly_wait(10)
browser.get('https://www.zhihu.com/explore')
logo=browser.find_element_by_class_name('ExploreFollowButton')
print(logo)
browser.close()

这里我们用implicitly_ wait()方法实现了隐式等待。

  • 显式等待
    这里还有一种更合适的显式等待方法,它指定要查找的节点,然后指定一个最长等待时间。如果在规定时间内加载出来了这个节点,就返回查找的节点;如果到了规定时间依然没有加载出该节点,则抛出超时异常。示例如下:
from selenium import webdriver 
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
import time
browser=webdriver.Firefox()
browser.get('https://www.taobao.com/')
wait=WebDriverWait(browser,10)
logo=wait.until(EC.presence_of_element_located((By.ID,'q')))
print(logo)
browser.close()

在这里插入图片描述在这里插入图片描述

10.前进后退

平常使用浏览器时都有前进和后退功能,Selenium 也可以完成这个操作,它使用back()方法后退,使用forward()方法前进。示例如下:

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get('https://www.taobao.com/')
browser.get('https://www.zhihu.com/explore')
browser.get('https://www.taobao.com/')
browser.back()
time.sleep(2)
browser.forward()
browser.close()

11. Cookies

使用Selenium,还可以方便地对Cookies进行操作,例如获取、添加、删除Cookies等。示例如下:

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore') 
print(browser.get_cookies())
browser.add_cookie({'name': ' name' , ' domain': 'www. zhihu.com', 'value': 'germey'})
print(browser.get_cookies())
browser.delete_all_cookies()
browser.close()

12.选项卡管理

from selenium import webdriver 
import time
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore') 
browser.execute_script('window.open()')
print(browser.window_handles)
browser.switch_to_window(browser.window_handles[1])
browser.get('https://www.taobao.com/')
time.sleep(2)
browser.switch_to_window(browser.window_handles[0])
browser.get('https://www.baidu.com/')
browser.close()

首先访问了知乎,然后调用了execute_ script()方法,这里传人window. open()这个JavaScript语句新开启一个选项卡。接下来,我们想切换到该选项卡。这里调用window handles属性获取当前开启的所有选项卡,返回的是选项卡的代号列表。要想切换选项卡,只需要调用switch_to_ window()方法即可。

13.异常处理

在使用Selenium的过程中,难免会遇到一些异常, 例如超时、节点未找到等错误,一旦出现此类错误,程序便不会继续运行了。这里我们可以使用try except 语句来捕获各种异常。

from selenium import webdriver 
from selenium.common .exceptions import TimeoutException, NoSuchElementExcephon 
browser=webdriver.Firefox()
browser.get('https://www.zhihu.com/explore') 
try:
    browser.find_element_by_id('hello')
except NoSuchElementException:
    print('No Element')
finally:
    browser.close()
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值