什么是selenium
自动化测试工具,可以驱动浏览器
在爬虫中使用是主要为了解决无法使用javascript的问题
如登录验证问题。
为什么要使用selenium
优点:
使用requests模块登录需要分析大量的复杂通信流程,使用selenium可以轻松跳过登录验证
缺点:
浏览器会加载css、js、图片、视频等代码,其爬虫效率比requests要低很多
使用selenium的准备
安装pip3
安装selenium
安装谷歌驱动器
from selenium import webdriver
from time import sleep
from selenium.webdriver import ActionChains
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
'''
在使用url为'http'协议时
访问到的页面和在浏览器访问到的不一致
在使用https协议时,可知正常找到相应标签
'''
driver = webdriver.Chrome()
driver.implicitly_wait(5)
driver.get('http://www.baidu.com')
# search_text = driver.find_element_by_xpath('''//@"id='kw'"''')
input_tag = driver.find_element_by_id('kw')
input_tag.send_keys('朱展昊')
print(driver.page_source)
search_button = driver.find_element_by_id(id_='su')
search_button.click()
sleep(5)
driver.close()