selenium模块和爬虫之间具有怎样的关联?
- 便捷的获取网站中动态加载的数据
- 便捷实现模拟登录
selenium使用流程
1.环境安装:pip install selenium
2.下载一个浏览器的驱动程序(谷歌浏览器)
- 下载路径:http://chromedriver.storage.googleapis.com/index.html
- 驱动程序和浏览器的映射关系:http://blog.csdn.net/huilan_same/article/details/51896672
3.实例化一个浏览器对象
4.编写基于浏览器自动化的操作代码
常用操作:
- 发起请求:get(url)
- 标签定位:find系列的方法
- 标签交互:send_keys(‘xxx’)
- 执行js程序:excute_script(‘jsCode’)
- 前进,后退:back(),forward()
- 关闭浏览器:quit()
示例代码
打开百度页面并执行搜索
from selenium import webdriver
from lxml import etree
import time
#实例化一个浏览器
bro=webdriver.Chrome(executable_path="./chromedriver.exe")
#让浏览器发起一个请求
bro.get("https://www.baidu.com/")
#定位到搜索框
serach_input=bro.find_element_by_id("kw")
#搜索框输入
serach_input.send_keys("自动执行")
#定位到搜索按钮并执行点击
bro.find_element_by_id("su").click()
time.sleep(5)
bro.quit()