Selenium简介
Selenium是一个Web应用的自动化框架,利用它,我们可以编写相关的自动化程序,让程序完全像人一样在浏览器里面操作Web界面,比如模拟鼠标点击、模拟键盘输入等等。不但能够操作Web界面,还能从Web中获取信息,并且相对来说,使用Selenium来获取信息更加简单,它的基本原理是我们编写自动化程序之后利用浏览器驱动直接对浏览器进行操作,因此原理上来说,只要我们用户能在浏览器上获得的信息使用Selenium都可以获得,在我们编写爬虫程序的时候,最经常使用的可能是requests
了,可实际上在很多网站,它们不是静态网页,有很多东西并不在源代码中,这个时候如果继续使用它就需要使用很多前端的知识了,要对网页进行分析找出来真实的url
,或者对相关js文件解密等等,需要我们掌握一定的知识并且需要进行分析,而如果使用Selenium,则就完全可以傻瓜式的抓我们想要的东西了哈哈哈哈,我觉得,除了速度慢一点,其它方面Selenium几乎无敌。当然,Selenium是一个自动化测试框架,它能做的远不止抓数据这么简单,究竟怎么使用,还是因人而异了。
环境准备
首先使用它肯定要先搭建环境,很简单,我们只需要Selenium这个库以及我们要使用的浏览器驱动即可。
安装Selenium库
以管理员身份打开cmd
输入:
pip install selenium
对了,在安装库的时候可以选择使用国内的一些镜像源,可以极大了提高下载速度,避免有时候连接不上下载失败等情况。具体教程非常简单,自行百度即可。
安装浏览器驱动
如果使用Selenium,浏览器驱动是少不了的,程序本身并不能直接对网页浏览器进行操作,必须要借助浏览器驱动,并且,你使用哪个浏览器,必须要安装对应的浏览器驱动,同时,安装的驱动还有版本区别,==一定要安装自己使用的浏览器版本被支持的驱动==,为了方便大家下载驱动,这里我直接给出几个常用的浏览器驱动下载地址:
- Chrome驱动下载地址:
http://chromedriver.storage.googleapis.com/index.html
- IE驱动下载地址:
http://selenium-release.storage.googleapis.com/index.html
- Edge驱动下载地址: