当你看到这篇文章的时候说明你学爬虫已经有段时间了
首先我们要清楚,为什么要使用selenium
为了防止网络爬虫,加大网络爬虫的难度。很多网站将接口地址做了处理,它们更多的具有这些特点:既冗长又复杂,经过加密,具有时效性,毫无规律可言。
selenium 可以使用模拟浏览器运行的方式,它可以做到在浏览器中看到的是什么样,抓取的源码就是什么样,即可见即可爬。再也不用管网页内容是使用了JavaScrapt还是Ajax,也不用管接口有多复杂了(其实连接口是什么都不用管)。
第一步:
安装Python支持的Selenium库
安装Selenium非常简单,使用pip命令即可:
pip install selenium
第二步:
安装浏览器驱动程序
需要下载一个Selenium调用浏览器的驱动文件。我们以Chrome浏览器为例,看一下下载Chrome浏览器的驱动文件的步骤:
1) 查看Chrome浏览器的版本。
首先要查看当前安装的Chrome浏览器的版本,以便下载与浏览器版本对应的驱动文件。
打开Chrome浏览器,点击菜单中的 “帮助”→“关于Google Chrome”,即可查看Chrome的版本号
第三:下载selenium
地址如下
官方下载地址:https://chromedriver.storage.googleapis.com/index.html。
其他下载地址:http://npm.taobao.org/mirrors/chromedriver/。
第四步:下载解压方放到python路径下,我的如下:
第五:测试
在安装Selenium后
测试代码:
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.baidu.com/")
这就完美完成了!
如果你用的是Anaconda3
需要将驱动文件配置到环境变量中。在Windows下,将下载得到的chromedriver.exe文件拖到Anaconda3的Scripts目录下就可以了,如:C:\Anaconda3\Scripts下
有用吗?有用还不点个赞?
新手博主,请前辈批评指正——丁一