前言
在该文章当中主要使用了以下的技术及工具
Python语言3.x
selenium模块中的webdriver
Chrome浏览器
chromedriver驱动器
设置路径
设置selenium打开的浏览器所使用的Cookies的位置。
在Chrome浏览器地址栏输入
chrome://version/
如图,即可获得路劲信息
注意:要在路径前加上以下这段
–user-data-dir=
如下:
r'--user-data-dir=C:\Users\xxx\AppData\Local\Google\Chrome\User Data'
将组合后的路径添加入option中
如下:
from selenium import webdriver
profile_directory = r'--user-data-dir=C:\Users\xxx\AppData\Local\Google\Chrome\User Data'
option = webdriver.ChromeOptions()
option.add_argument(profile_directory)
driver = webdriver.Chrome(chrome_options=option)
|
|
|
添加所需数据
在需要爬取的网站页面中,通过F12打开页面调试工具,然后在Cookies里面找到我们需要的数据
(Network->当前主页文件->Cookies)
将数据添加到程序所打开网页的Cookie中
from selenium import webdriver
driver = webdriver.Chrome()
url = "www.xxx.com"
driver.get(url)
driver.add_cookie({"name":"JSESSIONID","value":"8C671E1D81DAF47D36D29A43B09CD4EE"})
|
|
|
总结
完成以上步骤后,运行爬虫程序就可以成功绕过登录页面的拦截了
另外,还需要注意:
运行爬虫程序时,其它所有的Chrome浏览器进程都必须关闭,否则好可能会出现报错的情况