已解决selenium框架接管已经打开的谷歌浏览器(Python反反爬教程,亲测有效)
问题描述
使用selenium自动化测试爬取pdd的时候,通过携带cookie和和账号密码登录,都出现了:错误代码10001:请求异常请升级客户端后重新尝试,这个错误的产生是由于pdd可以检测selenium自动化测试的脚本,因此可以阻止selenium的继续访问。这也算是比较高级的反爬取措施。
解决方法
第一步:找到谷歌浏览器的启动路径,默认在:C:\Program Files\Google\Chrome\Application
复制去打开进入路径,如下所示有chrome.exe
程序(待会我们需要启动它):
第二步:当前路径下输入cmd
,点击回车:
进入cmd控制台:
第三步:我们可以利用Chrome DevTools协议。它允许客户检查和调试Chrome浏览器。在命令行中输入命令,回车:
chrome.exe --remote-debugging-port=9222 --user-data-dir="E:\selenium_data"
-
-remote-debugging-port=端口号
:可以指定任何打开的端口。 -
-user-data-dir
:指定创建新Chrome配置文件的目录。它是为了确保在单独的配置文件中启动chrome,不会污染你的默认配置文件。 -
E:\selenium_data:数据存储的目录,这里可以自己修改希望的存储位置
-
注意:如果失败不要忘了在环境变量中PATH里将chrome的路径添加进去。
第四步:输入命令回车后会启动一个空白浏览器,接下来手动去登录自己目标网站即可:
第五步:现在,我们需要接管上面手动登录好的浏览器。新建一个python文件,运行以下代码:
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_experimental_option("debuggerAddress", "127.0.0.1:9222") # 通过端口号接管已打开的浏览器
driver = webdriver.Chrome(chrome_options=chrome_options)
print(driver.title) # 打印标题
第六步:运行结果,成功打印目标网站标题,表示接管成功,后续就可以做其他selenium操作了看看这篇文章:selenium自动化操作浏览器(基础大全+代码实战)
以上是此问题报错原因的解决方法,欢迎评论区留言讨论是否能解决,如果有用欢迎点赞收藏文章谢谢支持,博主才有动力持续记录遇到的问题!!!
千人全栈VIP答疑群联系博主帮忙解决报错
由于博主时间精力有限,每天私信人数太多,没办法每个粉丝都及时回复,所以优先回复VIP粉丝,可以通过订阅限时9.9付费专栏《100天精通Python从入门到就业》进入千人全栈VIP答疑群,获得优先解答机会(代码指导、远程服务),白嫖80G学习资料大礼包,专栏订阅地址:https://blog.csdn.net/yuan2019035055/category_11466020.html
-
优点:作者优先解答机会(代码指导、远程服务),群里大佬众多可以抱团取暖(大厂内推机会),此专栏文章是专门针对零基础和需要进阶提升的同学所准备的一套完整教学,从0到100的不断进阶深入,后续还有实战项目,轻松应对面试!
-
专栏福利:简历指导、招聘内推、每周送实体书、80G全栈学习视频、300本IT电子书:Python、Java、前端、大数据、数据库、算法、爬虫、数据分析、机器学习、面试题库等等
-
注意:如果希望得到及时回复,和大佬们交流学习,订阅专栏后私信博主进千人VIP答疑群