selenium远程调试chrome绕过反爬机制

最新推荐文章于 2024-08-30 11:25:29 发布

金鳞本鲤

最新推荐文章于 2024-08-30 11:25:29 发布

阅读量2k

点赞数

本文链接：https://blog.csdn.net/weixin_43906500/article/details/116046332

版权

错误处理同时被 2 个专栏收录

8 篇文章 1 订阅

订阅专栏

python

4 篇文章 0 订阅

订阅专栏

前言：部分网站通过检测selenium指纹来识别爬虫，为了抵抗反爬机制考虑通过selenium远程调试绕过反爬

1.开始chrome远程调试

使用命令开始chrome远程调试端口

chrome --remote-debugging-port=9222

运行后打开chrome，执行python代码

from selenium import webdriver

chrome_options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('debuggerAddress','127.0.0.1:9222')

driver = webdriver.Chrome(chrome_options=chrome_options)
driver.get("baidu.com")

报错，无法连接

网上找到解决办法

参考链接：https://blog.csdn.net/qq_42841075/article/details/107091052

关闭所有chrome进程后，成功连接

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

金鳞本鲤

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

selenium爬虫如何绕过反爬，看这一篇文章就足够了

猫敷雪

09-17

4025

参考维基百科解释webrtc：WebRTC，名称源自网页即时通信（英语：Web Real-Time Communication）的缩写，是一个支持网页浏览器进行实时语音对话或视频对话的API。它于2011年6月1日开源并在Google、Mozilla、Opera支持下被纳入万维网联盟的W3C推荐标准[2][3][4]。说人话就是说浏览器内置了一些API接口，这些API可以用来方便一些网站进行实时通信类的功能开发，比如语音、视频等流媒体网站。

反爬虫之利用chrome的debug模式破解不允许selenium模拟的网站

寸草心的博客

04-04

1万+

原因: 我们利用selenium爬取很多网站都很方便,但是有的网站如知乎和淘宝会检测selenium. 这些网站如果直接通过selenium打开网站,selenium会携带一些指纹信息,如:window.navigator.webdriver 网站js通过检测类似的指纹信息,可以检测到你在使用自动化工具,就不让你登录解决:这时我们可以利用chrome的远程调试结合selenium来遥控chr...

参与评论您还未登录，请先登录后发表或查看评论

selenium连接远程chrome浏览器

最新发布

qq_45444679的博客

08-30

556

下载地址：https://github.com/StudioEtrange/socat-windows。在远程机器安装socat-windows，使用9223端口代理本地9222端口。安装： pip install chrome-proxy -U。命令行启动代理服务器：chrome_proxy。在远程机器命令行启动浏览器。本地selenium连接。本地selenium连接。selenium连接。

找到chrome的可执行程序，就是用selenium模拟不能直接登录浏览器的反爬虫机制

weixin_44274975的博客

04-04

296

注释：查看chrome的进程，注意首先要打开浏览器才能查看进程 1，ps -ef | grep chrome /opt/google/chrome,就是一个进程的路径 2.cd /opt/google/chrome 3.ls #就可以看到当前文件夹下所有的信息，不包括隐藏的 4…/chrome 注释：当前目录下的文件注释：这个是远程操控chrome, 注释：selen是一个自己创建的文...

Chrome调试remote-debugging-port

zuyeju8258的博客

04-22

598

chrome://inspect--remote-debugging-port=xxxx

nodejs+typescript爬虫之接管浏览器，也称之为“远程调试模式”

qq_41877039的博客

06-23

544

nodejs+typescript也可以爬虫

【保姆级教学】Python爬虫、Selenium、Scrapy爬虫框架、反爬与反反爬、Appium

03-06

视频课程分享——【保姆级教学】Python爬虫、Selenium、Scrapy爬虫框架、反爬与反反爬、Appium，附源码+文档下载

chatgpt赋能python：Python如何绕过反爬机制提高爬虫效率

laod112的博客

06-16

821

反爬机制是一种技术，用于防止爬虫在不允许的情况下访问网站。它可以采取各种形式，例如验证码、IP封锁、请求频率限制等等。这些反爬机制的目的是防止爬虫访问网站并获取数据，从而保护网站数据的安全。本文由chatgpt生成，文章没有在chatgpt生成的基础上进行任何的修改。以上只是chatgpt能力的冰山一角。作为通用的Aigc大模型，只是展现它原本的实力。对于颠覆工作方式的ChatGPT，应该选择拥抱而不是抗拒，未来属于“会用”AI的人。🧡AI职场汇报智能办公文案写作效率提升教程 🧡专注于AI+职场+办公。

绕过反爬的八种方式

xinyan023542的博客

05-25

2426

反爬虫方式千千万，绕过的方式万万千，很多反爬虫机制是无法绕过的，比如人家给你加个复杂验证码，你的爬虫就GG了，方法是各种各样的，下面来简单介绍一下。 1.请求频率限制。其实是基于用户行为的，有的站点有防火墙或者程序有设置，单位时间内请求过多给你禁IP。绕过方式：使用sleep等待随机时间，这招比较狠，你可以在一个时间段内生成个随机时间，然后传递给sleep，但是这种方式会拉长爬虫周期，最好的方法就是从IP入手，多找一些代理IP去访问就可以了。 2.user-agent限制。这个绕过也很简单，设置个use

[Python]selenium+Chrome 反反爬

Loading_BFX的博客

03-18

657

from selenium import webdriver import time def main(): options = webdriver.ChromeOptions() options.add_experimental_option("excludeSwitches", ["enable-automation"]) options.add_experimental_option('useAutomationExtension', False) driver =

爬虫类Chrome去除前端无限debugger反调试(轻松分析算法)

宝明Q:8685066的博客

11-26

1万+

实际问题与需求想对网站进行爬虫操作或分析算法时，打开F12和往常不同的是，浏览器自动断点,导致无法正常分析js,如图可知，浏览debugger处于暂停状态，这是前端浏对非授权调试者在debug时造成干扰，在一定程度上保护前端代码这种情况比较无奈，本文说下自己解决的两个方法吧！本文涉及工具：浏览器，fiddler 演示登陆的地址：https://m.eyee.com/login （后期网站如有变...

设置 Chrome 远程调试端口

热门推荐

Criss@陈磊

04-17

2万+

Visual Studio Code 断点调试 Vue 设置 Chrome 远程调试端口首先我们需要在远程调试打开的状态下启动 Chrome, 这样 VS Code 才能 attach 到 Chrome 上: Windows 右键点击 Chrome 的快捷方式图标，选择属性在目标一栏，最后加上--remote-debugging-port=9222 注意要用空格隔开 m...

Chrome远程调试

Struggling_Jeff的博客

05-07

4291

Chrome远程调试。

打开谷歌浏览器远程调试功能

08-28

3405

目录。

seleniuim chromedriver 固定chrome浏览器端口以及远程调试（windows & linux）python

Damonhaus的博客

06-12

5517

想要浏览器稳定些，可以在页面长期挂着一个浏览器，然后driver 通过端口连接，进而获取数据，接下来通过chrome浏览器，chromedriver进行实

解决方案：爬虫被反爬，检测出是selenium，报400，无法进入网站

weixin_44439675的博客

05-28

1万+

一、报错： 1.报错截图: 2.报错截图对应的代码： from selenium import webdriver import time class Crawl_ZhuanLi(object): def __init__(self): chromeoption = webdriver.ChromeOptions() # chromeoption.add_argument('--headless') # 无头浏览器 chromeoption.a

Selenium 连接到现有的 Google Chrome 示例

yudiandian2014的专栏

11-27

1318

Selenium 连接到现有的 Google Chrome 示例

解决Chrome浏览器远程调试打不开的问题

rmtwealth的博客

12-11

3946

Chrome 远程调试不能运行的问题

python selenium绕过反爬

08-16

绕过反爬虫机制是一个敏感的话题，因为它可能涉及到绕过网站的正当保护措施。作为一个 AI 助手，我鼓励遵守网站的规则和政策，并建议使用合法和道德的方法进行数据收集。然而，有些网站可能会采取一些简单的反爬虫措施，比如检测浏览器的 User-Agent、使用验证码或限制频繁请求等。在这种情况下，你可以尝试以下方法来减轻反爬虫机制对 Selenium 的影响： 1. 修改 User-Agent：通过设置 WebDriver 的 User-Agent 字段，可以让你的请求看起来更像是来自真实的浏览器。例如，你可以使用 `webdriver.ChromeOptions()` 来创建一个选项对象，并使用 `add_argument()` 方法来设置 User-Agent。 ```python from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.82 Safari/537.36") driver = webdriver.Chrome(options=options) ``` 2. 使用代理服务器：通过使用代理服务器，你可以隐藏你的真实 IP 地址，并访问网站时模拟不同的地理位置和 IP。你可以使用 Selenium 的 `webdriver.ChromeOptions()` 来设置代理服务器。 ```python from selenium import webdriver options = webdriver.ChromeOptions() options.add_argument("--proxy-server=http://your-proxy-server-ip:port") driver = webdriver.Chrome(options=options) ``` 3. 处理验证码：如果网站使用了验证码来阻止自动化访问，你可以使用第三方库（如 pytesseract）来识别和处理验证码。请注意，绕过验证码可能是违法的，所以在进行此操作之前，请确保你对网站的规则和法律有充分的了解。无论你使用何种方法，都应该遵守网站的规则和政策，并确保你的行为合法、道德且不侵犯他人的权益。