绕过Cloudflare或DataDome的一种方法

偶然看到的,通过Google的webcache来获取站点的快照。

URL示例: https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/

在这里插入图片描述


比如piie站点,正常浏览会触发cloudflare的质询。
在这里插入图片描述

通过webcache访问:https://webcache.googleusercontent.com/search?q=cache:https://www.piie.com/

可以选择有渲染的完整版本,或者文字版本,或者源码版本
在这里插入图片描述

站点内容:
在这里插入图片描述


详情页对比,webcache内容:

在这里插入图片描述

页面内容:
在这里插入图片描述


笔者测试了一些站点,像 piie.com、ecfr.eu、wsj.com之类都可通过这种方法获取html内容。

虽然快照有半天到一天的延迟,但相对于Cloudflare防护的繁琐,也不失为一种解决方法。

而对一些特定采集场景,使用webcache可能有出其不意的效果。


除了google的快照,一些网站也提供类似服务,比如 https://web.archive.org/

不过效果并没有google好,快照的延迟更高。

大家有其他方法可留言

### 解决 ChromeDriver 安装过程中的常见问题 #### 验证 Chrome 和 ChromeDriver 版本匹配 确保使用的 Chrome 浏览器版本与 ChromeDriver 的版本相兼容至关重要。不匹配可能导致各种错误,如无法启动浏览器实例找不到 WebDriver 实例等问题。可以通过访问 [ChromeDriver 下载页面](https://sites.google.com/a/chromium.org/chromedriver/downloads),找到对应于当前安装的 Google Chrome 浏览器版本的 ChromeDriver 版本[^1]。 #### 正确设置环境变量 Path 放置 `chromedriver.exe` 文件的位置应当被加入系统的 PATH 环境变量中以便全局调用。如果未正确配置此路径,则可能会收到类似于 `'chromedriver' 不是内部外部命令...` 这样的提示信息。按照说明将 ChromeDriver 放置在适当位置并将该目录添加至系统环境变量可以有效解决问题。 #### 使用命令行验证安装情况 为了确认 ChromeDriver 是否成功安装以及是否能够正常工作,在命令行界面输入如下指令来查看其版本号: ```bash chromedriver --version ``` 这一步骤有助于排查因文件损坏其他原因引起的安装失败状况。对于 Windows 用户来说,执行上述命令前需先切换到存放 `chromedriver.exe` 的具体文件夹下;而对于 macOS Linux 用户,默认情况下可以在任意位置运行这条命令[^2]。 #### 利用第三方库简化操作流程 考虑到自动化测试框架可能面临的反爬虫机制挑战,采用像 `undetected-chromedriver` 这样专门设计用来绕过机器人检测方案(例如 Distil, Imperva, DataDomeCloudflare IUAM)的工具包不失为一种明智的选择。这类库通常提供更简便易用的方法来进行驱动程序管理,并且自带处理许多复杂场景的功能[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

考古学家lx(李玺)

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值