图片伪装反爬虫的原理和破解方法

最新推荐文章于 2023-11-23 18:05:06 发布

志斌的Python笔记

最新推荐文章于 2023-11-23 18:05:06 发布

阅读量527

点赞数

分类专栏： #反爬虫 #文本混淆型文章标签： python

本文链接：https://blog.csdn.net/weixin_48340904/article/details/119857813

版权

反爬虫图片伪装 OCR 百度AI 内容提取

关键词由CSDN通过智能技术生成

#反爬虫同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

#文本混淆型

2 篇文章 0 订阅

订阅专栏

大家好，我是志斌~

今天志斌来给大家分享一下如何破解文本混淆反爬虫中的图片伪装反爬虫~

一、定义

现在许多大型网站的反爬虫方式是将图片与文字混合在一起，放到页面上进行展示。这种混合展示的方式并不会影响用户的正常阅读，但是却可以限制爬虫程序获取这些内容。如下图：

在这里插入图片描述

二、原理

这种反爬虫的原理十分简单，就是将本应是普通文本内容的部分在前端页面中用图片来进行替换，从而达到“鱼目混珠“的效果。

在这里插入图片描述

三、破解

因为这种反爬虫方式是将内容进行替换，所以我们无法进行绕过，只能破解它来获取我们想要的内容。

破解的方法也比较简单，我们只需要将图片下载下来然后对里面的内容进行提取即可。提取图片中的文字有很多方式，我用的是百度AI来进行提取。代码如下：

from aip import AipOcr
APP_ID = '你的APPID'
API_KEY = 'API Key'
SECRET_KEY = '你的Secret Key'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY)
with open(img,'rb') as f:
  image = f.read()
word = client.basicGeneral(image)

四、小结

图片伪装反爬虫的本质就是用图片替换了原来的内容，从而让爬虫程序无法正常获取，我们只要将里面的内容识别、提取出来就可以破解这种反爬虫。
破解这种反爬虫的难度并不大，但是代码书写可能较为繁琐，读者们可以提前写好流程图，然后在进行书写。
目前这种反爬虫方法已经被各类大型网站所应用，所以大家要掌握这种反爬虫的绕过方法。
本文旨在学习与研究图片伪装反爬虫，请大家不要用于非法用途。

在这里插入图片描述

志斌的Python笔记

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录