字体反爬一眼就懂

最新推荐文章于 2024-04-16 12:46:17 发布

置顶 xxxiamdlillard

最新推荐文章于 2024-04-16 12:46:17 发布

阅读量295

点赞数 1

分类专栏：反爬

本文链接：https://blog.csdn.net/weixin_47240003/article/details/111835325

版权

反爬专栏收录该内容

1 篇文章 0 订阅

订阅专栏

看了许多博主的字体反爬教程发现都是用x，y轴什么什么来做的，再转到xml文件里面去看然后给大家分享一个稍微稍微简单的方法
原理在第二步

我们以大众点评网站为例
一找到正确的字体文件将其打印成一个列表**
如下图两个woff文件即两个字体文件
为什么是找到找到正确的字体文件，博主在几个月前爬过这个网站，有的时候会出现三个以上的woff文件，因为它将数字和汉字的反爬字体文件分成了两个，所以需要我们自己去手动找到哪一个文件是汉字的，哪一个是数字的。接着双击woff文件即可下载，在用我们的老搭档fontcreateor打开

在这里插入图片描述

那我们又怎么样才能将它变成一个列表呢方法有很多我用的是qq的长截图，在用qq提取图片文字现在好像不能直接复制了，需要下载之后打开里面的result文件才能拿到提取到的汉字接着需要大家将一些不需要的字符删去最后添加引号即可变成一个列表
在这里插入图片描述

在这里插入图片描述
添加引号的方法
ctrl+r 正则匹配
我的方法是新建一个python文件按ctrl+r 输入下图的匹配方式再replace all 自己在将其给一个名字加个括号即可取名font

二打印字体文件**（原理）**
我们将其刚刚下载的字体文件放到一个新建文件夹下并需要用到以下方法 print(font.getReverseGlyphMap())

打印出的结果就是一个列表 key是字体对应的unicode码而value则是一个数字这个数字是什么联想我们最早那么麻烦去做的一个字体列表所以这个数字就是字体列表的下标我们只需要将网页源码的**&#xeccb的这种形式转换成unieccb**这种形式通过相关字典操作的用key值返回value值即字体文件的下标通过打印字题文件下标得到汉字我举一个李子

这里我们仍需要将下面打印出来的列表拿出来取名list
在这里插入图片描述

在这里插入图片描述

所以我猜测这个&#xeccb是**“家”**字我们通过fontcreator验证

在这里插入图片描述
我们将鼠标放在家字上面因为不能截图但是我们发现会弹出ubieccb 所以我们的猜想正确而这也是我们确定哪一个字体文件是汉字的还是数字的如果没有对应上说明一定在另外的字体文件里面

我们已经拿到key值所以我们需要打印出value验证我们的猜想

这里需要注意到是字体列表font坐最前面一定是有两个空值，一定要和fontcreator显示一样 在这里插入图片描述
在这里我们得到证实

对比其他方法来说因为本人是没看懂那些x，y的方法的所以自己探索出这个方法

注意
1 字体文件隔一段时间就会更新所以要及时操作
2 我碰到的是数字和汉字分隔开的所以以上的两个列表对数字来说也要重新做一份但是数字只有几个所以在无论是在建font列表还是list的时候只需要拿前面十来个就行因为后面的是汉字的我么不需要

最后如果有朋友能看到这里麻烦点个赞哈哈哈哈哈、
最后欢迎大家补充提出建议

xxxiamdlillard

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
字体反爬一眼就懂

看了许多博主的字体反爬教程发现都是用x，y轴什么什么来做的，再转到xml文件里面去看然后给大家分享一个稍微稍微简单的方法原理在第二步我们以大众点评网站为例一找到正确的字体文件将其打印成一个列表**如下图两个woff文件即两个字体文件为什么是找到找到正确的字体文件，博主在几个月前爬过这个网站，有的时候会出现三个以上的woff文件，因为它将数字和汉字的反爬字体文件分成了两个，所以需要我们自己去手动找到哪一个文件是汉字的，哪一个是数字的。接着双击woff文件即可下载，在用我们的老搭档fontc
复制链接

扫一扫