爬虫学习——24.字体反爬

最新推荐文章于 2024-11-08 11:36:19 发布

F——

最新推荐文章于 2024-11-08 11:36:19 发布

阅读量673

点赞数 9

分类专栏：爬虫-限免文章标签：爬虫学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_66370632/article/details/140659698

版权

爬虫-限免专栏收录该内容

21 篇文章 0 订阅

订阅专栏

什么是字体反爬

网页开发者自己创造一种字体，因为在字体中每个文字都有其代号，那么以后在网页中不会直接显示这个文字的最终的效果，而是显示他的代号，因此即使获取到了网页中的文本内容，也只是获取到文字的代号，而不是文字本身。简单的说，字体反爬指的就是浏览器页面上的字符和调试窗口或者源码中的内容，显示的不一样，这就是字体反爬。

字体反爬原理

在之前，网站开发者在设计网页时只能使用公用的字体来展示网页中的数据。但是，随着CSS样式的深入开发，网站开发者可以将自己的字体放到服务器中。当用户在访问Web界面时，对应的字体就会被浏览器自动下载到用户的计算机中，然后通过CSS样式进行调用。之后，通过一种映射关系，使得网页中的源数据变为真正的数据进行展示。

通过这种方式，使得这样就使得网站开发者进行网页设计时，只需要使用特殊字符进行占位即可，不需要将真正的数据放到页面中去。这样，爬虫程序如果不知道这种映射关系的话，就无法从字体中获取正确的数据，从而实现反爬虫。

字体映射表的处理

1、下载对应的字体文件

字体是在服务器上进行存储，并通过浏览器下载到我们的电脑上的，那么我们就可以在网站上找到加载的字体文件，下载下来。

2、寻找映射关系

通过对源网页中的占位数据和字体进行比对找到规律

3、构建映射算法

在上面我们已经找到了字体之间映射关系，那么我们现在就可以开始用Python来构建映射算法，从而使得爬虫可以获取一个正确的数据。

关注

9
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

F—— CSDN认证博客专家 CSDN认证企业博客

码龄3年

109: 原创

52万+: 周排名

1万+: 总排名

11万+: 访问

: 等级

3315: 积分

1650: 粉丝

2217: 获赞

17: 评论

1336: 收藏

私信

关注

热门文章

分类专栏

最新评论

爬虫学习--2.urllib 库
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
JavaScript基础——2.js输出语句
普通网友: 文章结构严谨有条,层次分明,读起来一点也不费劲，让人受益匪浅。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
JavaScript基础——1.js基础语法
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
JavaScript基础——3.分支、循环语句
普通网友: 这篇文章真是一篇佳作!作者运用了生动有趣的语言,将枯燥的理论知识娓娓道来,让人如沐春风。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
JavaScript基础——3.分支、循环语句
普通网友: 写的很详细，感谢博主的分享。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

大家在看

最新文章

2024

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

F—— 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。