深入细枝末节，Python的字体反爬虫到底怎么一回事

最新推荐文章于 2024-03-03 17:14:36 发布

Python新世界

最新推荐文章于 2024-03-03 17:14:36 发布

阅读量694

点赞数

文章标签： Python 编程语言 Python爬虫网络爬虫

本文链接：https://blog.csdn.net/weixin_46089319/article/details/103730919

版权

本文深入探讨了Python爬虫中遇到的字体反爬虫问题，通过分析CSS3的@font-face特性，展示了字体文件如何用于隐藏网页数据。通过字体文件的WOFF格式，解释了TrueType字体结构，并提供了利用Python解析字体文件和映射关系的实战步骤，以应对动态变化的字体反爬策略。

摘要由CSDN通过智能技术生成

内容选自 即将出版 的《Python3 反爬虫原理与绕过实战》，本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 4 小节，其余小节将 逐步放送 。

字体反爬虫开篇概述

在 CSS3 之前，Web 开发者必须使用用户计算机上已有的字体。但是在 CSS3 时代，开发者可以使用@font-face 为网页指定字体，对用户计算机字体的依赖。开发者可将心仪的字体文件放在 Web 服务器上，并在 CSS 样式中使用它。用户使用浏览器访问 Web 应用时，对应的字体会被浏览器下载到用户的计算机上。

在学习浏览器和页面渲染的相关知识时，我们了解到 CSS 的作用是修饰 HTML ，所以在页面渲染的时候不会改变 HTML 文档内容。由于字体的加载和映射工作是由 CSS 完成的，所以即使我们借助 Splash、Selenium 和 Puppeteer 工具也无法获得对应的文字内容。字体反爬虫正是利用了这个特点，将自定义字体应用到网页中重要的数据上，使得爬虫程序无法获得正确的数据。

6.4.1 字体反爬虫示例

示例 7：字体反爬虫示例。

网址： http://www.porters.vip/confus... 。

任务：爬取影片信息展示页中的影片评分、评价人数和票房数据，页面内容如图 6-32 所示。

图 6-32 示例 7 页面

在编写代码之前，我们需要确定目标数据的元素定位。定位时，我们在 HTML 中发现了一些奇怪的符号，HTML 代码如下：

<div class="movie-index">

页面中重要的数据都是一些奇怪的字符，本应该显示“9.7”的地方在 HTML 中显示的是“☒.☒”，而本应该显示“56.83”的地方在 HTML 中显示的是“☒☒.☒☒”。与 6.3 节中的映射反爬虫不同，案例中的文字都被“☒”符号代替了，根本无法分辨。这就很奇怪了，“☒”能代表这么多种数字吗？

要注意的是，Chrome 开发者工具的元素面板中显示的内容不一定是相应正文的原文，要想知道“☒”符号是什么，还需要到网页源代码中确认。对应的网页源代码如下：

<div class="movie-index">

从网页源代码中看到的并不是符号，而是由开头的一些字符，这与示例 6 中的 SVG 映射反爬虫非常相似。我们将页面显示的数字与网页源代码中的字符进行比较，映射关系如图 6-33 所示。

最低0.47元/天解锁文章

Python新世界

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深入细枝末节，Python的字体反爬虫到底怎么一回事

内容选自即将出版的《Python3 反爬虫原理与绕过实战》，本次公开书稿范围为第 6 章——文本混淆反爬虫。本篇为第 6 章中的第 4 小节，其余小节将逐步放送。字体反爬虫开篇概述在 CSS3 之前，Web 开发者必须使用用户计算机上已有的字体。但是在 CSS3 时代，开发者可以使用@font-face 为网页指定字体，对用户计算机字体的依赖。开发者可将心仪的字体文件放在 We...
复制链接

扫一扫