更新日期: 2021.04.10
本节学习内容 :
动态网页加载完毕,获得了全部的网页代码,接下来就要解析目标信息了。
这个阶段的反扒措施主要有字体加密,JS代码,图片信息等等。
今天先看看加密字体中最简单的一种~
1. 目标信息 - 某眼电影票房信息
网站页面上显示了票房信息(31.00亿),代码中显示为&#x开头的一组代码。
2. 研究编码规律
- 数字: ‘&#x’ 出现在每个数字的开头,数字间以分号分隔
- 小数点: 不变,直接出现在代码中
- 6 就是f4ef,9就是e7a1啊~
- 刷新了下页面,发现代码没有变化,说明这是固定的编码规律~
3. 解码 - 中文
百度了解码以 ‘&#x’ 开头的代码的方法,发现仅对中文有效,两种方法如下。
我把它叫做 target_figure 是因为希望它能帮我转换出数字,结果不能…
# 将以 &#x 开头的编码解码为中文
test_code