Python爬虫学习笔记 (16) [中级] 处理简单的加密字体(&#x) - 获取某眼电影票房信息

这篇博客介绍了如何处理Python爬虫中遇到的简单加密字体问题,特别是以&#x开头的编码。作者通过研究编码规律,解码中文和数字,总结出了一种针对这种加密方式的处理方法,对于中文可以直接转换,数字则需要自建映射表进行转换。
摘要由CSDN通过智能技术生成

更新日期: 2021.04.10

本节学习内容

动态网页加载完毕,获得了全部的网页代码,接下来就要解析目标信息了。

这个阶段的反扒措施主要有字体加密,JS代码,图片信息等等。

今天先看看加密字体中最简单的一种~

1. 目标信息 - 某眼电影票房信息

网站页面上显示了票房信息(31.00亿),代码中显示为&#x开头的一组代码。
在这里插入图片描述

2. 研究编码规律

  • 数字: ‘&#x’ 出现在每个数字的开头,数字间以分号分隔
  • 小数点: 不变,直接出现在代码中
  • 6 就是f4ef,9就是e7a1啊~
  • 刷新了下页面,发现代码没有变化,说明这是固定的编码规律~
    在这里插入图片描述

3. 解码 - 中文

百度了解码以 ‘&#x’ 开头的代码的方法,发现仅对中文有效,两种方法如下。

我把它叫做 target_figure 是因为希望它能帮我转换出数字,结果不能…

# 将以 &#x 开头的编码解码为中文
test_code 
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值