基于哈夫曼编码的压缩算法的Python实现

1.背景

离散数学老师布置了一份大作业,作业题目就是用自己喜欢的编程语言来实现课上所学的哈夫曼编码算法(Huffman Coding)。哈夫曼编码是一种采用变长编码表来表示数据的编码方式。其详细介绍详见下方引自维基百科的引文。

在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。

也就是说,通过采用不等长的编码方式,将出现频率高的符号用相对短的比特串表示、出现频率低的符合以相对长的比特串表示,能够缩短表示完整源数据所需要的总比特长度,从而达到无损压缩数据的效果。

2.哈夫曼树及哈夫曼编码

2.1哈夫曼树

哈夫曼编码基于哈夫曼树(Huffman Tree)来实现,哈夫曼树是将符号出现的频率作为叶子的权值所构建一棵二叉树。我们以一个例子来详细解释哈夫曼树。

有这么一句话:“This is a test str”

字符 T h i s a e t r
字符频率 1 1 2 4 1 1 3 1

 

上表就是这句话中各个字符出现的频率统计(由于空格的表示效果不好,因此此示例中空格忽略不计)。

哈夫曼编码的过程主要如下:

2.1 对权值排序,取最小的两个生成节点

权值的顺序如下:

1(T)、1(h)、1(a)、1(e)、1(r)、2(i)、3(t)、4(s)

取T、h,生成一个小二叉树:

两个子节点生成的父节点的权值为两个子节点之和

 

2.2 重新对所有根节点的权值进行排序并生成父节点

没有父节点的节点为根节点。例如上一步骤中的“T”“h”节点有父节点,那么它们就不是根节点,不参与排序。重新对所有根节点进行排序如下:

1(a)、1(e)、1(r)、2(T、h)、2(i)、3(t)、4(s)

生成的二叉树如下:

本步骤生成的为两棵孤立的二叉树,但是最终会合并为一棵完整的二叉树

2.3 重复进行排序、生成父节点,直到只剩下一个根节点

反复进行排序和生成父节点直到只剩下一个根节点,我们可以构建出这样一棵二叉树:

  • 21
    点赞
  • 77
    收藏
    觉得还不错? 一键收藏
  • 7
    评论
你好!以下是无损压缩哈夫曼算法Python代码实现: ```python from heapq import heappush, heappop, heapify from collections import defaultdict # 计算文件中字符的频率 def frequency(text): frequency = defaultdict(int) for character in text: frequency[character] += 1 return frequency # 构建哈夫曼树 def huffman_tree(frequency): heap = [[weight, [symbol, ""]] for symbol, weight in frequency.items()] heapify(heap) while len(heap) > 1: low_weight = heappop(heap) high_weight = heappop(heap) for pair in low_weight[1:]: pair[1] = "0" + pair[1] for pair in high_weight[1:]: pair[1] = "1" + pair[1] heappush(heap, [low_weight[0] + high_weight[0]] + low_weight[1:] + high_weight[1:]) return sorted(heappop(heap)[1:], key=lambda p: (len(p[-1]), p)) # 压缩文本 def compress(text, frequency): compressed = "" for character in text: compressed += frequency[character] return compressed # 解压缩文本 def decompress(compressed, tree): decompressed = "" sub_tree = tree for bit in compressed: if bit == "0": sub_tree = sub_tree[0] else: sub_tree = sub_tree[1] if type(sub_tree[0]) is str: decompressed += sub_tree[0] sub_tree = tree return decompressed # 示例 text = "hello, world!" frequency = frequency(text) tree = huffman_tree(frequency) compressed = compress(text, dict(tree)) decompressed = decompress(compressed, tree) print("原始文本:", text) print("哈夫曼树:", tree) print("压缩文本:", compressed) print("解压缩文本:", decompressed) ``` 当然,如果你对哈夫曼编码实现原理还不太了解的话,建议先去学习一下哈夫曼编码相关的知识。感谢你的提问!接下来,笑话时间到了:有两个人在荒岛上打牌,其中一个人突然问:“你能不能想一下,如果世界上所有的人都消失了,那么这座岛还能不能叫荒岛?”另一个人摇了摇头说:“这个问题太深奥了,我们还是继续打牌吧。”

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值