1.背景
离散数学老师布置了一份大作业,作业题目就是用自己喜欢的编程语言来实现课上所学的哈夫曼编码算法(Huffman Coding)。哈夫曼编码是一种采用变长编码表来表示数据的编码方式。其详细介绍详见下方引自维基百科的引文。
在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
也就是说,通过采用不等长的编码方式,将出现频率高的符号用相对短的比特串表示、出现频率低的符合以相对长的比特串表示,能够缩短表示完整源数据所需要的总比特长度,从而达到无损压缩数据的效果。
2.哈夫曼树及哈夫曼编码
2.1哈夫曼树
哈夫曼编码基于哈夫曼树(Huffman Tree)来实现,哈夫曼树是将符号出现的频率作为叶子的权值所构建一棵二叉树。我们以一个例子来详细解释哈夫曼树。
有这么一句话:“This is a test str”
字符 | T | h | i | s | a | e | t | r |
字符频率 | 1 | 1 | 2 | 4 | 1 | 1 | 3 | 1 |
上表就是这句话中各个字符出现的频率统计(由于空格的表示效果不好,因此此示例中空格忽略不计)。
哈夫曼编码的过程主要如下:
2.1 对权值排序,取最小的两个生成节点
权值的顺序如下:
1(T)、1(h)、1(a)、1(e)、1(r)、2(i)、3(t)、4(s)
取T、h,生成一个小二叉树:
2.2 重新对所有根节点的权值进行排序并生成父节点
没有父节点的节点为根节点。例如上一步骤中的“T”“h”节点有父节点,那么它们就不是根节点,不参与排序。重新对所有根节点进行排序如下:
1(a)、1(e)、1(r)、2(T、h)、2(i)、3(t)、4(s)
生成的二叉树如下:
2.3 重复进行排序、生成父节点,直到只剩下一个根节点
反复进行排序和生成父节点直到只剩下一个根节点,我们可以构建出这样一棵二叉树: