自适应（动态）哈夫曼编码与解码过程

最新推荐文章于 2024-08-11 20:18:31 发布

菜鸟的逆袭之路

最新推荐文章于 2024-08-11 20:18:31 发布

阅读量7.9k

点赞数 18

分类专栏：熵编码文章标签：算法编码器

本文链接：https://blog.csdn.net/weixin_43838265/article/details/117324663

版权

熵编码专栏收录该内容

1 篇文章 1 订阅

订阅专栏

自适应（动态）哈夫曼编码与解码过程

自定义哈夫曼编码，预先不知道各种符号的出现频率，编码树的初始状态只包含一个叶节点，即NYT（Not Yet Transmitted），NYT是一个逸出码，不同于任何一个将要传送的符号，当一个尚未包含在编码树中的符号需要被编码时，首先输出NYT的编码，然后跟着符号的原始表达。当解码器解出一个NYT之后，它就知道下面的内容暂时不再是Huffman编码，而是一个从未在编码数据流中出现过的原始符号。当插入一个符号q时，会出现两种情况：

q是第一次出现的字符结点。构造一个新的子树，子树包含NYT符号和新符号两个叶节点，如下图所示。然后判断该子树的父节点是否是是当前权重下编号最大的结点，如果是，直接更新权重即可；否则，将父节点与相同权重的编号最高的结点交换，再更新权重值。
q不是第一次出现的字符结点。如果q所在节点，是当前节点权重下编号最大的结点，则直接使其当前节点权重及父节点权重加1即可。否则，将当前节点与相同权重的编号最高的结点交换，再更新权重值。

以字符串“aabbbacc”的编码和解码为例，假设原始共有四类字符（a,b,c,d）,规定初始化编码：a-00 b-01 c-10 d-11，此为编码器与解码器双方的约定。

编码过程：

初始状态，仅有NYT节点，权重为0
输入字符a，为新字符，输出编码000。0为NYT编码，00是a的初始编码，此时的huffman树为：
输入字符a，输出编码1。将a加入到huffman树中，并进行调整。
输入字符b,为新字符，输出编码001。0是NYT编码，01是b的初始编码。
输入字符b,输出编码01。将字符b加入到huffman树中，并进行调整。
输入字符b,输出编码01。将字符b加入到huffman树中，注意此时b节点不是当前权重值下编号最大的节点，需要进行节点的交换操作，即节点（2）与节点（4）交换。
输入字符a,输出编码01，将a加入到huffman树中。
输入字符c，为新字符，输入编码0010。00是NYT编码，10是c的初始编码。该子树的父节点（5）不是当前权重下编号最大的节点，所以节点（5）与节点（6）交换，并更新权重值。
输入字符c，输出编码101，将字符c加入到huffman树中。

综上所述，字符串“aabbbacc”动态哈夫曼编码的结果为00010010101010010101

解码过程：

由于自适应 Huffman编码算法采用了先编码，后调整编码树的方案，相应的解码算法比较简单。解码算法也使用仅有唯一的NYT节点的编码树作为初始状态,然后根据Huffman编码数据流，对符号进行还原。每次处理完一个符号，就使用这个符号调整编码树。这样，在每一次输入新的符号之前，Huffman树都处于与进行编码时使用的Huffman树完全相同的状态,保证了解码的正确性。

具体的C语言代码实现：https://download.csdn.net/download/weixin_43838265/19121832