自适应(动态)哈夫曼编码与解码过程
自定义哈夫曼编码,预先不知道各种符号的出现频率,编码树的初始状态只包含一个叶节点,即NYT(Not Yet Transmitted),NYT是一个逸出码,不同于任何一个将要传送的符号,当一个尚未包含在编码树中的符号需要被编码时,首先输出NYT的编码,然后跟着符号的原始表达。当解码器解出一个NYT之后,它就知道下面的内容暂时不再是Huffman编码,而是一个从未在编码数据流中出现过的原始符号。当插入一个符号q时,会出现两种情况:
- q是第一次出现的字符结点。构造一个新的子树,子树包含NYT符号和新符号两个叶节点,如下图所示。然后判断该子树的父节点是否是是当前权重下编号最大的结点,如果是,直接更新权重即可;否则,将父节点与相同权重的编号最高的结点交换,再更新权重值。
- q不是第一次出现的字符结点。如果q所在节点,是当前节点权重下编号最大的结点,则直接使其当前节点权重及父节点权重加1即可。否则,将当前节点与相同权重的编号最高的结点交换,再更新权重值。
以字符串“aabbbacc”的编码和解码为例,假设原始共有四类字符(a,b,c,d),规定初始化编码:a-00 b-01 c-10 d-11,此为编码器与解码器双方的约定。
编码过程:
- 初始状态,仅有NYT节点,权重为0
- 输入字符a,为新字符,输出编码000。0为NYT编码,00是a的初始编码,此时的huffman树为:
- 输入字符a,输出编码1。将a加入到huffman树中,并进行调整。
- 输入字符b,为新字符,输出编码001。0是NYT编码,01是b的初始编码。
- 输入字符b,输出编码01。将字符b加入到huffman树中,并进行调整。
- 输入字符b,输出编码01。将字符b加入到huffman树中,注意此时b节点不是当前权重值下编号最大的节点,需要进行节点的交换操作,即节点(2)与节点(4)交换。
- 输入字符a,输出编码01,将a加入到huffman树中。
- 输入字符c,为新字符,输入编码0010。00是NYT编码,10是c的初始编码。该子树的父节点(5)不是当前权重下编号最大的节点,所以节点(5)与节点(6)交换,并更新权重值。
- 输入字符c,输出编码101,将字符c加入到huffman树中。
综上所述,字符串“aabbbacc”动态哈夫曼编码的结果为00010010101010010101
解码过程:
由于自适应 Huffman编码算法采用了先编码,后调整编码树的方案,相应的解码算法比较简单。解码算法也使用仅有唯一的NYT节点的编码树作为初始状态,然后根据Huffman编码数据流,对符号进行还原。每次处理完一个符号,就使用这个符号调整编码树。这样,在每一次输入新的符号之前,Huffman树都处于与进行编码时使用的Huffman树完全相同的状态,保证了解码的正确性。
具体的C语言代码实现:https://download.csdn.net/download/weixin_43838265/19121832