Huffman树是带权路径长度最短的树。路径长度是指两节点之间连线的个数;权值是属于叶子节点的一个数值。树的带权路径长度是所有叶子节点的权值与路径长度乘积之和。
性质:为确保树的带权路径长度最小,Huffman树没有度为1的节点。有n个叶子的Huffman树共有2n-1个节点。可存储在大小为2n-1的数组中。
构造Huffman树的算法叫Huffman算法。
应用:Huffman编码
远距离通信的主要手段是电报,这需要将文字编码成二进制字符。
根据编码的长度分类可分为定长编码和变长编码。定长编码是指每一个字符都由长度固定的二进制序列表示,如ASCII码,8位表示一个字符。变长编码是指每一个字符的二进制表示的长度不一样,使用频率高的字符选择尽量短的编码。
Huffman编码是一种变长编码,它以字符出现的频率作为字符权值,从根节点开始,向左一步记0,向右一步记1。此种编码每一个字符都不会是其他字符的前缀。Huffman编码是使报文长度最短的编码方式。
应用注意事项:
编码为从叶子节点出发走到根,译码为从根出发走到叶子。
故对于每个节点,既需要知道双亲,又需要知道孩子信息。
存储结构为静态三叉链表。
Huffman树
下面为Huffman树的存储结构和构建Huffman树的实现
#include <stdio.h>
#include <stdlib.h>
#define OK 1
#define ERROR 0
typedef struct{
unsigned int weight;
unsigned int parent,lchild,rchild;
}HTNode, *HuffmanTree; // 结构体数组存储Huffman树结构
typedef char **HuffmanCode; // 定义一个二维数组,存储Huffman编码表
//Huffman算法的一部分,选出独立的二叉树集合中根节点权值最小的两个树s1和s2
void Select(HuffmanTree &HT, int x, int &s1,int &s2) //x为集合中独立的树的个数
{
int min1 = 10000, min2 = 10000;
for(int i = 1; i<=x; i++) //找最小
{
if(HT[i].weight < min1 && HT[i].parent ==0)
{
min1 = HT[i].weight;
s1 = i;
}
}
for (i = 1; i <= x; i++) //找次小
{
if (HT[i].weight < min2 && i != s1 && HT[i].parent == 0)
{
min2 = HT[i].weight;
s2 = i;
}
}
}
//构造Huffman树HT,求n个字符的Huffman编码HC,已知n个字符的权值存在w数组里
void HuffmanCoding(HuffmanTree &HT, HuffmanCode &HC, int *w, int n)
{
if (n<=1) return;
HuffmanTree p;
int m = 2 * n - 1;//n个叶子的Huffman树共有2n-1个节点
int i = 0; //标记静态三叉链表数组的位置
for (p = HT, i=1; i<=n; i++, p++, w++) //叶子节点赋值
{
p -> weight = *w;
p -> parent = 0;
p -> lchild = 0;
p -> rchild = 0;
}
for (; i <= m; i++) *p = {0,0,0,0}; //非叶子节点初始化
int s1, s2;
for (i = n+1; i <= m; ++i)//构造Huffman树
{
Select(HT, i-1, s1, s2);//叶子中选出weight最小的两个,序号为**s1,s2**
HT[s1].parent = i; //两叶子合并为一棵树
HT[s2].parent = i;
HT[i].lchild = s1; //第i个节点左右孩子指向s1,s2
HT[i].rchild = s2;
HT[i].weight = HT[s1].weight + HT[s2].weight;//第i个节点的权值为两叶子权值之和
}
}