1. 哈夫曼树
1.1 基本概念
路径:指从根结点到该结点的分支序列。
路径长度:指根结点到该结点所经过的分支数目。
结点的带权路径长度:从树根到某一结点的路径长度与该结点的权的乘积。
树的带权路径长度(WPL):树中从根到所有叶子结点的各个带权路径长度之和。
哈夫曼树是由 n 个带权叶子结点构成的所有二叉树中带权路径长度最短的二叉树,又称最优二叉树。如上图中第三棵树就是一棵哈夫曼树。
1.2 构造哈夫曼树
构造哈夫曼树的算法步骤:
① 初始化:用给定的 n 个权值{w1,w2,…,wn}构造 n 棵二叉树并构成的森林F={T1,T2,…,Tn},其中每一棵二叉树Ti(1<=i<=n)都只有一个权值为 wi 的根结点,其左、右子树为空。
② 找最小树:在森林 F 中选择两棵根结点权值最小的二叉树,作为一棵新二叉树的左、右子树,标记新二叉树的根结点权值为其左、右子树的根结点权值之和。
③ 删除与加入:从 F 中删除被选中的那两棵二叉树,同时把新构成的二叉树加入到森林 F 中。
④ 判断:重复②、③操作,直到森林中只含有一棵二叉树为止,此时得到的这棵二叉树就是哈夫曼树。
简单的说就是先选择权小的,所以权小的结点被放置在树的较深层,而权较大的离根较近,这样一来所构成的哈夫曼树就具有最小带权路径长度。
例如给定5个权值{2,3,5,7,8},构造过程如下:
注意:由于未规定左右子树顺序,因此哈夫曼树不唯一,但树的最小带权路径长度唯一。如下图两棵树都是根据5个权值{2,3,5,7,8}构造的哈夫曼树:
1.3 哈夫曼树的类型定义
哈夫曼树是一种二叉树,其中没有度为1的结点,因此一棵有 n 个叶子的哈夫曼树共有 2n-1 个结点,可以用一个大小为 2n-1 的一维数组来存放哈夫曼树的各个结点。由于每个结点同时还包含其双亲信息和孩子结点的信息,所以构成一个静态三叉链表。
/*哈夫曼树的类型定义*/
# define N 30 //叶子结点的最大值
# define M 2 * N - 1 //所有结点的最大值
typedef struct {
int weight; //结点的权值
int parent; //双亲的下标
int LChild; //左孩子结点的下标
int RChild; //右孩子结点的下标
}HTNode, HuffmanTree[M + 1]; //HuffmanTree是一个结构数组类型,0号单元不用
1.4 哈夫曼树创建的算法实现
基于上文中的构造哈夫曼树的步骤,代码如下:
/*在ht[1]至ht[n]的范围内选择两个parent为0且weight最小的结点,其序号分别赋给s1,s2*/
void Select(HuffmanTree ht, int n, int* s1, int* s2) {
int i, min1 = MAX, min2 = MAX;
*s1 = 0;
*s2 = 0;
for (i = 1; i <= n; i++) {
if (ht[i].parent == 0) {
if (ht[i].weight < min1) {
min2 = min1;
*s2 = *s1;
min1 = ht[i].weight;
*s1 = i;
}
else if (ht[i].weight < min2) {
min2 = ht[i].weight;
*s2 = i;
}
}
}
}
/*创建哈夫曼树算法*/
void CrtHuffmanTree(HuffmanTree ht, int w[], int n) {
//构造哈夫曼树ht[M&