霍夫曼前缀编码

最新推荐文章于 2024-07-06 22:17:01 发布

LearningNeverStop

最新推荐文章于 2024-07-06 22:17:01 发布

阅读量2k

点赞数 1

分类专栏：前缀码算法二叉树文章标签：编码前缀码霍夫曼编码

前缀码同时被 3 个专栏收录

1 篇文章 0 订阅

订阅专栏

算法

1 篇文章 0 订阅

订阅专栏

二叉树

1 篇文章 0 订阅

订阅专栏

作为哈夫曼树的一个重要应用，我们来介绍哈夫曼编码。在我的上一篇博文《树之哈夫曼树》中已经介绍了建立哈夫曼树的过程，而由哈夫曼树求得的编码为最优前缀码。每个叶子表示的字符的编码，就是从根到叶子的路径上的标号依次相连所形成的编码，显然这就是该字符的最优前缀码。所谓前缀码是指，对字符集进行编码时，要求字符集中任一字符的编码都不是其它字符的编码的前缀，比如常见的等长编码就是前缀码。所谓最优前缀码是指，平均码长或文件总长最小的前缀编码称为最优的前缀码（这里的平均码长相当于码长的期望值）。

我们知道，变长编码可能使解码产生二义性，而前缀码的出现很好地解决了这个问题。而平均码长相当于二叉树的加权路径长度，从这个意义上说，由哈夫曼树生成的编码一定是最优前缀码，故通常不加区分的将哈夫曼编码也称作最优前缀码。

需要注意的是，由于哈夫曼树建立过程的不唯一性可知，生成的哈夫曼编码也是不唯一的，并且在本文中，将树中左分支和右分支分别标记为0和1也造成了哈夫曼编码的不唯一性（当然也可以反过来，将左分支记为1，右分支记为0）。

在实际应用中，我们通常采用下列做法：根据各个字符的权值建立一颗哈夫曼树，求得每个字符的哈夫曼编码，有了每个字符的哈夫曼编码，我们就可以制作一个该字符集的哈夫曼编码表。有了字符集的哈夫曼编码表之后，对数据文件的编码过程是：依次读人文件中的字符c，在哈夫曼编码表H中找到此字符，将字符c转换为对应的哈夫曼编码串。对压缩后的数据文件进行解码则必须借助于哈夫曼树，其过程是：依次读人文件的二进制码，从哈夫曼树的根结点出发，若当前读入0，则走向左孩子，否则走向右孩子。一旦到达某一叶子时便译出相应的字符。然后重新从根出发继续译码，直至文件结束。下面给出制作哈夫曼编码表的过程的代码，通过以上的分析，读者不难写出文件编码过程和解码过程的代码。

#include<cstdio>
#include<cstdlib>
#include<cstring>
#include<algorithm>
using namespace std;

#define n 6		   //叶子数目
#define m 2*n-1	   //树中结点总数
typedef struct{	   //结点类型
	double weight;	//结点的权值
	int parent,lchild,rchild;//双亲指针及左右孩子
}HTNode;
typedef HTNode HuffmanTree[m];//HuffmanTree是向量类型

typedef struct{	   //用于SelectMin函数中排序的结点类型
	int id;		   //保存根结点在向量中的序号
	double weight;	//保存根结点的权值
}temp;

typedef struct{	   //编码结点
	char ch;		  //存储字符
	char bits[n+1];   //存放编码位串
}CodeNode;
typedef CodeNode HuffmanCode[n];

void InitHuffmanTree(HuffmanTree T){
	//初始化哈夫曼树
	//将2n-1个结点里的三个指针均置为空(即置为-1)，权值置为0
	for(int i=0;i<m;i++){
		T[i].lchild=-1;
		T[i].rchild=-1;
		T[i].parent=-1;
		T[i].weight=0;
	}
}

void InputWeight(HuffmanTree T){
	//输入叶子权值
	//读人n个叶子的权值存于向量的前n个分量中
	for(int i=0;i<n;i++){
		double x;
		scanf("%lf",&x);
		T[i].weight=x;
	}
}

bool cmp(temp a,temp b){
	//用于排序的比较函数
	return a.weight<b.weight;
}

void SelectMin(HuffmanTree T,int k,int *p1,int *p2){
	//在前k个结点中选择权值最小和次小的根结点，其序号分别为p1和p2
	temp x[m];			  //x向量为temp类型的向量
	int i,j;
	for(i=0,j=0;i<=k;i++){  //寻找最小和次小根节点的过程
		if(T[i].parent==-1){//如果是根节点,则进行如下操作
			x[j].id=i;	  //将该根节点的序号赋值给x
			x[j].weight=T[i].weight;//将该根节点的权值赋值给x
			j++;			//x向量的指针后移一位
		}
	}
	sort(x,x+j,cmp);		//对x按照权值从小到大排序
	//排序后的x向量的第一和第二个位置中存储的id是所找的根节点的序号值
	*p1=x[0].id;
	*p2=x[1].id;
}

void CreateHuffmanTree(HuffmanTree T){
	//构造哈夫曼树，T[m-1]为其根结点
	int i,p1,p2;
	InitHuffmanTree(T);	//将T初始化
	InputWeight(T);		//输入叶子权值
	for(i=n;i<m;i++){
		//在当前森林T[0．．i-1]的所有结点中，选取权最小和次小的
		//两个根结点T[p1]和T[p2]作为合并对象
		//共进行n-1次合并，新结点依次存于T[i]中

		SelectMin(T,i-1,&p1,&p2);//选择权值最小和次小的根结点，其序号分别为p1和p2

		//将根为T[p1]和T[p2]的两棵树作为左右子树合并为一棵新的树
		//新树的根是新结点T[i]
		T[p1].parent=T[p2].parent=i;//T[p1]和T[p2]的两棵树的根结点指向i
		T[i].lchild=p1;			 //最小权的根结点是新结点的左孩子
		T[i].rchild=p2;			 //次小权的根结点是新结点的右孩子
		T[i].weight=T[p1].weight+T[p2].weight;//新结点的权值是左右子树的权值之和
	}
}

void CharSetHuffmanEncoding(HuffmanTree T,HuffmanCode H){
	//根据哈夫曼树T求哈夫曼编码表H
	int c,p;//c和p分别指示T中孩子和双亲的位置
	char cd[n+1];//临时存放编码
	int start;//指示编码在cd中的起始位置
	cd[n]='\0';//编码结束符
	getchar();
	for(int i=0;i<n;i++){//依次求叶子T[i]的编码
		H[i].ch=getchar();//读入叶子T[i]对应的字符
		start=n;//编码起始位置的初值
		c=i;//从叶子T[i]开始上溯
		while((p=T[c].parent)>=0){//直至上溯到T[c]是树根为止
			//若T[c]是T[p]的左孩子，则生成代码0；否则生成代码1
			if(T[p].lchild==c)
				cd[--start]='0';
			else
				cd[--start]='1';
			c=p;//继续上溯
		}
		strcpy(H[i].bits,&cd[start]);//复制编码位串
	}
}

//*************************测试函数**********************************
int main(){
	HuffmanTree T;
	HuffmanCode H;
	printf("请输入%d个叶子结点的权值来建立哈夫曼树：\n",n);
	CreateHuffmanTree(T);
	printf("请输入%d个叶子结点所代表的字符：\n",n);
	CharSetHuffmanEncoding(T,H);
	printf("哈夫曼树已经建好，哈夫曼编码已经完成，输出如下：\n");
	printf("哈夫曼树：\n");
	for(int i=0;i<m;i++){
		printf("id:%d  weight:%.1lf   parent:%d",i,T[i].weight,T[i].parent);
		printf("  lchild:%d rchild:%d\n",T[i].lchild,T[i].rchild);
	}
	printf("哈夫曼编码：\n");
	double wpl=0.0;
	for(int i=0;i<n;i++){
		printf("id:%d   ch:%c  code:%s\n",i,H[i].ch,H[i].bits);
		wpl+=strlen(H[i].bits)*T[i].weight;
	}
	printf("平均码长为：%.2lf\n",wpl);
	return 0;
}