什么是哈夫曼树:
给定N个权值作为N个叶子结点,构造一棵二叉树,若该树的带权路径长度(WPL)达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。哈夫曼树是带权路径长度最短的树,权值较大的结点离根较近。
WPL计算方法: WPL=求和(wi li)其中wi是第i个节点的权值(value)。li是第i个节点的长(深)度.
哈夫曼树有什么用?
- 哈夫曼树主要用在数据的压缩如JPEG格式图片,在通信中我们可以先对发送的数据进行哈夫曼编码压缩数据提高传输速度。
- 查询优化:在工作中我们我们身边放许多工具,由于空间限制我们不能把所有工具放在我们最容易拿到的地方,所有我们把使用频率最高的工具放在最容易的位置。同样的道理在查询的时候我们把查询频率最高的数据建立索引,这些都是使用了哈夫曼算法的思想。
怎么构建一个哈夫曼树?
哈夫曼树的结构定义如下:
struct ElemType{
int weight;
int parent,lchild,rchild;
};
哈夫曼算法:
void HuffmanTree(ElemType huffTree[],int w[],int n)
{
int i,k,i1,i2;
for(i = 0;i < 2*n-1;i++) //先初始化,所有节点均没有双亲和孩子
{
huffTree[i].parent = -1;
huffTree[i].lchild = huffTree[i
].rchrld = -1;
}
for(i = 0;i<n;i++) huffTree[i].weight = w[i];//存储叶子结点的权值
for( k = n;k<2*n-1;k++) //n-1次合并
{
Select(huffTree,i1,i2);//选出权值最小的节点的下标为i1和i2
huffTree[k].weight = huffTree[i1].weight+huffTree[i2].weight;
huffTree[i1].parent = k;
huffTree[i2].parent = k;
huffTree[k].lchild = i1;
huffTree[k].rchild = i2;
}
}
哈夫曼编码
任意字符的编码都不是另一字符的编码的前缀——前缀编码
用于数据压缩
- 统计字符集中每个字符的平均出现频率。
- 以概率值作为权值构造哈夫曼树,频率越大的节点,路径越短。
- 在哈夫曼树的分枝上标上0 或 1:节点的左分支标0,右分支标1,把从根到每个叶子的路径上的标号连接起来,作为该叶子代表的字符的编码。
解码的方法:
- 构造哈夫曼树
- 依次读入二进制码
- 读入0,则走向左孩子;读入1,则走向右孩子
- 一旦到达某叶子节点时,可译出字符
- 然后再从根出发继续译码,直到结束