构造哈夫曼树和生成哈夫曼编码

本文深入解析了哈夫曼树的概念,构建过程及哈夫曼编码的生成方法。通过实例展示了如何根据字符出现频率构造哈夫曼树,并生成最优二进制前缀编码,以实现通信中数据的高效压缩。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、什么是哈夫曼树?

哈夫曼树是一种带权路径长度最短的二叉树,也称为最优二叉树。用一幅图来说明:

它们的带权路径长度分别为:

图a: WPL=5*2+7*2+2*2+13*2=54

图b: WPL=5*3+2*3+7*2+13*1=48

可见,图b的带权路径长度较小,可以证明图b就是哈夫曼树(也称为最优二叉树)。

二、如何构建哈夫曼树

一般按下面步骤构建:

1,将所有左,右子树都为空的作为根节点。

2,在森林中选出两棵根节点的权值最小的树作为一棵新树的左,右子树,且置新树的附加根节点的权值为其左,右子树上根节点的权值之和。注意,左子树的权值应小于右子树的权值。

3,从森林中删除这两棵树,同时把新树加入到森林中。

4,重复2,3步骤,直到森林中只有一棵树为止,此树便是哈夫曼树。

下面是构建哈夫曼树的图解过程:

三、哈夫曼编码

利用哈夫曼树求得的用于通信的二进制编码称为哈夫曼编码。树中从根到每个叶子节点都有一条路径,对路径上的各分支约定指向左子树的分支表示"0"码,指向右子树的分支表示"1"码,取每条路径上的"0"或"1"的序列作为各个叶子节点对应的字符编码,即是哈夫曼编码。

上图例子来说:

A,B,C,D对应的哈夫曼编码分别为:111,10,110,0

用图说明如下:

记住,设计电文总长最短的二进制前缀编码,就是以n个字符出现的频率作为权构造一棵哈夫曼树,由哈夫曼树求得的编码就是哈夫曼编码。

四、算法实现

/**
*    实验题目:
*        构造哈夫曼树和生成哈夫曼编码
*    实验目的:
*        领会哈夫曼的构造过程以及哈夫曼编码的生成过程
*    实验内容:
*        设计程序,构造一颗哈夫曼树,输出对应的哈夫曼
*    编码和平均查找长度。并用如下数据进行验证:
*    单词以及出现的频度
*    The  of  a   to  and  in  that  he  is  at  on   for  His  are  be
*    1192 677 541 518 462  450 242   195 190 181 174  157  138  124  123
*    备注:二叉树中叶子结点个数为n,则二叉树中结点总数为(2 * n - 1)
*/

#include <stdio.h>
#include <string.h>

#define N   (50)        // 树中叶子结点数最大值
#define M   (2 * N - 1) // 树中结点总数最大值

typedef struct
{
    char data[5]; // 结点值
    int weight; // 权重
    int parent; // 双亲结点
    int lchild; // 左孩子结点
    int rchild; // 右孩子结点
}HTNode; // 声明哈夫曼树结点类型

typedef struct
{
    char cd[N]; // 存放哈夫曼编码
    int start;
}HCode; // 声明哈夫曼编码类型

/*-------------由含有n个叶子结点的ht构造完整的哈夫曼树-----------------*/
static void create_huffman_tree(HTNode ht[], int n)
{
    int i;
    int k;
    int lnode;
    int rnode;
    int min1;
    int min2;

    // 所有结点的相关域设置初值为-1
    for(i = 0; i < 2 * n - 1; i++)
        ht[i].parent = ht[i].lchild = ht[i].rchild = -1;
    for(i = n; i < 2 * n - 1; i++) // 构造哈夫曼树的分支结点
    {
        min1 = min2 = 32767;
        lnode = rnode = -1;
        for(k = 0; k <= i - 1; k++) // 查找最小和次小的结点
        {
            if(ht[k].parent == -1) // 只在尚未构造二叉树的结点中查找
            {
                if(ht[k].weight < min1)
                {
                    min2 = min1;
                    rnode = lnode;
                    min1 = ht[k].weight;
                    lnode = k;
                }
                else if(ht[k].weight < min2)
                {
                    min2 = ht[k].weight;
                    rnode = k;
                }
            }
        }
        ht[lnode].parent = i; // 合并两个最小和次小的结点
        ht[rnode].parent = i;
        ht[i].weight = ht[lnode].weight + ht[rnode].weight; // 计算双亲结点的权重
        ht[i].lchild = lnode; // 设置双亲结点的左孩子
        ht[i].rchild = rnode; // 设置双亲结点的右孩子
    }
}

/*-------------由哈夫曼树ht构造哈夫曼编码hcd-----------------*/
static void create_huffman_code(HTNode ht[], HCode hcd[], int n)
{
    int i;
    int f;
    int c;
    HCode hc;

    for(i = 0; i < n; i++) // 根据哈夫曼树构造所有叶子结点的哈夫曼编码
    {
        hc.start = n;
        c = i;
        f = ht[i].parent;
        while(f != -1) // 循环直到树根结点
        {
            if(ht[f].lchild == c) // 处理左孩子结点
                hc.cd[hc.start--] = '0';
            else // 处理右孩子结点
                hc.cd[hc.start--] = '1';
            c = f;
            f = ht[f].parent;
        }
        hc.start++; // start指向哈夫曼编码最开始字符
        hcd[i] = hc;
    }
}

/*-------------输出哈夫曼编码-----------------*/
static void display_huffman_code(HTNode ht[], HCode hcd[], int n)
{
    int i;
    int k;
    int sum = 0;
    int m = 0;
    int j;

    printf("输出哈夫曼编码:\n");
    for(i = 0; i < n; i++)
    {
        j = 0;
        printf("      %s:\t", ht[i].data);
        for(k = hcd[i].start; k <= n; k++)
        {
            printf("%c", hcd[i].cd[k]);
            j++;
        }
        m += ht[i].weight;
        sum += ht[i].weight * j;
        printf("\n");
    }

    printf("\n平均长度 = %g\n", 1.0 * sum / m);
}

int main(void)
{
    int n = 15;
    int i;
    HTNode ht[M];
    HCode hcd[N];
    char *str[] = {"The", "of", "a", "to", "and", "in", "that", "he", "is", "at", "on", "for", "His", "are", "be"};
    int fnum[] = {1192, 677, 541, 518, 462, 450, 242, 195, 190, 181, 174, 157, 138, 124, 123};

    for(i = 0; i < n; i++)
    {
        strcpy(ht[i].data, str[i]);
        ht[i].weight = fnum[i];
    }
    create_huffman_tree(ht, n); // 创建哈夫曼树
    create_huffman_code(ht, hcd, n); // 构造哈夫曼编码
    display_huffman_code(ht, hcd, n); // 输出哈夫曼编码

    return 0;
}
测试结果:

输出哈夫曼编码:
     The:      01
     of:       101
     a:        001
     to:       000
     and:      1110
     in:       1101
     that:     11110
     he:       11001
     is:       11000
     at:       10011
     on:       10010
     for:      10001
     His:      10000
     are:      111111
     be:       111110

平均长度 = 3.56208

### 李春葆方法构建哈夫曼生成哈夫曼编码 #### 1. 构建哈夫曼数据结构定义 为了实现哈夫曼及其编码,首先需要定义节点类 `HuffmanNode` 优先队列来存储这些节点。 ```python import heapq class HuffmanNode: def __init__(self, char=None, freq=0): self.char = char # 字符 self.freq = freq # 出现频率 self.left = None # 左子节点 self.right = None # 右子节点 def __lt__(self, other): return self.freq < other.freq ``` 此部分描述了用于表示哈夫曼中各个字符的信息[^1]。 #### 2. 创建最小堆将所有单个字符作为叶节点加入其中 通过统计输入字符串中各字符出现次数创建初始森林,将其转换成最小堆形式以便后续操作。 ```python def build_min_heap(frequencies): heap = [] for key in frequencies.keys(): node = HuffmanNode(key, frequencies[key]) heapq.heappush(heap, node) return heap ``` 这段代码实现了将字符频次表转化为由单字符组成的二叉集合的过程[^2]。 #### 3. 合两个最低概率的节点直到只剩下个根节点为止 不断取出权重最小的两棵棵新重新放回堆中继续迭代直至完成整棵哈夫曼构造。 ```python def merge_nodes(min_heap): while len(min_heap) > 1: min1 = heapq.heappop(min_heap) min2 = heapq.heappop(min_heap) merged_node = HuffmanNode(freq=min1.freq + min2.freq) merged_node.left = min1 merged_node.right = min2 heapq.heappush(min_heap, merged_node) return min_heap[0] if min_heap else None ``` 上述过程确保每次都能找到当前剩余未处理节点中的最小权值者参与组合形成新的内部节点。 #### 4. 使用递归方式遍历已建立好的哈夫曼从而获得相应字符对应编码串 最后步是从根到叶子路径上标记左分支为'0',右分支为'1'的方式记录下每条到达特定字母位置所经过路线即为其霍夫曼码字典。 ```python def generate_codes(node, prefix="", code_dict={}): if not node: return if not (node.left or node.right): # 如果是叶子节点,则保存编码 code_dict[node.char] = prefix generate_codes(node.left, prefix+"0", code_dict) generate_codes(node.right, prefix+"1", code_dict) return code_dict ``` 该函数利用前序遍历特性自顶向下逐层访问每个非终端单元最终得到完整的映射系列表。
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值