哈夫曼树应用：构建、编码和解码c++实现

本文链接：https://blog.csdn.net/yiyidedakeaiya/article/details/138511096

哈夫曼树（Huffman Tree）是一种重要的数据结构，常用于数据压缩和编码。它通过构建一棵最优的二叉树来实现最优编码，从而使得编码长度最短化。本篇博客将详细介绍哈夫曼树的构建、编码和解码过程，帮助读者深入理解哈夫曼树的原理和应用。

1. 哈夫曼树的构建

哈夫曼树的构建过程基于字符出现的频率来构造一棵最优的二叉树。具体步骤如下：

根据输入文本统计每个字符的出现频率。
将每个字符及其对应的频率作为叶子节点构建一个优先队列（最小堆）。
从优先队列中取出两个频率最小的节点，合并成一个新节点，将其频率设置为两个节点的频率之和。
将新节点插入到优先队列中。
重复步骤3和步骤4，直到优先队列中只剩下一个节点，即哈夫曼树的根节点。

2. 哈夫曼编码

哈夫曼编码是通过哈夫曼树来实现的，它将每个字符映射到一个唯一的二进制编码，使得出现频率较高的字符拥有较短的编码，出现频率较低的字符拥有较长的编码。具体步骤如下：

从哈夫曼树的根节点开始，向左走为0，向右走为1，记录路径上的编码。
遍历哈夫曼树的叶子节点，将每个字符与其对应的编码存储到编码表中。

3. 哈夫曼解码

哈夫曼解码是将编码后的二进制串重新转换成原始的字符序列，需要借助于哈夫曼树和编码表。具体步骤如下：

从根节点开始，依次读取编码串中的每个位。
根据读取的位值，向左走为0，向右走为1，直到遇到叶子节点。
将叶子节点对应的字符输出，并从根节点重新开始读取下一个编码串。

4.带权路径长度

（Weighted Path Length，WPL）是哈夫曼树中的一个重要概念，用于衡量哈夫曼编码的效率。在哈夫曼树中，每个叶子节点都代表着一个字符，其编码长度为从根节点到该叶子节点的路径长度，而路径长度乘以对应字符的权重（出现频率）就得到了该字符在哈夫曼编码中的带权路径长度。因此，带权路径长度可以看作是对整个编码方案的平均效率的度量
带权路径长度较小的二叉树树称做哈夫曼树

示例代码

#include <iostream>
#include <queue>
#include <unordered_map>
#include <vector>
#include <string>

using namespace std;

// 哈夫曼树节点的结构体
struct HuffmanNode {
    char data; // 字符
    int freq; // 频率
    HuffmanNode* left;
    HuffmanNode* right;

    HuffmanNode(char d, int f) : data(d), freq(f), left(nullptr), right(nullptr) {}
};

// 用于比较节点频率的仿函数
struct Compare {
    bool operator()(HuffmanNode* a, HuffmanNode* b) {
        return a->freq > b->freq; // 频率小的优先级高
    }
};

// 哈夫曼树类
class HuffmanTree {
private:
    unordered_map<char, string> encodingTable; // 编码表
    unordered_map<string, char> decodingTable; // 解码表
    HuffmanNode* root; // 根节点

    // 销毁哈夫曼树
    void destroyTree(HuffmanNode* node) {
        if (node) {
            destroyTree(node->left);
            destroyTree(node->right);
            delete node;
        }
    }

    // 生成编码表
    void buildEncodingTable(HuffmanNode* node, string code) {
        if (node) {
            if (!node->left && !node->right) { // 叶子节点
                encodingTable[node->data] = code;
                decodingTable[code] = node->data;
            }
            buildEncodingTable(node->left, code + "0");
            buildEncodingTable(node->right, code + "1");
        }
    }

public:
    // 构造函数
    HuffmanTree(const unordered_map<char, int>& freqMap) : root(nullptr) {
        // 构建哈夫曼树
        priority_queue<HuffmanNode*, vector<HuffmanNode*>, Compare> pq;
        for (auto& pair : freqMap) {
            pq.push(new HuffmanNode(pair.first, pair.second));
        }

        while (pq.size() > 1) {
            HuffmanNode* left = pq.top(); pq.pop();
            HuffmanNode* right = pq.top(); pq.pop();
            HuffmanNode* parent = new HuffmanNode('$', left->freq + right->freq);
            parent->left = left;
            parent->right = right;
            pq.push(parent);
        }

        root = pq.top();
        pq.pop();

        // 生成编码表
        buildEncodingTable(root, "");
    }

    // 析构函数
    ~HuffmanTree() {
        destroyTree(root);
    }

    // 编码函数
    string encode(const string& text) {
        string encodedText = "";
        for (char ch : text) {
            encodedText += encodingTable[ch]+" ";
        }
        return encodedText;
    }

    // 解码函数
    string decode(const string& encodedText) {
        string decodedText = "";
        string code = "";
        for (char ch : encodedText) {
            code += ch;
            if (decodingTable.find(code) != decodingTable.end()) {
                decodedText += decodingTable[code];
                code = "";
            }
        }
        return decodedText;
    }
};

int main() {
    // 构建频率表
    unordered_map<char, int> freqMap;
    freqMap['a'] = 5;
    freqMap['b'] = 9;
    freqMap['c'] = 12;
    freqMap['d'] = 13;
    freqMap['e'] = 16;
    freqMap['f'] = 45;

    // 创建哈夫曼树
    HuffmanTree huffman(freqMap);

    // 编码示例
    string text = "abcdef";
    string encodedText = huffman.encode(text);
    cout << "Encoded Text: " << encodedText << endl;

    // 解码示例
    string decodedText = huffman.decode(encodedText);
    cout << "Decoded Text: " << decodedText << endl;

    return 0;
}