哈夫曼编码与压缩文件

最新推荐文章于 2024-05-19 17:39:56 发布

btc_runes

最新推荐文章于 2024-05-19 17:39:56 发布

阅读量540

点赞数 1

本文链接：https://blog.csdn.net/yangzijiangac/article/details/113621807

版权

我们已知:1 $t y p e$ =8 $b i t$ ，计算机的内存存储器的数据信号有 $D 0 - D 7$ 8个数据信号，每个数据信号都会接受 1 $b i t$ 的数据，所以我们称 8 $b i t$ = 1 $t y p e$ （字节）。所以每接受一个英文字符，都会占用 1 $t y p e$ 的内存，但是对于这种方式我们其实可以进行压缩，来减少文件对内存的占用。接下来进入正题！

哈夫曼编码

执行过程：
先统计每个字符的出现频率，然后按照出现频率从小到大排序，然后将频率低的进行和并，合并成一个新的节点，然后在对剩余的节点（包括刚合并的节点进行上次操作）最终我们可以得到一棵树，然后从树的根节点开始遍历树，得到每个叶节点的哈夫曼编码（左0右1原则）。

假设有字符串：AAAAAABBCDDEEEEEF，占用内存 17 $t y p e$ = 17 $*$ 8 bit
在这里插入图片描述
得到哈夫曼编码：

000000000000 100100 110 101101 0101010101 111

40 $b i t$ = 40/8 = 5 $t y p e$
文件对内存的占用从17 字节到5字节，可见哈夫曼编码对文件的压缩率高的惊人

这里用c++实现哈夫曼编码：

#include <bits/stdc++.h>
using namespace std;

int ct;
struct node {
  int Node;
  int w;
  bool operator<(const node& other) const { return other.w < w; }
};
map<char, int> Hash;
int Haffman[10005][3];
priority_queue<node> q;
unordered_map<int, string> Hs;
void Haffmantree_create() {
  while (q.size() != 1) {
    int x = q.top().w;
    int ls = q.top().Node;
    q.pop();
    int y = q.top().w;
    int rs = q.top().Node;
    q.pop();
    int sum = x + y;
    ++ct;
    Haffman[ct][0] = ls;
    Haffman[ct][1] = rs;
    q.push(node{ct, sum});
  }
}
void Haffman_serach(int rt, string s) {
  if (Haffman[rt][0] == Haffman[rt][1]) {
    cout << char(Haffman[rt][2]) << ' ' << s << endl;
    Hs[Haffman[rt][2]] = s;
    return;
  }
  Haffman_serach(Haffman[rt][0], s + '0');
  Haffman_serach(Haffman[rt][1], s + '1');
}
void Haffman_chieve(string s) {
  Haffmantree_create();
  string ss = "";
  Haffman_serach(ct, ss);
  string ans = "";
  for (auto key : s) {
    ans += Hs[key];
  }
  cout << ans << endl;
  cout << ans.size() << "bit" << endl;
}
int main() {
  string s;
  cin >> s;
  for (auto x : s) {
    Hash[x]++;
  }
  for (auto it = Hash.begin(); it != Hash.end(); it++) {
    ++ct;
    q.push(node{ct, it->second});
    Haffman[ct][0] = ct;
    Haffman[ct][1] = ct;
    Haffman[ct][2] = int(it->first);
  }
  Haffman_chieve(s);
  return 0;
}

注意：

这个实现是稍有不足的，因为最后的bit数，并不一定是8的整数倍，所以有些需要补全。

btc_runes

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
哈夫曼编码与压缩文件

我们已知:1 typetypetype=8 bitbitbit，计算机的内存存储器的数据信号有D0−D7D0-D7D0−D7 8个数据信号，每个数据信号都会接受 1 bitbitbit 的数据，所以我们称 8 bitbitbit= 1 typetypetype （字节）。所以每接受一个英文字符，都会占用 1 typetypetype 的内存，但是对于这种方式我们其实可以进行压缩，来减少文件对内存的占用。接下来进入正题！哈夫曼编码执行过程：先统计每个字符的出现频率，然后按照出现频率从小到大排序，然后将频
复制链接

扫一扫