哈夫曼树与哈夫曼编码
压缩与解压缩技术
这里提出一种专门针对ASCII码(英文及英文标点)的压缩技术:对文本文件中的字符,按照出现频度大小,将出现频度最大的字符,用最少的二进制位表达(替换);
比如:假设某文件中,字母e出现了304325次,每一个e都应该是一个ASCII码,即,占用8bit;若能用2个bit的信息替换,则,可以省304325bit * (8-2) = 228243Byte 304325 * 2 / 8 = 76082 76081 / 304325 = 0.25
假设,有如下字符及其出现频度:
a 2
b 8
c 1
d 7
e 20
f 3
那么我们就可以形成一棵哈夫曼树,如下图所示:
其形成的原理是:先找出两个出现频度最小的,作为左右孩子,然后将两者频度之和作为根节点;再找出频度第三小的,作为左孩子,与刚才的根节点形成左右孩子,依此类推,形成一棵哈夫曼树。令:向左为0;向右为1,从根出发,到达某一个叶子节点的0、1集合,就是那个叶子节点所表示的字符对应的哈夫曼编码。
e:0
b:10
d:110
f:1110
c:11110
a:11111
而哈夫曼压缩与解压缩要解决的第一个问题就是:统计给定字符串(文件)中出现的字符种类及其频度。
哈夫曼压缩与解压缩
1.针对文件进行压缩和解压缩;即,输入是文件,输出也是文件;
2.针对文件进行操作:
2.1统计该文件中出现的不同字节(应该只能使用:unsigned char 类型!!!)及其频度;
2.2根据上述统计数据,构造哈夫曼树;
2.3根据上述哈夫曼树,构造每一个字节的哈夫曼编码;
2.4将文件中的字节,转换成哈夫曼编码;
3.将由哈夫曼编码形成的最终压缩文件作为输出。
综上,结构体应定义为:
typedef struct TREE{
char ch;
int freq;
struct TREE *leftChild;
struct TREE *rightChild;
}TREE;
其实大致思路就是这样,其中最关键的就是,先形成一个表,再由表形成树,具体怎么实现,还是直接上代码吧!!!
github:https://github.com/xiami-maker/aboutHuffman/tree/master
感悟:对于哈夫曼压缩和解压缩,主要是对于哈夫曼树的应用,还有一些思想:把压缩和解压缩过程做成工具以便代码复用,方便阅读,减少编程量,采用文件的形式来存放更具有实际意义等。需要读者浏览代码的过程中,自行体会。