参考-【【科普教室】数据压缩与哈夫曼编码(zip和jpg底层都使用到的编码方法)】 https://www.bilibili.com/video/BV1dE411Z7Zw/?share_source=copy_web&vd_source=c0e8c2d0ab22a7e8d43de72b5fef0fd4
由于计算机只能存储二进制数,字符串保存字符时我们可以采用定长编码存储,使用这种存储方式占用内存较大
为此,我们可以采用哈夫曼编码来进行压缩-哈夫曼是一个前缀编码
在一个编码方案中,任何一个编码都不是其他任何编码的前缀,则称该编码是前缀编码。
例如:
" A " 被分配的代码为 " 0 "
" B " 被分配的代码为 " 10 "
" C " 被分配的代码为 " 110 "
" D " 被分配的代码为 " 111 "
前缀编码可以保证对压缩文件进行解码时不产生二义性,确保正确解码,否则在区分编码所代表的字符时易发生错乱
我们可以根据字符串出现次数作为字符对应的权值,每次选择权值最小的两个组成子树
最后根据生成的子树,从根节点开始,左分支为0,右分支为1
至此,我们就完成了哈夫曼编码过程,长度对于定长编码,压缩了不少