问题
电报的原理:发送方将一串信息转换成一串二进制数字,接收方将这串二进制数字转换回一串信息。
这个过程要遵守的原则
- 编码和译码规则具有唯一性。
- 二进制数字串尽可能短,以提高效率降低成本。
两种错误解决方案
假如要传送的信息是ABCDABAB
- A:00 B:01 C:10 D:11
- 0001101100010001即为编码结果
上面这种方案可行但效率还可提高
- A:0 B:1 C:00 D:01
- 0100010101即为编码结果
这种方案不可行,译码时会出现混乱
Huffman算法(最优二叉树)
一组边权为1 2 4 6 8 9,将其填于二叉树的叶子内,使得二叉树的权值最小,所得二叉树即为最小二叉树,该算法即为Huffman算法
Huffman算法用于编码
欲编码的信息:AABBCDAAB
左子树用0代表,右子树用1代表
将ABCD四个字母按照出现频率由低到高进行排序保证编码结果最简洁
得到:CDBA(权值为:1 1 3 4)
得到:
1 1 3 4处填入CDBA
A:1
B:01
C:000
D:001
AABBCDAAB:1101010000011101
最佳前缀码即每个字母的编码都不会成为其他字母编码的前缀。