一、 信息墒
1、定义
信息熵是香农于1948年提出的概念,用来描述信源的不确定度,是从热力学中借用过来的概念。
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。
信息墒的定义公式:
并且规定 0 log ( 0 ) = 0
2、性质
信息论之父克劳德·香农给出的信息熵的三个性质:
1、单调性,发生概率越高的事件,其携带的信息量越低;
2、非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
3、累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。
香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式。
其中的 C CC 为常数,我们将其归一化为 C = 1 C=1C=1 即得到了信息熵公式。
二、 两个例子
1、一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE, 请问其信息熵是多少?如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少
香农-凡诺编码
按照概率大小排序,再分割E,C分为19和23,再从C,A,B,D中分割C,A分为了9,14,再从A,B,D中分割为A,B分为6和8,再将B和D分割。
符号 | 次数 | 编码 | 位数 |
---|---|---|---|
E | 19 | 1 | 19 |
C | 9 | 00 | 18 |
A | 6 | 000 | 18 |
B | 4 | 0111 | 16 |
D | 4 | 0110 | 16 |
总计 | 42 | ---- | 87 |
编码前:5个符号需要三位,42个字符共126。
编码后:共87位
压缩比:126:87=1.45:1
霍夫曼编码
根据符号的次数,E>C>A>B,D,B=D。
先将B,D组成节点共8,再与A组成节点共14,再与C组成节点共23,再与E组成节点。
符号 | 次数 | 编码 | 位数 |
---|---|---|---|
E | 19 | 1 | 19 |
C | 9 | 00 | 18 |
A | 6 | 000 | 18 |
B | 4 | 0111 | 16 |
D | 4 | 0110 | 16 |
总计 | 42 | ---- | 87 |
编码前:5个符号需要三位,42个字符共126。
编码后:共87位
压缩比:126:87=1.45:1
2、一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节? 如果将其保存为非压缩格式的BMP文件,文件有多少字节?请用实例验证。
答:24位RGB彩色图像,每个像素占24bit,一个字节可以储存8位数据。1024768个像素点,1024768*24=18874368(bit),再除以8转换为byte(8bit=1byte)=2359296(byte)。
保存为非压缩格式BMP文件: