信息熵与压缩编码基础

一、信息熵

a. 信息是不是可以量化?

即量化一个消息的信息量,量化信息的“不确定程度”,信息熵entropy,是信息理论里面最最基础的一个概念。

个事件的信息量就是这个事件发生的概率的负对数。信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上,信息熵其实是信息量的期望。

b. 公式

在这里插入图片描述

二、求信息熵例子:

一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE

A的概率是6/42=1/7
B的概率是4/42=2/21
C的概率是9/42=3/14
D的概率是4/42=2/21
E的概率是19/42

那么H=1/7log7+2/21log(2/21)+3/14log(3/14)+2/21log(2/21)+19/42log(19/24)=2.281

三、计算压缩率

a. 如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少?

压缩率(Compression rate),描述压缩文件的效果名,是文件压缩后的大小与压缩前的大小之比,例如:把100m的文件压缩后是90m,压缩率为90/100*100%=90%,压缩率一般是越小越好,但是压得越小,解压时间越长。

在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。
例如,在英文中,e的出现机率最高,而z的出现概率则最低。当利用霍夫曼编码对一篇英文进行压缩时,e极有可能用一个比特来表示,而z则可能花去25个比特(不是26)。用普通的表示方法时,每个英文字母均占用一个字节,即8个比特。二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。
霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的路径长度是从树根到每一结点的路径长度之和。

在这里插入图片描述
在这里插入图片描述

四、计算图像字节

a.一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节?

1024*768的RGB(24位)彩色位图(BMP)图像约占用2350000 字节(约2.25MB)左右

b.如果将其保存为非压缩格式的BMP文件,文件有多少字节?

至少需要2.25MB的存储空间。
24位真彩,即每个像素占24bit,一个字节可以储存8位数据。1024768个像素点,1024768*24=18874368(bit),再除以8转换为byte(8bit=1byte)=2359296(byte)。
又因为1024byte=1KB,再除以1024等于2304KB,如果再除以1024就是2.25MB

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值