信息熵与压缩编码基础

最新推荐文章于 2021-10-15 17:50:36 发布

乐时及行.

最新推荐文章于 2021-10-15 17:50:36 发布

阅读量559

点赞数

本文链接：https://blog.csdn.net/weixin_47936384/article/details/117295432

版权

一、信息熵
- a. 信息是不是可以量化？
- b. 公式
二、求信息熵例子：
三、计算压缩率
- a. 如果分别采用香农-凡诺编码，霍夫曼编码，压缩率分别是多少？
四、计算图像字节
- a.一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节？
- b.如果将其保存为非压缩格式的BMP文件，文件有多少字节？

一、信息熵

a. 信息是不是可以量化？

即量化一个消息的信息量，量化信息的“不确定程度”，信息熵entropy，是信息理论里面最最基础的一个概念。

个事件的信息量就是这个事件发生的概率的负对数。信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上，信息熵其实是信息量的期望。

b. 公式

在这里插入图片描述

二、求信息熵例子：

一串消息包含A，B，C，D，E共5类符号，其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE

A的概率是6/42=1/7
B的概率是4/42=2/21
C的概率是9/42=3/14
D的概率是4/42=2/21
E的概率是19/42

那么H=1/7log7+2/21log（2/21）+3/14log（3/14）+2/21log（2/21）+19/42log（19/24）=2.281

三、计算压缩率

a. 如果分别采用香农-凡诺编码，霍夫曼编码，压缩率分别是多少？

压缩率（Compression rate），描述压缩文件的效果名，是文件压缩后的大小与压缩前的大小之比，例如：把100m的文件压缩后是90m，压缩率为90/100*100%=90%，压缩率一般是越小越好，但是压得越小，解压时间越长。

在计算机数据处理中，霍夫曼编码使用变长编码表对源符号（如文件中的一个字母）进行编码，其中变长编码表是通过一种评估来源符号出现机率的方法得到的，出现机率高的字母使用较短的编码，反之出现机率低的则使用较长的编码，这便使编码之后的字符串的平均长度、期望值降低，从而达到无损压缩数据的目的。
例如，在英文中，e的出现机率最高，而z的出现概率则最低。当利用霍夫曼编码对一篇英文进行压缩时，e极有可能用一个比特来表示，而z则可能花去25个比特（不是26）。用普通的表示方法时，每个英文字母均占用一个字节，即8个比特。二者相比，e使用了一般编码的1/8的长度，z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算，就可以大幅度提高无损压缩的比例。
霍夫曼树又称最优二叉树，是一种带权路径长度最短的二叉树。所谓树的带权路径长度，就是树中所有的叶结点的权值乘上其到根结点的路径长度（若根结点为0层，叶结点到根结点的路径长度为叶结点的层数）。树的路径长度是从树根到每一结点的路径长度之和。

四、计算图像字节

a.一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节？

1024*768的RGB（24位）彩色位图（BMP）图像约占用2350000 字节（约2.25MB）左右

b.如果将其保存为非压缩格式的BMP文件，文件有多少字节？

至少需要2.25MB的存储空间。
24位真彩，即每个像素占24bit，一个字节可以储存8位数据。1024768个像素点，1024768*24=18874368（bit），再除以8转换为byte（8bit=1byte)=2359296(byte)。
又因为1024byte=1KB，再除以1024等于2304KB，如果再除以1024就是2.25MB

乐时及行.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
信息熵与压缩编码基础

目录一、信息熵二三级目录一、信息熵信息是不是可以量化？即量化一个消息的信息量，量化信息的“不确定程度”，信息熵entropy，是信息理论里面最最基础的一个概念。个事件的信息量就是这个事件发生的概率的负对数。信息熵是跟所有可能性有关系的。每个可能事件的发生都有个概率。信息熵就是平均而言发生一个事件我们得到的信息量大小。所以数学上，信息熵其实是信息量的期望。二三级目录...
复制链接

扫一扫