信息墒与压缩编码基础

一、 信息墒

1、定义

信息熵是香农于1948年提出的概念,用来描述信源的不确定度,是从热力学中借用过来的概念。
一个信源发送出什么符号是不确定的,衡量它可以根据其出现的概率来度量。概率大,出现机会多,不确定性小;反之不确定性就大。
信息墒的定义公式:
在这里插入图片描述
并且规定 0 log ⁡ ( 0 ) = 0

2、性质

信息论之父克劳德·香农给出的信息熵的三个性质:
1、单调性,发生概率越高的事件,其携带的信息量越低;
2、非负性,信息熵可以看作为一种广度量,非负性是一种合理的必然;
3、累加性,即多随机事件同时发生存在的总不确定性的量度是可以表示为各事件不确定性的量度的和,这也是广度量的一种体现。
香农从数学上严格证明了满足上述三个条件的随机变量不确定性度量函数具有唯一形式。
在这里插入图片描述
其中的 C CC 为常数,我们将其归一化为 C = 1 C=1C=1 即得到了信息熵公式。

二、 两个例子

1、一串消息包含A,B,C,D,E共5类符号,其内容是AABBBBAAAACCCCCCCCCEEEEEEDDDDEEEEEEEEEEEEE, 请问其信息熵是多少?如果分别采用香农-凡诺编码,霍夫曼编码,压缩率分别是多少
在这里插入图片描述
在这里插入图片描述

香农-凡诺编码

按照概率大小排序,再分割E,C分为19和23,再从C,A,B,D中分割C,A分为了9,14,再从A,B,D中分割为A,B分为6和8,再将B和D分割。

符号次数编码位数
E19119
C90018
A600018
B4011116
D4011016
总计42----87

编码前:5个符号需要三位,42个字符共126。
编码后:共87位
压缩比:126:87=1.45:1

霍夫曼编码

根据符号的次数,E>C>A>B,D,B=D。
先将B,D组成节点共8,再与A组成节点共14,再与C组成节点共23,再与E组成节点。

符号次数编码位数
E19119
C90018
A600018
B4011116
D4011016
总计42----87

编码前:5个符号需要三位,42个字符共126。
编码后:共87位
压缩比:126:87=1.45:1

2、一幅1024*768的24位RGB彩色图像一共在内存中占有多少字节? 如果将其保存为非压缩格式的BMP文件,文件有多少字节?请用实例验证。

答:24位RGB彩色图像,每个像素占24bit,一个字节可以储存8位数据。1024768个像素点,1024768*24=18874368(bit),再除以8转换为byte(8bit=1byte)=2359296(byte)。
保存为非压缩格式BMP文件:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
决策树sklearn的信息不显示可能有以下几个原因。 首先,可能是由于设置的参数问题。在sklearn中,构建决策树的时候可以设置不同的参数,例如决策树的划分准则(criterion)。默认情况下,sklearn中的决策树算法使用的是信息(entropy)作为划分准则。但是,如果在构建决策树的时候指定了其他的划分准则,就可能导致信息不显示。因此,可以检查一下代码中是否设置了其他的划分准则参数。 其次,可能是由于sklearn版本的问题。不同版本的sklearn可能存在一些差异,包括对决策树算法的实现方式。因此,如果使用的是较旧的sklearn版本,可能会导致信息不显示。建议检查一下sklearn的版本,并尝试更新到最新版本,看看是否能够解决该问题。 最后,可能是由于数据的特殊性。信息是一种衡量数据无序程度的指标,对于某些数据集可能不适用或者不明显。例如,当数据集中的样本类别基本相同或样本特征规律极其明显时,信息可能会非常小或者接近于零。在这种情况下,即使使用信息作为划分准则,也很难看出具体的信息数值,可能导致信息不显示。可以尝试使用其他的划分准则,或者对数据进行一些处理,看看是否能够显示出信息。 综上所述,决策树sklearn不显示信息可能是由于设置的参数问题、sklearn版本问题或者数据的特殊性造成的。可以根据具体的情况进行相应的调整和处理,以解决该问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值