信息来自对随机事件的选择,数据压缩的极限是min I(X;Y),数据传输的极限是max I(X;Y)。信源视作随机过程,用输入的随机变量的概率密度函数来表示,信道看作概率转移矩阵,考虑在噪声情况下p(y|x)的分布。我们通常考虑的是三个问题
- 信源的压缩极限:信源编码定理
- 在一定信道条件下,所能通过信道的最大信息极限:信道编码定理
- 容忍在一定信源压缩失真的条件下,所能得到的最小码率极限:率失真编码定理
首先介绍信息论的基本概念(针对的是离散随机变量)
#对比特的理解:二进制数字中的位,信息量的度量单位,为信息量的最小单位。比特,计算机专业术语,是信息量单位。二进制数的一位所包含的信息就是一比特,如二进制数0100就是4比特。
两个概念
1)计算机专业术语,是信息量单位,是由英文BIT音译而来。二进制数的一位所包含的信息就是一比特,如二进制数0100就是4比特。
2)二进制数字中的位,信息量的度量单位,为信息量的最小单位。数字化音响中用电脉冲表达音频信号,“1”代表有脉冲,“0”代表脉冲间隔。如果波形上每个点的信息用四位一组的代码表示,则称4比特,比特数越高,表达模拟信号就越精确,对音频信号还原能力越强。
位概念
二进制数系统中,每个0或1就是一个位(bit),位是数据存储的最小单位。其中8bit就称为一个字节(Byte)。计算机中的CPU位数指的是CPU一次能处理的最大位数。例如32位计算机的CPU一次最多能处理32位数据。
1:自信息
p(ai)是ai的概率密度函数,自信息越大,不确定性越大。当事件必然发生时不确定性为零,自信息为零。
2:熵:是信息不确定性的度量,也是描述随机变量平均所需的信息量。概率为1,是必然事件,一定会发生,不含信息量,所以熵为零。概率为零同理,当概率为0.5时,事件等可能发生,不确定性很大,所以熵达到二元分布的最大
熵也可以看作自信息的均值。
3:联合熵 联合熵是联合不确定度的度量与单个随机变量的熵定义类似,将联合熵定义为联合概率密度函数的对数均值
4:条件熵类似的,条件熵看作条件概率密度函数的对数均值,当X,Y相互独立时,知道其中一个变量对另外一个变量的不确定度减少没有效果。即
联合熵可以写成条件熵加上其中一个变量的熵,即联合不确定度等于X的不确定度加上在X知道的情况下Y的不确定度,可类似于联合概率密度函数来记忆。以上这个等式也叫做熵的链式法则
加上条件后有上式成立,注意,但是有这个等式可以根据互信息得来
条件会减少随机变量的熵,即但是在某个特定Y取值下,也是有可能的,把Y看作某个具体的取值再去求条件熵其不确定性不一定减少。
5:互信息
即知道一个随机变量后对另一个随机变量不确定度的减少量。从信道的角度来看互信息,表示了一个信道输入于输出之间的依存关系,即信息的传输能力,也是后面的信道容量。收到Y后则尽可能多的知道关于X的信息,说明互信息大,信道的传输能力好,由此获得的信道容量最大,通过调节信道输入X来获得最大的信道容量。
- 对称性
从互信息的互即相互的意思,也可以理解是对称的 - 非负性
从条件减少熵可以知道被减数大于等于减数 - 极值性
也从条件减少熵和互信息的两种展开形式可以看出
6:鉴别信息(交叉熵,信息散度,K-L距离)
当真是分布是p时,假设分布是q的无效性的测度,这个符号在后面编码误差上下界上会有用
熵和互信息的相关关系
最大离散熵定理:离散随机变量X在等概率分布时,熵取得最大值是字母集的个数。