信息论:熵

本文深入探讨了信息论中的熵概念,包括熵的定义、计算方式及其在不同随机变量中的应用。通过伯努利试验和多元随机试验的例子,解释了熵如何衡量不确定性以及编码效率。同时,介绍了信息率、联合熵、条件熵、链式规则、相对熵、条件相对熵和互信息等关键概念,并给出了相应的计算示例。这些理论在数字电路、数据编码和信息传输等领域具有重要意义。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

定义

熵用于表述一个随机变量不确定性

一个随机变量 X 的熵 H(X) 的计算方式为:
在这里插入图片描述
熵是一个事件 X 的平均香农信息量(SIC),当我们得知事件 X 的内容时,我们会获得和熵相等的信息
熵也是用于消除一个事件不确定性所需要的二选一问题的个数

与 SIC 一样,熵的单位为 nats 或 bits

性质

在这里插入图片描述

实例

在这里插入图片描述

伯努利试验

取一个概率相等的二元信源 A(如正方两面概率相等的硬币),它的概率表达为
在这里插入图片描述
则 A 的熵为:
在这里插入图片描述

因此我们认为 A 可以用 1 个 bit 来编码
一个编码的效率是熵与用于编码的 bits 数之比,这个例子的效率为 1 1 = 100 % \frac{1}{1}=100\% 11=100%

现在,我们看另一个例子,假设有一个样本空间为 6 的随机试验,每个事件发生的概率相同,即
在这里插入图片描述
它的熵为:
在这里插入图片描述
我们用来编码的 bits 必须为整数,因此这里需要用 3 bits 来编码,效率为 2.58 / 3 = 0.86 2.58/3=0.86 2.58/3=0.86

于是我们发现,可能性越大的随机变量贡献的信息量越小,其中一种理解方式是,这一随机变量会在试验中大量出现,因此它的出现往往意味着我们需要更多的试验才能得到全部的信息

信息率

假设一个信源每秒发射 r s r_s rs 个元素,那么这个信源的平均信息率为:
在这里插入图片描述

示例

假设有一个如下图所示含有五个元素的信源,它每毫秒发射 1 个元素,求这个信源的信息率
在这里插入图片描述
首先,我们可以求出这些随机变量的熵为 1.875 bits

将其与每秒发射的元素相乘,得到信息率为:
在这里插入图片描述

Joint Entropy

联合熵指的是一对离散随机变量 X, Y 的联合分布,定义为
在这里插入图片描述
其中 A 和 B 是 x 和 y 的样本空间

如果两个信息源 A 和 B 是完全独立的,我们可以得到他们的联合熵为:
在这里插入图片描述

Conditional Entropy

条件熵的定义为:
在这里插入图片描述
H(Y|X) 指的是我们得知随机变量 X 后,能够从得知随机变量 Y 获得的信息量
注意红框里的是 x 发生后 y 发生的概率,而非联合熵中共同发生的概率

Chain rule and additional entropy

两个随机变量的联合熵,一个随机变量的熵加上得知这个变量后的条件熵,即
在这里插入图片描述
对于多个随机变量,联合熵为
在这里插入图片描述

同理,条件熵可以这样计算
在这里插入图片描述

示例

数字电路中,我们常常会用到奇偶检验发生器来校验代码
当受到的二进制码中有奇数个 1 时,置 1,有偶数个 1 时,置零

现在我们假设二进制码A中 1 的数量可能为{0,1, 2, 3}
奇偶发生器可能的结果为{0,1}

试求 H(A), H(B), H(A,B)

过程如下:
在这里插入图片描述

在这里插入图片描述
其中第三行的 p j ∣ i p_{j|i} pji 指的是 i 发生后 j 发生的概率
两个求和符号,前者包含了 A 中的 0,1,2,3,后者包含了 B 中的 0,1

结果可以得到 H(B|A)的熵为零,因为 B 完全由 A 决定,所以 B 实际上不包含任何信息

Relative entropy

相对熵的定义为:
在这里插入图片描述

相对熵总是非负的,且仅在 p=q 时为 0,即在这里插入图片描述

p 一般来说表示的是实际的数据分布,q 则表示的是理论模型中的数据分布

D ( p ∣ ∣ q ) D(p||q) D(pq) 是我们用 q 来近似 p 时损失的信息

Gibbs inequality

对于任意 distribution P 和 Q,有
在这里插入图片描述
即一个分布P的熵大于等于这个分布和其它任意分布Q的联合熵,二者之差就是相对熵,即
在这里插入图片描述

实例

假设一个样本空间 X={0,1},上面有两种分布 q,p,假设
在这里插入图片描述

在这里插入图片描述

我们可以得到
在这里插入图片描述

当 r = 0.5,s = 0.25时
在这里插入图片描述

可以看到,从不同的 distribution 出发,得到的相对熵是不一样的

Conditional relative entropy and chain rule

条件相对熵
在这里插入图片描述

相对熵也可以应用 chain rule,示例如下:
在这里插入图片描述

Mutual information

交互信息描述的是两个随机变量 X 和 Y 的依赖关系,即其中一个变量包含了多少另外一个变量的信息

若 X 和 Y 完全无关,则交互信息为 0
若 X 和 Y 完全相同,则交互信息等于其中任何一者的熵

交互信息的公式为:
在这里插入图片描述
也可以进一步写成
在这里插入图片描述

性质

在这里插入图片描述
2.

在这里插入图片描述
3.
在这里插入图片描述
4.
在这里插入图片描述

交互信息与熵之间的关系

根据上面的几条性质,我们可以总结出交互信息与熵之间的关系
在这里插入图片描述

下图可以更直观地看出他们的关系
在这里插入图片描述
H(X) 和 H(Y) 是两个大圆,H(X|Y), H(Y|X) 是大圆减去阴影的部分

实例

在这里插入图片描述
如图是 X 和 Y 的联合分布,计算H(X,Y), H(X), H(Y), H(X|Y), H(Y|X) 和 I(X,Y)

过程为:
在这里插入图片描述

我们可以先根据表格计算出 P(Y) 和 P(X),并以此算出 H(X), H(Y)

第二步,根据表格算出联合熵 H(X,Y)

第三步,根据熵与熵之间的关系,可以得出条件熵

第四步,根据熵与交互信息的关系,可以得出 I(X,Y)

Conditional mutual infromation and chain rule

条件交互信息的计算方式如下:
在这里插入图片描述

Chain rule 则为:
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值