定义
熵用于表述一个随机变量的不确定性
一个随机变量 X 的熵 H(X) 的计算方式为:
熵是一个事件 X 的平均香农信息量(SIC),当我们得知事件 X 的内容时,我们会获得和熵相等的信息
熵也是用于消除一个事件不确定性所需要的二选一问题的个数
与 SIC 一样,熵的单位为 nats 或 bits
性质
实例
伯努利试验
取一个概率相等的二元信源 A(如正方两面概率相等的硬币),它的概率表达为
则 A 的熵为:
因此我们认为 A 可以用 1 个 bit 来编码
一个编码的效率是熵与用于编码的 bits 数之比,这个例子的效率为
1
1
=
100
%
\frac{1}{1}=100\%
11=100%
现在,我们看另一个例子,假设有一个样本空间为 6 的随机试验,每个事件发生的概率相同,即
它的熵为:
我们用来编码的 bits 必须为整数,因此这里需要用 3 bits 来编码,效率为
2.58
/
3
=
0.86
2.58/3=0.86
2.58/3=0.86
于是我们发现,可能性越大的随机变量贡献的信息量越小,其中一种理解方式是,这一随机变量会在试验中大量出现,因此它的出现往往意味着我们需要更多的试验才能得到全部的信息
信息率
假设一个信源每秒发射
r
s
r_s
rs 个元素,那么这个信源的平均信息率为:
示例
假设有一个如下图所示含有五个元素的信源,它每毫秒发射 1 个元素,求这个信源的信息率
首先,我们可以求出这些随机变量的熵为 1.875 bits
将其与每秒发射的元素相乘,得到信息率为:
Joint Entropy
联合熵指的是一对离散随机变量 X, Y 的联合分布,定义为
其中 A 和 B 是 x 和 y 的样本空间
如果两个信息源 A 和 B 是完全独立的,我们可以得到他们的联合熵为:
Conditional Entropy
条件熵的定义为:
H(Y|X) 指的是我们得知随机变量 X 后,能够从得知随机变量 Y 获得的信息量
注意红框里的是 x 发生后 y 发生的概率,而非联合熵中共同发生的概率
Chain rule and additional entropy
两个随机变量的联合熵,一个随机变量的熵加上得知这个变量后的条件熵,即
对于多个随机变量,联合熵为
同理,条件熵可以这样计算
示例
数字电路中,我们常常会用到奇偶检验发生器来校验代码
当受到的二进制码中有奇数个 1 时,置 1,有偶数个 1 时,置零
现在我们假设二进制码A中 1 的数量可能为{0,1, 2, 3}
奇偶发生器可能的结果为{0,1}
试求 H(A), H(B), H(A,B)
过程如下:
其中第三行的
p
j
∣
i
p_{j|i}
pj∣i 指的是 i 发生后 j 发生的概率
两个求和符号,前者包含了 A 中的 0,1,2,3,后者包含了 B 中的 0,1
结果可以得到 H(B|A)的熵为零,因为 B 完全由 A 决定,所以 B 实际上不包含任何信息
Relative entropy
相对熵的定义为:
相对熵总是非负的,且仅在 p=q 时为 0,即
p 一般来说表示的是实际的数据分布,q 则表示的是理论模型中的数据分布
D ( p ∣ ∣ q ) D(p||q) D(p∣∣q) 是我们用 q 来近似 p 时损失的信息
Gibbs inequality
对于任意 distribution P 和 Q,有
即一个分布P的熵大于等于这个分布和其它任意分布Q的联合熵,二者之差就是相对熵,即
实例
假设一个样本空间 X={0,1},上面有两种分布 q,p,假设
我们可以得到
当 r = 0.5,s = 0.25时
可以看到,从不同的 distribution 出发,得到的相对熵是不一样的
Conditional relative entropy and chain rule
条件相对熵
相对熵也可以应用 chain rule,示例如下:
Mutual information
交互信息描述的是两个随机变量 X 和 Y 的依赖关系,即其中一个变量包含了多少另外一个变量的信息
若 X 和 Y 完全无关,则交互信息为 0
若 X 和 Y 完全相同,则交互信息等于其中任何一者的熵
交互信息的公式为:
也可以进一步写成
性质
2.
3.
4.
交互信息与熵之间的关系
根据上面的几条性质,我们可以总结出交互信息与熵之间的关系
下图可以更直观地看出他们的关系
H(X) 和 H(Y) 是两个大圆,H(X|Y), H(Y|X) 是大圆减去阴影的部分
实例
如图是 X 和 Y 的联合分布,计算H(X,Y), H(X), H(Y), H(X|Y), H(Y|X) 和 I(X,Y)
过程为:
我们可以先根据表格计算出 P(Y) 和 P(X),并以此算出 H(X), H(Y)
第二步,根据表格算出联合熵 H(X,Y)
第三步,根据熵与熵之间的关系,可以得出条件熵
第四步,根据熵与交互信息的关系,可以得出 I(X,Y)
Conditional mutual infromation and chain rule
条件交互信息的计算方式如下:
Chain rule 则为: