互信息属于信息论的范畴,在正式了解互信息这个概念之前,我们需要了解信息熵和条件熵这两个概念。下面开始介绍这些概念:
互信息的相关概念
1.信息熵
在信息论中,信息熵(Entropy)是用于度量随机变量的不确定性的指标。对于一个离散随机变量 X,它的熵 H(X) 表示 X 的信息量,计算公式为:
其中,P(x) 是 X 取值为 x 的概率,熵越大,表示随机变量的不确定性越高。
2.条件熵
条件熵 H(X∣Y) 表示在已知另一个随机变量 Y 的前提下,随机变量 X 的不确定性。它反映了在 Y 已知的情况下 X 的信息量还剩多少。其数学表达式为:
3.互信息的定义
在知道熵和条件熵后,我们开始进入正篇!
互信息(Mutual Information, MI) 是信息论中的重要概念,用来衡量两个随机变量 X 和 Y 之间的依赖关系。互信息表示的是通过一个随机变量对另一个随机变量减少的不确定性,直观上可以理解为它们之间共享的信息量。
互信息的数学定义为:
其中,H(X) 是 X 的熵,H(X∣Y) 是在知道 Y 的情况下 X 的条件熵。通过互信息公式可以看出,互信息本质上是两个变量之间共享信息的量,它表示了 Y 对 X 信息量(不确定性)的减少,这个减少的信息量就是互信息。
可以这样理解,当我们不了解 Y 时,X 的信息量(或不确定性)是 H(X)。一旦我们知道了 Y,它可能包含一些关于 X 的信息,减少了我们对 X 的不确定性。这个因为 Y 带来的不确定性的减少量,就是我们所说的互信息。
换句话说,互信息就是 X 和 Y 之间共享的那部分信息,反映了这两个变量之间的关联程度。互信息越大,说明 Y 能告诉我们关于 X 的更多信息,或者它们之间的关系更紧密。
互信息的性质
1.非负性
互信息总是大于等于0,即 I(X;Y)≥0,当且仅当 X 和 Y 相互独立时,I(X;Y)=0。
2.对称性
互信息对 X 和 Y 是对称的,即 I(X;Y)=I(Y;X)。
3.与熵的关系
互信息可以看作是 X 和 Y 的联合熵 H(X,Y) 与各自边缘熵的关系,这是互信息的另外一个公式形式,之前还有一个是用条件熵的公式,并且这两个公式的图解我都放到最后了:
(ps:这里的联合熵和边缘熵的概念和概率论中的联合概率分布和边缘概率分布理解起来差不多)
浅浅介绍一下联合熵
为了理解这个公式,我们还是介绍一下联合熵的概念:
它用于衡量两个或多个随机变量一起时的不确定性。对于两个随机变量 X 和 Y,联合熵 H(X,Y) 表示它们的联合分布下的总信息量,即描述了这两个变量一起取值时的不确定性。它的数学公式如下:
联合熵衡量的是两个变量一起时的总不确定性。它反映了我们同时不知道 X 和 Y 的值时,整体有多少不确定性或信息量。可以理解为考虑了 X 和 Y 的联合可能性,而不仅仅是它们的单独不确定性。
例如,如果 X 和 Y 是完全独立的,那么联合熵就是它们的边缘熵之和:
但是,如果 X 和 Y 是相互依赖的,联合熵会小于它们边缘熵的和,因为它们之间的依赖关系减少了总体的不确定性。
三条性质的证明或者说明
非负性和对称性证明
如果想了解证明的话可以看一下这位大佬的文章,不过感觉一般用不到这些证明:信息增益(互信息)非负性证明_互信息 非负性-CSDN博客
证明中用到了部分微积分和不等式知识以及KL散度的概念,比较烧脑。
与熵的关系说明
其实这个最简单,画个图就能理解了:
H(A)是A的信息量,H(B)是B的信息量,H(A,B)是两者在一起时的信息量,那么中间的小交集就是共享的信息量(互信息)。
之前的互信息的公式:也可以用集合图来理解,
H(A|B)是条件熵,表示在B已知的情况下A还剩多少信息量,这下结合图就一目了然了,希望能帮助各位理解互信息的两个公式。