背景知识：从熵（Entropy）到互信息（MI，Mutual Information）

最新推荐文章于 2025-02-27 10:12:48 发布

YoHu人家

最新推荐文章于 2025-02-27 10:12:48 发布

阅读量2.9k

点赞数 11

分类专栏：机器学习文章标签：机器学习信息熵

本文链接：https://blog.csdn.net/weixin_43845931/article/details/109606714

版权

机器学习专栏收录该内容

6 篇文章

订阅专栏

本文为鄙人的网摘与总结，参考链接见文末，侵删。

香农熵(Shannon entropy)

信息量：对某个事件发生或者变量出现的概率的度量，一般一个事件发生的概率越低，则这个事件包含的信息量越大，这跟我们直观上的认知也是吻合的，越稀奇新闻包含的信息量越大，因为这种新闻出现的概率低。

香农对信息量的衡量：
$log\ \frac{1}{p}=-log\ p$
一条信息的[信息量]大小和它的不确定性有直接的关系。比如说，我们要搞清楚一件非常非常不确定的事，或是我们一无所知的事情，就需要了解大量的信息。相反，如果我们对某件事已经有了较多的了解，我们不需要太多的信息就能把它搞清楚。所以，从这个角度，我们可以认为，信息量的度量就等于不确定性的多少。变量的不确定性越大，熵也就越大，把它搞清楚所需要的信息量也就越大。

香农熵定义：对于任意一个随机变量 $X$ ：
$H(X)=-\sum_x P(X) log_2 [P(x)]$
对于随机变量而言，其取值是不确定的。在做随机试验之前，我们只了解各取值的概率分布，而做完随机试验后，我们就确切地知道了取值，不确定性完全消失。这样，通过随机试验我们获得了信息，且该信息的数量恰好等于随机变量的熵。在这个意义上，我们可以把熵作为信息的量度。

熵(entropy)

熵是衡量一个系统的稳定程度，也是一个系统所有变量信息量的期望或者均值。当一个系统越不稳定，或者事件发生的不确定性越高，它的熵就越高。如下所示（同eq. 2），对数的底数没有确定：
$H(X)=-\sum_{x\in X} P(x) log P(x)=-E\ log \ P(X)$
熵的变体：

连续变量的熵：
$H(X)=\int P(x) · log\frac{1}{P(x)}dx$
联合熵(joint entropy)：
$H(X,Y)=\sum_{x\in X}\sum_{y\in Y}P(x,y)log\frac{1}{P(x,y)}=-E\ log P(X,Y)$
条件熵(conditional entropy)：
$H(Y|X)=\sum_{x\in X}P(x)H(Y|X=x)=-E log\ P(Y|X)$
相对熵(relative entropy)，即KL散度(Kullback–Leibler divergence)，用于衡量两个分布对于同一个变量的差异:
$D_{KL}(p||q)=\sum_{i}p(x_i)·[log\frac{1}{q(x_i)}-log\frac{1}{p(x_i)}] =\sum_{i}p(x_i)·log\frac{p(x_i)}{q(x_i)}$
其中 $p$ 是观察到的变量分布， $q$ 是我们找到的一个尽量分布。

备注：

(1) $K L 散度 = 交叉熵 - 熵$ :
$D_{KL}(p||q)=H(p,q)-H(p)$

(2) KL散度是非对称度量，故不能作为距离计算，因为 $D_{KL}(p||q)\neq D_{KL}(q||p)$ 。

交叉熵(cross entropy)，也可以用来衡量两个分布之间的差异性。
$H_{CE}(p,q)=\sum_i p(x_i)·log\ \frac{1}{q(x_i)}$
显然交叉熵是相对熵的一部分，因为在通常情况下我们是已知 $p$ 的分布，即第二部分是常量，此时交叉熵和相对熵是一个线性关系。我们常常在神经网络中使用交叉熵作为损失函数。
JS散度(Jensen-Shannon divergence)：为解决相对熵即KL散度的不对称问题，进而延伸的变体。
$D_{JS}(p||q) =0.5\times[D_{KL}(p||\frac{p+q}{2})+D_{KL}(q||\frac{p+q}{2})]$
注：JS散度有上界 $\frac{1}{2}log\ 2$ .

信息(Information)

信息增益(Information Gain)：在一个训练集上，用来衡量一个变量 $a$ 对其的影响。
$G a i n (D, a) = H (D) - H (D ∣ a)$
可知 $信息增益 = 信息熵 - 条件熵$ ，信息熵是代表随机变量的复杂度（不确定度），条件熵代表在某一个条件下，随机变量的复杂度（不确定度），故信息增益代表了在一个条件下，信息复杂度（不确定性）减少的程度。

互信息(Mutual Information)：
$I (X, Y) = H (X) - H (X ∣ Y) = H (Y) - H (Y ∣ X) = H (X) + H (Y) - H (X, Y)$
如图所示，互信息即为两边熵的交叉部分。

我们也可以从另一个角度进行理解。设随机变量 $(X, Y)$ 的联合分布及边缘分布分别为 $p (x, y) 、 p (x) 、 p (y)$ 。互信息就是联合分布与乘积分布的相对熵：
$I(X;Y)=\sum_x \sum_y p(x,y)log \frac{p(x,y)}{p(x)p(y)}=KL(p(x,y)||p(x)p(y))$
$I(X;Y)=\sum_x \sum_y p(y|x)log \frac{p(y|x)}{p(y)}=KL(p(y|x)||p(y))$
互信息可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

互信息与信息增益的关系与区别：

互信息描述的是同一个系统下两个子系统的对应部分的信息量；信息增益描述的是同一个系统下，不同状态的信息量。
互信息是指一些物体以不同属性进行分类时的信息量，评价的是属性的关键程度；信息增益是指在已知一个事件后, 事件的不确定程度。
信息增益是互信息的无偏估计，所以在决策树的训练过程中，两者是等价的。

3. 归一化互信息(NMI，Normal Mutual Information)：

将互信息放在[0,1]之间，用于算法的评价：
$NMI(X;Y)=\frac{2I(X,Y)}{H(X)+H(Y)}$

聚类中的标准互信息NMI

$NMI(\Omega ;C)=\frac{2I(\Omega,C)}{H(\Omega)+H(C)}$

其中：
$I(\Omega,C)=\sum_k \sum_j P(w_k \cap c_j)log\frac{P(w_k \cap c_j)}{P(w_k) P(c_j)} =\sum_k \sum_j \frac{|w_k \cap c_j|}{N}log\frac{N|w_k \cap c_j|}{|w_k||c_c|}$
$P(w_k)$ , $P(c_j)$ , $P(w_k \cap c_j)$ 可以分别看做样本属于聚类簇 $w_k$ ，属于类别 $C_j$ ，同时属于两者的概率。第二个等价式子则由概率的极大似然估计推导得出：
$H(\Omega)=-\sum_k P(w_k)logP(w_k)=-\sum_k\frac{|w_k|}{N}log\frac{|w_k|}{N}$
$I(\Omega,C)$ 表示给定类簇信息 $C$ 的前提下，类别信息 $\Omega$ 的增加量，或者说其不确定度的减少量。

点互信息(Pointwise Mutual Information)
$PMI(x:y)=log\frac{p(x,y)}{p(x)p(y)}=log\frac{p(x|y)}{p(x)}=log\frac{p(y|x)}{p(y)}$

如果 $x$ 跟 $y$ 不相关，则 $p (x, y) = p (x) p (y)$ 。二者相关性越大，则 $p (x, y)$ 就相比于 $p (x) p (y)$ 越大。用后面的式子可能更好理解，在 $y$ 出现的情况下x出现的条件概率 $p (x ∣ y)$ 除以 $x$ 本身出现的概率 $p (x)$ ，自然就表示x跟y的相关程度。