【基础知识-熵】——1.熵的建模

应有光

已于 2022-03-22 15:19:31 修改

阅读量378

点赞数 1

分类专栏：基础知识文章标签：机器学习概率论

于 2022-03-21 18:23:25 首次发布

本文链接：https://blog.csdn.net/zeiyousao/article/details/123636306

版权

基础知识专栏收录该内容

15 篇文章 1 订阅

订阅专栏

感觉很多博客对于熵这个概念都说不明白，而且有直接能看出来的错误，这里为了深刻认识，故做此小结。

信息熵

直观理解

熵，我们知到：是不确定的度量、是信息的度量、是对事件的理想编码；

如果我们完全认识一个事件，那么我们获得了足够大的信息量；反之，则获得的信息量不足。

虽然我们已经用概率做了不确定的度量，但是熵和概率比，有什么区别呢？

如果我们知到一件事必然发生，虽然它的概率是1，但是熵却是0，没有不确定度。如果一件事必然不发生，虽然概率是0，但是熵也是0，因为没有不确定度。但是如果一个概率为1的事件没发生，或者概率为0的事件发生了，那么熵就是无穷大，因为这一事实所带来的信息量很大。
总之，概率和熵，对于不确定的度量采取了不同方式。

定义

直观理解上，如果某个概率的事件发生了，这一个事实带来极大的信息量。因此一个（原子）事件的信息量，就是：
$S (x) = - l o g (x)$
其中，log的底，可以是任意大于1的底，换底等价于更换信息的单位。如果一个随机变量 $X$ （一个事件）对应多个原子事件（对应 $X=x_i$ )，那么随机变量 $X$ 的熵是：
$S(x)=-\sum_x p(x)log(x)$
上面是离散型随机变量，而连续性可以写作：
$S(x)=-\int_x p(x)log(x) dx$
就是原子事件的信息熵的期望。

这意味着，事件 $X$ 发生，能够为我们带来的信息量。

理解建模

首先，为什么是对数呢？我认为有两个关键：

独立可加性；
理想视角下的编码长度；

如果我们认为两个事件 $X$ 和 $Y$ 是互相独立的，那么我们有：
$p (x, y) = p (x) p (y)$
对应的，我们认为联合事件 $X Y$ 发生的熵，其实就是 $X$ 的熵加上 $Y$ 的熵。因为X和Y完全没关系，因此我们把他们两个联合在一起看，和分开看的不确定度是一样的。
$S (X Y) = S (X) + S (Y)$
而对数满足这种性质：
$\begin{aligned} S(XY)=& -\sum_{x,y} p(x,y)log p(x,y) \\ =& -\sum_{x,y} p(x)p(y)(log p(x)+log p(y)) \\ =& -\sum_{x} p(x)log p(x) - \sum_{y} p(y)log p(y) \\ =& S(X)+S(Y) \\ \end{aligned}$

其次，理解一下 $\over p(x)}$ 的含义：
我们如果从频率派估计事件 $x_i$ 发生的概率，那么:
$p(x_i)= x_i \over N$
再思考，如果样本空间中有 $M$ 个事件，那么我们如果采用 $k$ 进制编码，理想情况，我们需要 $log_k M$ 长度的编码。
而 $\over p(x_i)}=N \over x_i$ ，实际上是将 $x_i$ 发生次数归一化后，估计了样本空间大小，为 $\over x_i$ 。也就是说，在 $x_i$ 的视角下，我们需要 $log_k N \over x_i$ 来对总体事件编码。
而 $S (X)$ 相当于求取这种“各自理想视角”下，最优编码的均值。

其实还有两件事，一是值域，而是“单调性”：

如果事件完全“确定”，那么我们没有不确定度，熵为0，对应的是 $X$ 只有确定事件或者不确定事件产生。
信息量越大，熵越大。确定性事件的熵肯定比不确定的事件的熵要小（不确定的事情蕴含的信息越大），确定性事件的概率分布也就是恒等于1，对应的熵是0，因此在这两种情况下，熵最小。

理论一些

如果我们希望把上述建模变得理论一些，那么我们可以算一算。实际上这就是数学建模，别紧张。
我们定义熵应该满足以下条件：
1、它是概率分布p(x)的函数，为了研究的方便，我们还希望它是一个光滑函数；
2、它具有独立可加性，这意味着熵满足：
$\sum_x f(p(x))$
3、信息量越大，熵越大。
我们需要确定函数 $f$ 的表达式。
我们先考虑二元分布（由于是理解，就不考虑多元了，多元的话考虑归纳就行）.
我们再考虑二元分布下，非常简单的形式，即 $p(X)=p,p(\bar X)=1-p，p(Y)=q,p(\bar Y)=1-q$ 。这里我们就不得不解函数方程了，这里偷懒，暂时就不解了。但是可以解出：
$f(x)=\alpha x lnx$

我们根据这个定义，衍生出对于多元变量、联合分布的一些信息量讨论。

联合熵

如果我们知到随机变量 $X$ 和 $Y$ ，那么联合熵定义如下：
$S[x,y]=-\sum_x \sum_y p(x,y) ln p(x,y)$
当然，直观的看，就是对上述熵定义的直接延拓，只不过变为多变量的情况。

条件熵

条件熵，其实就是可以进一步延拓：
$\begin{aligned} S(Y|X)=& \sum_x p(x)S(Y|X=x) \\ =& \sum_x p(X=x) \sum_y p(Y=y|X=x) logp(Y=y|X=x) \end{aligned}$
意思是，当我们确定条件 $x$ 下，计算熵 $S (Y ∣ X = x)$ 的均值。

或者说，暴力的看就是：
$S(Y|X)=-\sum_x \sum_y p(x,y)log p(y|x)$

互信息

互信息（Mutual information ）可以看作是两个随机事件的信息交集。可以从多个角度、公式看待这个变量。
$\mathbb{H}(X)+ \mathbb{H}(Y) - \mathbb{H}(XY) \ge 0$
$\mathcal{D}_{KL}(P{(X,Y)} || P(X) P(Y)) = \mathbb{E}_{P_{(x,y)}} [\log \frac{P(x,y)}{P(x)P(y)}]$
$\mathbb{H}(Y) - \mathbb{H}(Y|X)=\mathbb{H}(X) - \mathbb{H}(X|Y)$ ，其中 $\mathbb{H}(Y|X) = \int_{x, y} p(x, y) \log \frac{p(x,y)}{p(x)} dxdy$

如果类似熵的角度看， $\over p(y)}$ 是点互信息，即具体的考虑了 $X = x ， Y = y$ 时，两个变量的相关性。而 $I (X, Y)$ 考虑的是所有的 $X$ 和 $Y$ 取值下，点互信息的期望，即：
$I(X,Y)=\int_{x, y} p(x, y) \log \frac{p(x,y)}{p(x)} dxdy$

总结

我们可以用一张图，看明白这些关于熵的概念。
在这里插入图片描述
如果我们把熵看作是，某事件发生所能带来的信息量（不确定度），那么：

条件熵就是确定了另一事件 $Y$ ，将降低当前事件 $X$ 的信息量；
联合熵就是，两件事合起来的信息量；
互信息就是，两件事共同能确定的信息量。

应有光

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【基础知识-熵】——1.熵的建模

其实很多博客对于熵这个概念都说不明白，而且有直接能看出来的错误，这里为了深刻认识，故做此小结。信息熵直观理解熵，我们知到：是不确定的度量。是信息的度量。如果我们完全认识一个事件，那么我们获得了足够大的信息量；反之，则获得的信息量不足。虽然我们已经用概率做了不确定的度量，但是熵和概率比，有什么区别呢？如果我们知到一件事必然发生，虽然它的概率是1，但是熵却是0，没有不确定度。如果一件事必然不发生，虽然概率是0，但是熵也是0，因为没有不确定度。但是如果一个概率为1的事件没发生，或者概率为0的事
复制链接

扫一扫

专栏目录