熵的基础知识

看星星的许愿者

于 2020-08-14 20:02:08 发布

阅读量1.2k

点赞数

分类专栏： Machine learning 文章标签：信息熵人工智能机器学习

本文链接：https://blog.csdn.net/wobeatit/article/details/108012716

版权

Machine learning 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

近来抽空过了些熵相关的基础知识，自己手动整理了下，有很多是借鉴了别的博客的内容，所以先感谢网上大佬们的分享了，具体参考的博客有：
机器学习各种熵：从入门到全面掌握
 Cross-entropy and Maximum Likelihood Estimation
在机器学习中 熵是表征随机变量分布的混乱程度，分布越混乱，则熵越大。
Self-information (自信息)
自信息表示某一事件发生时所带来的信息量的多少，事件发生的概率越大，则自信息越小。或者可以这样理解：某一事件发生的概率非常小，但是实际上却发生了(观察结果)，则此时的自信息非常大；某一事件发生的概率非常大，并且实际上也发生了，则此时的自信息较小。
度量自信息时，需要寻找一个函数，它满足的条件是：事件发生的概率越大，则自信息越小；自信息不能是负值，最小是0；自信息应该满足可加性，并且两个独立事件的自信息应该等于两个事件单独的自信息。自信息公式定义： $I(p_i) = -\log(p_i)$
Entropy (信息熵)
自信息描述的是随机变量的某个事件发生所带来的信息量，而信息熵通常用来描述整个随机分布所带来的信息量平均值，更具统计特性。信息熵也叫香农熵： $\begin{aligned} \mathcal{H}(X) &=\mathbb{E}_{x \sim p}[I(x)]=-\mathbb{E}_{x \sim p}[\log p(x)] \\&=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)=-\int_{x} p(x) \log p(x) dx \end{aligned}$ 随机变量取值个数越多，状态数也就越多，累加次数就越多，信息熵就越大，混乱程度就越大，纯度越小。越宽广的分布，熵就越大，在同样的定义域内，由于分布宽广程度：脉冲分布 < 高斯分布 < 均匀分布，故而熵的关系为：脉冲分布的信息熵 < 高斯分布的信息熵 < 均匀分布的信息熵。可以通过数学证明，当随机变量分布为均匀分布时即状态数最多时，熵最大。
- 熵只依赖于随机变量的分布，与随机变量取值无关；
- 定义 $\times \log0 = 0$ (可能出现某个概率取值为0的情况)；
- 熵越大，随机变量的不确定性就越大，分布越混乱，随机变量状态数越多。
Conditional Entropy (条件熵)
条件熵的定义为：在 $X$ 给定条件下， $Y$ 的条件概率分布的熵对 $X$ 的数学期望。 $\begin{aligned} \mathcal{H}(Y | X) &= \mathbb{E}_{x \sim p}[\mathcal{H}(Y | X=x)]=\sum_{i=1}^{n} p(x_i) \mathcal{H}(Y | X=x_i) \\&=-\sum_{i=1}^{n} p(x_i) \sum_{j=1}^{m} p(y_j | x_i) \log p(y_j | x_i) = - \sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(y_j | x_i) \\&=-\left(\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(x_i, y_j)-\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(x_i)\right) \\& =-\left(\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(x_i, y_j)-\sum_{i=1}^{n} \log p(x_i) \sum_{j=1}^{m} p(x_i, y_j)\right) \\ &=-\left(\sum_{i=1}^{n} \sum_{j=1}^{m} p(x_i, y_j) \log p(x_i, y_j)-\sum_{i=1}^{n} p(x_i) \log p(x_i)\right) \\ &= \mathcal{H}(X, Y)-\mathcal{H}(X) \end{aligned}$
Mutual Information (互信息)
引入互信息，它不仅能说明两个随机变量之间是否有关系，也能反应它们之间关系的强弱。 $\begin{aligned} I(X ; Y) &=\int_{X} \int_{Y} P(X, Y) \log \frac{P(X, Y)}{P(X) P(Y)} \\ &=\int_{X} \int_{Y} P(X, Y) \log \frac{P(X, Y)}{P(X)}-\int_{X} \int_{Y} P(X, Y) \log P(Y) \\ &=\int_{X} \int_{Y} P(X) P(Y | X) \log P(Y | X)-\int_{Y} \log P(Y) \int_{X} P(X, Y) \\ &=\int_{X} P(X) \int_{Y} P(Y | X) \log P(Y | X)-\int_{Y} \log P(Y) P(Y) \\ &=-\int_{X} P(X) \mathcal{H}(Y | X=x) + \mathcal{H}(Y) \\ &= \mathcal{H}(Y)- \mathcal{H}(Y | X) \end{aligned}$ $\mathcal{H}(Y)$ 衡量的是 $Y$ 的不确定度， $Y$ 分布得越离散， $\mathcal{H}(Y)$ 的值越高。 $\mathcal{H}(Y | X)$ 则表示在已知 $X$ 的情况下， $Y$ 的不确定度，而 $I (X; Y)$ 则表示得知特征 $X$ 的信息而使得 $Y$ 信息的不确定性减少的程度，因而如果 $X$ 和 $Y$ 关系越大， $I (X; Y)$ 越大。
- 当 $X$ 和 $Y$ 完全相关时， $I (X; Y)$ 取值最大为 $\mathcal{H}(Y)$ 。由于 $X$ 的引入， $Y$ 的熵由原来的 $\mathcal{H}(Y)$ 减小了 $\mathcal{H}(Y)$ ，变成了 0，也就是说如果 $X$ 确定，那么 $Y$ 就完全确定了。
- 而当 $X$ 和 $Y$ 独立时， $I (X; Y) = 0$ ，引入 $X$ ，并未给 $Y$ 带来任何好处。
综合以上分析，可以得到互信息的一些性质：
- $\geq 0$
- $\mathcal{H}(X)-\mathcal{H}(X | Y)=I(X ; Y)=I(Y ; X)=\mathcal{H}(Y)-\mathcal{H}(Y | X)$
- $X$ ， $Y$ 独立时， $I (X; Y) = 0$
- 当 $X$ ， $Y$ 知道一个就能推断另一个时， $I(X;Y)=\mathcal{H}(X)=\mathcal{H}(Y)$
互信息在 Decision Tree (决策树) 领域有着很广泛的应用，决策树中常用的 Information Gain (信息增益) 就等价于训练集中类与特征的互信息： $\mathcal{H}(D) - \mathcal{H}(D|A)$ ，表示由于特征 $A$ 而使得对数据集 $D$ 的分类的不确定性减少的程度。 $g (D, A)$ 越大，则说明特征 $A$ 越重要。
Cross Entropy (交叉熵)
交叉熵广泛用在 Logistic Regression (逻辑回归) 和 Softmax 函数中作为损失函数使用。其主要用于度量两个概率分布间的差异性信息，公式定义为： $\begin{aligned} H(p, q)=\mathbb{E}_{x \sim p}[-\log q(x)]=-\sum_{i=1}^{n} p(x_i) \log q(x_i) \end{aligned}$
其中 $p (x)$ 是真实样本分布， $q (x)$ 是预测得到的样本分布。
- 交叉熵在逻辑回归中应用广泛，逻辑回归的损失函数就是交叉熵，其定义为： $\begin{aligned} J(\theta)=-\frac{1}{n} \sum_{i=1}^{n}\left[y_{i} \log h_{\theta}\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-h_{\theta}\left(x_{i}\right)\right)\right] \end{aligned}$
  - 其中 $y_i$ 为 0 或 1，模型预测为 1 的概率为 $h_\theta(x_i)$ ，预测为 0 的概率为 $h_\theta(x_i)$ ：
    - $y_i = 1$ 时，对应的 $h_\theta(x_i)$ ；
    - $y_i = 0$ 时，对应的 $h_\theta(x_i)$ 。
      它们共同组合则得到到了逻辑回归的损失函数。
- 对于多分类的逻辑回归算法，通常使用 Softmax 作为输出层映射，其对应的损失函数也叫交叉熵，只不过写法有点区别，具体如下： $\begin{aligned} J(\theta)=-\frac{1}{n}\left[\sum_{i=1}^{n} \sum_{j=1}^{k} 1\left\{y_{i}=j\right\} \log \frac{e^{\theta_{j}^{T} x_{i}}}{\sum_{l=1}^{k} e^{\theta_{l}^{T} x_{i}}}\right] \end{aligned}$ ，其中 $n$ 是样本个数， $k$ 是输出层的分类个数。
  对比逻辑回归算法的损失函数： $\begin{aligned} J(\theta) &= -\frac{1}{n} \sum_{i=1}^{n} \left[ y_{i} \log h_{\theta}\left(x_{i}\right)+\left(1-y_{i}\right) \log \left(1-h_{\theta}\left(x_{i}\right)\right) \right] \\&= -\frac{1}{n}\left[\sum_{i=1}^{n} \sum_{j=0}^{1} 1\left\{y_{i}=j\right\} \log p\left(y_{i}=j \mid x_{i};\theta\right)\right] \end{aligned}$ 可以看出，其实两者是一样的，Softmax 只是对逻辑回归在多分类上面的推广。
Relative Entropy (相对熵)
相对熵是一个较高端的存在，其作用和交叉熵差不多。相对熵经常也叫做 Kullback-Leibler Divergence (KL 散度)，在贝叶斯推理中， $D_\text{KL}(p || q)$ 衡量当修改了从先验分布 $q$ 到后验分布 $p$ 的信念之后带来的信息增益。 $\begin{aligned} D_\text{KL}(p \| q) &= \mathbb{E}_{x \sim p(x)}\left[\log \frac{p(x)}{q(x)}\right] = -\mathbb{E}_{x \sim p(x)}\left[\log \frac{q(x)}{p(x)}\right] \\ &= -\sum_{i} p(x_i) \log \frac{q(x_i)}{p(x_i)}=\mathcal{H}(p, q) - \mathcal{H}(p) \end{aligned}$ 相对熵较交叉熵有更多的优异性质，主要为：
- 当 $p$ 分布和 $q$ 分布相等时候，KL 散度值为 0，这是一个非常好的性质；
- KL 散度是非负的；
- 非对称的，通过公式可以看出，KL 散度是衡量两个分布的不相似性，不相似性越大，则值越大，当完全相同时，取值为0。
简单对比交叉熵和相对熵，可以发现仅仅差了一个 $\mathcal{H}(p)$ ，如果从优化角度来看， $p$ 是真实分布，是固定值，最小化 KL 散度情况下， $\mathcal{H}(p)$ 可以省略，此时交叉熵等价于KL散度。在最优化问题中，最小化相对熵等价于最小化交叉熵；
交叉熵大量应用在 Sigmoid 函数和 Softmax 函数中，最经典的应用就是神经网络的训练和逻辑回归。而相对熵大量应用在生成模型中，例如 GAN、EM、贝叶斯学习和变分推导中。
- 在监督学习中，训练神经网络所用到的相对熵的 loss 等价于交叉熵的 loss： $\begin{aligned} D_\text{KL}(p||q) &= \mathbb{E}_{x\sim p(x)} \left[\log {\frac {p(x)} {q(x)}}\right] = \sum_{i}p(x_{i}) \cdot \log {\frac {p(x_{i})} {q(x_{i})}} \\&= \sum_{i}p(x_{i}) \cdot \log p(x_{i}) - \sum_{i}p(x_{i}) \cdot \log q(x_{i}) = - \sum_{i}p(x_{i}) \cdot \log q(x_{i}) \end{aligned}$ 因为 $p(x_i)$ 在分类任务中为 one-hot 形式的 label，label 为 0 或 1，所以有： $\begin{aligned} \sum_{i}p(x_{i}) \cdot \log p(x_{i}) = 0 \end{aligned}$

看星星的许愿者

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
熵的基础知识

近来抽空过了些熵相关的基础知识，自己手动整理了下，有很多是借鉴了别的博客的内容，所以感谢网上大佬们的分享了～机器学习各种熵：从入门到全面掌握互信息的理解在机器学习中熵是表征随机变量分布的混乱程度，分布越混乱，则熵越大。自信息自信息表示某一事件发生时所带来的信息量的多少，事件发生的概率越大，则自信息越小。或者可以这样理解：某一事件发生的概率非常小，但是实际上却发生了(观察结果)，则此时的自信息非常大；某一事件发生的概率非常大，并且实际上也发生了，则此时的自信息较小。度量自信息..
复制链接

扫一扫

专栏目录