机器学习算法基础：熵、联合熵、条件熵、信息增益、相对熵（KL散度）、交叉熵

最新推荐文章于 2022-03-20 21:09:35 发布

置顶 wujiekd

最新推荐文章于 2022-03-20 21:09:35 发布

阅读量443

点赞数 1

分类专栏：机器学习算法基础

本文链接：https://blog.csdn.net/weixin_43999137/article/details/108125049

版权

机器学习算法基础专栏收录该内容

5 篇文章 0 订阅

订阅专栏

熵(Entropy)

在信息论与概率统计中，熵是表示随机变量不确定性的度量。设 $X$ 是一个取有限个值的离散随机变量，其概率分布为
$P(X=x_i) =p_i,i=1,2,...,n$
则随机变量 $X$ 的熵定义为
$\begin{aligned} H(X) &=-\sum_{x}p(x) \log p(x)\\&= -\sum_{i=1}^np(x_i)\log p(x_i) \end{aligned}$

在上式中，可记为 $p(x_i) = p_i$ ，若 $p(x_i)=0$ ，则定义 $0 l o g 0 = 0$ 。通常，上式中的对数以2或以e为底（自然对数），这时熵的单位分别称作比特（bit）或纳特（nat）。

由定义可知，熵只依赖于 $X$ 的分布，而与 $X$ 的值无关，所有也可将 $X$ 的熵记做 $H (p)$ ，即
$-\sum_{i=1}^np_i\log p_i$

熵越大，随机变量的不确定性就越大。从定义可验证
$\leq H(p) \leq \log n$
$l o g n$ 是指所有情况出现的概率相等，每个事件出现的概率为 $\frac{1}{n}$ ，这时随机变量不确定性最大，熵也就越大。

联合熵(Joint entropy)

设有随机变量 $(X, Y)$ ，其联合概率分布为
$P(X=x_i,Y=y_j)=p(x_i,y_j),i=1,2,...,n;j=1,2,...,m$
将一维随机变量分布推广到二维随机变量分布，则其联合熵为：
$\begin{aligned} H(X,Y)&=-\sum_{x,y}p(x,y) \log p(x,y) \\ &= -\sum_{i=1}^n\sum_{j=1}^mp(x_i,y_j)\log p(x_i,y_j) \end{aligned}$

条件熵(Conditional entropy)

设有随机变量 $(X, Y)$ ，其联合概率分布为
$P(X=x_i,Y=y_j)=p(x_i,y_j),i=1,2,...,n;j=1,2,...,m$
条件熵 $H (Y ∣ X)$ 表示在已知随机变量 $X$ 的条件下随机变量 $Y$ 的不确定性。随机变量 $X$ 给定条件下随机变量Y的条件熵 $H (Y ∣ X)$ ，定义为 $X$ 给定条件下 $Y$ 的条件概率分布的熵对 $X$ 的数学期望
$\begin{aligned} H(Y|X) &=\sum_{x}p(x) H(Y|X=x) \\&= \sum_{i=1}^np(x_i)H(Y|X=x_i) \end{aligned}$
这里， $p(x_i)=P(X=x_i),i=1,2,...,n$ 。
第一行式子的进一步推导:
$\begin{aligned} H(Y|X) &= \sum_{x}p(x) H(Y|X=x)\\ &=-\sum_{x}p(x)\sum_{y}p(y|x)\log p(y|x)\\ &=-\sum_{x}\sum_{y} p(x,y)\log p(y|x)\\ &=-\sum_{x,y} p(x,y)\log p(y|x) \end{aligned}$

第二行式子的进一步推导:
$\begin{aligned} H(Y|X) &= \sum_{i=1}^np(x_i)H(Y|X=x_i)\\ &=-\sum_{i=1}^np(x_i)\sum_{j=1}^mp(y_j|x_i)\log p(y_j|x_i)\\ &=-\sum_{i=1}^n\sum_{j=1}^m p(x_i,y_j)\log p(Y=y_j|X =x_i)\\ \end{aligned}$

熵、联合熵、条件熵小总结

均使用其第一行的定义进行表达，这样够简洁！
熵：
$-\sum_{x}p(x) \log p(x)$
条件熵：
$=-\sum_{x,y} p(x,y)\log p(y|x)$
联合熵：
$\begin{aligned} H(X,Y)&=-\sum_{x,y}p(x,y) \log p(x,y)\\ &=-\sum_{x,y}p(x,y) \log p(x)p(y|x)\\ &=-\sum_{x,y}p(x,y) \log p(x) -\sum_{x,y}p(x,y) \log p(y|x)\\ &=H(X) + H(Y|X) \end{aligned}$

联合熵 = 熵+条件熵

信息增益(Information gain)

特征A对训练数据集D的信息增益 $g (D, A)$ ，定义为集合D的经验熵 $H (D)$ 与特征 $A$ 给定条件下 $D$ 的经验条件熵 $H (D ∣ A)$ 之差，即
$g (D, A) = H (D) - H (D ∣ A)$
在这里给出我的个人理解：
$H (D)$ ：指的是什么都不知道情况下，D的不确定性；
$H (D ∣ A)$ ：在已知A的情况下，D的不确定性；
$g (D, A)$ ：两者相减，差值越大，说明A条件下起到的效果越好，使得D越确定了。

熵、联合熵、条件熵、信息增益小总结

上面介绍的这四个都可以用来衡量在不同条件下的某个事件的不确定性。
接下来介绍的这两个是用来衡量两个（事件or分布）之间存在的差异。

相对熵 (Relative entropy)

相对熵也称KL散度 (Kullback–Leibler divergence)，如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。

$D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$

交叉熵(Cross Entropy)

如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用交叉熵(Cross Entropy)来衡量这两个分布的差异。

$-\sum_{i=1}^n p(x_i) \log q(x_i)$

熵、相对熵、交叉熵小总结

熵：
$-\sum_{i=1}^np(x_i)\log p(x_i)$
相对熵：
$D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$
交叉熵：
$\begin{aligned} H(p,q) &= -\sum_{i=1}^n p(x_i) \log q(x_i)\\ &=-\sum_{i=1}^n p(x_i) \log p(x_i)(\frac{q(x_i)}{p(x_i)})\\ &=-\sum_{i=1}^n p(x_i) \log p(x_i) -\sum_{i=1}^n p(x_i) \log(\frac{q(x_i)}{p(x_i)})\\ &=-\sum_{i=1}^n p(x_i) \log p(x_i) +\sum_{i=1}^n p(x_i) \log(\frac{p(x_i)}{q(x_i)})\\ &=H(X)+D_{KL}(p||q) \end{aligned}$