熵、交叉熵、KL散度、JS散度、推广的JS散度公式、互信息

最新推荐文章于 2022-11-22 18:08:38 发布

pyxiea

最新推荐文章于 2022-11-22 18:08:38 发布

阅读量1k

点赞数 4

分类专栏： Math 文章标签：熵交叉熵 KL散度 JS散度

本文链接：https://blog.csdn.net/xpy870663266/article/details/103076059

版权

Math 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

下面用求和符号展开是针对离散分布而言的，对于连续分布，使用积分代替求和。

熵

熵，又称香农熵（Shannon entropy），一个分布 $P$ 的熵记为 $H (P)$ ，计算公式为：

$H(P)=\mathbb E_{ x \sim P(x)} [ -logP(x)]=\sum_{i=1}^n P(x_i)log\frac{1}{P(x_i)}$

交叉熵

两个分布 $P$ 和 $Q$ 的交叉熵（Cross entropy）记为 $H (P, Q)$ ，计算公式为：

$H(P,Q)=\mathbb E_{x \sim P(x)} [-logQ(x)]=\sum_{i=1}^n P(x_i)log\frac{1}{Q(x_i)}$

KL散度

KL散度（Kullback–Leibler divergence）又称相对熵（relative entropy），两个分布 $P$ 和 $Q$ 的KL散度记为 $D_{KL}(P||Q)$ ，计算公式为：

$D_{KL}(P||Q)=\mathbb E_{x \sim P(x)} [ log\frac {P(x)}{Q(x)}]=\sum_{i=1}^n P(x_i)log\frac{P(x_i)}{Q(x_i)}$

由熵、交叉熵和KL散度的公式我们可得到三者的关系：
$\begin{aligned} D_{KL}(P||Q) &=\sum_{i=1}^n P(x_i)log\frac{P(x_i)}{Q(x_i)} \\ &=\sum_{i=1}^n P(x_i)log\frac{1}{Q(x_i)}-\sum_{i=1}^n P(x_i)log\frac{1}{P(x_i)} \\ &=H(P,Q)-H(P) \end{aligned}$

因此在机器学习的优化问题中，假设我们的目标分布是 $P$ 。如果 $P$ 在我们的优化过程中是固定的，即 $H (P)$ 不变，那么使用 $D_{KL}(P||Q)$ 和使用 $H (P, Q)$ 是等价的，所以我们可以用计算更加方便的交叉熵而不是KL散度来作为Loss函数。

JS散度

两个分布 $P$ 和 $Q$ 的JS散度（Jensen–Shannon divergence）记为 $J S D (P ∣ ∣ Q)$ ，其计算公式为：

$JSD(P||Q)=\frac 12 D_{KL}(P||\frac {P+Q}{2})+\frac 12 D_{KL}(Q||\frac {P+Q}{2})$

对于 $n$ 个分布 $P_1, P_2, P_3 ..., P_n$ ，其JS散度记为 $JSD_{\pi _1, \pi_2, \pi_3 ..., \pi_n}(P_1, P_2, P_3 ..., P_n)$ ，其中 $\pi _1, \pi_2, \pi_3 ..., \pi_n$ 分别是给分布 $P_1, P_2, P_3 ..., P_n$ 赋予的权重。计算公式为：

$JSD_{\pi _1, \pi_2, \pi_3 ..., \pi_n}(P_1, P_2, P_3 ..., P_n)=H(\sum_{i=1}^n\pi_iP_i)-\sum_{i=1}^n\pi_iH(P_i)$

实际上，两个分布的JS散度对应了当 $n = 2$ ，且取 $\pi_1=\pi_2=\frac12$ 的情形，即：

$JSD(P||Q)=H(\frac{P+Q}{2})-\frac{H(P)+H(Q)}{2}$

上述式子不难验证，将KL散度的计算公式带入JS散度的计算公式，并将每个KL散度展开成交叉熵减去熵的形式，然后再合并就行，如下：
$\begin{aligned} JSD(P||Q) &=\frac 12 D_{KL}(P||\frac {P+Q}{2})+\frac 12 D_{KL}(Q||\frac {P+Q}{2}) \\ &=\frac12[\sum_{i=1}^n P(x_i)log\frac{1}{\frac {P(x_i)+Q(x_i)}{2}}-\sum_{i=1}^n P(x_i)log\frac{1}{P(x_i)}]+\frac12[\sum_{i=1}^n Q(x_i)log\frac{1}{\frac {P(x_i)+Q(x_i)}{2}}-\sum_{i=1}^n Q(x_i)log\frac{1}{Q(x_i)}] \\ &=\frac12[\sum_{i=1}^n P(x_i)log\frac{1}{\frac {P(x_i)+Q(x_i)}{2}}+\sum_{i=1}^n Q(x_i)log\frac{1}{\frac {P(x_i)+Q(x_i)}{2}}]-\frac12[\sum_{i=1}^n P(x_i)log\frac{1}{P(x_i)}+\sum_{i=1}^n Q(x_i)log\frac{1}{Q(x_i)}] \\ &=\sum_{i=1}^n\frac {P(x_i)+Q(x_i)}{2}log\frac{1}{\frac {P(x_i)+Q(x_i)}{2}}-\sum_{i=1}^n \frac{P(x_i)log\frac{1}{P(x_i)}+ Q(x_i)log\frac{1}{Q(x_i)}}{2} \\ &=H(\frac{P+Q}{2})-\frac{H(P)+H(Q)}{2} \\ \end{aligned}$