Kullback-Leibler Divergence

最新推荐文章于 2025-04-25 01:23:43 发布

O天涯海阁O

最新推荐文章于 2025-04-25 01:23:43 发布

阅读量702

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/zhangjunhit/article/details/112357819

版权

机器学习专栏收录该内容

11 篇文章

订阅专栏

http://alpopkes.com/files/kl_divergence.pdf

Kullback-Leibler 散度

定义： Kullback-Leibler 散度用于度量两个分布的相似性（或差异）。
对于两个离散概率分布 P 和 Q ，在一个点集合 X 上 Kullback-Leibler 散度定义如下：
$D_{KL}(P||Q)=\sum_{x\in X}^{}P(x)log(\frac{P(x)}{Q(x)} )$

对于连续变量上概率分布，求和变成积分：
$D_{KL}(P||Q)=\int_{\mathrm{-\infty } }^{\infty } p(x)log\frac{p(x)}{q(x)}$
其中 p 和 q 是概率分布 P 和 Q 的概率分布函数

Visual Example

在 Wikipedia entry 关于 KL divergence 有一张很 nice 的示意图

在这里插入图片描述
上图的左边我们看到两个高斯概率分布 p(x) 和 q(x)。上图右边阴影面积就是对应于 p 和 q 的 KL divergence 计算积分值。我们知道

$D_{KL}(P||Q)=\int_{\mathrm{-\infty } }^{\infty } p(x)log\frac{p(x)}{q(x)} =\int_{\mathrm{-\infty } }^{\infty }\mathrm{ p(x)\mathit{} } (\mathrm{log} p(x) -\mathrm{ log} q(x))$

所以对于 x 轴上每个点 ${x_{i}}$ , 我们计算 ${\mathrm{log} \,p(x_{i})-\mathrm{log} \,q(x_{i})}$ 然后再乘上 ${p(x_{i})}$ , 接着我们将最终结果作为 y 轴进行绘制，我们得到上图右边的 y 轴。 KL divergence 对应上面右图的阴影面积

KL divergence in machine learning

在大多数的机器学习问题中，我们有一个数据集 X，它由一个未知的概率分布 P 生成的。这个 P 分布就是目标分布（真值分布），我们用一个 Q 分布来近似 P。然后我们可以用 KL divergence 来评估近似分布 Q 的好坏。在许多情况下，例如 variational inference ， KL divergence 可作为最优化准则用于寻找最佳近似分布 Q。

Interpreting the KL divergence
Note : 这里我们采用一个概率角度来解释 KL divergence，这对机器学习来说是有用的。

Expected value 期望值
KL divergence 定义公式中用到了期望值，这里我们先回顾一下期望值定义。
对于离散变量 $x$ ， $f (x)$ 的期望值定义为
$E[f(x)]=\sum_{x}^{} f(x)p(x)$
其中 $p (x)$ 是变量 $x$ 的概率密度函数。
同样对于连续变量我们有
$E[f(x)]=\int_{-\infty }^{\infty} f(x)p(x)$