证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略

最新推荐文章于 2024-03-19 21:50:38 发布

_Yhisken

最新推荐文章于 2024-03-19 21:50:38 发布

阅读量403

点赞数 1

文章标签：算法人工智能机器学习

本文链接：https://blog.csdn.net/zdewbye/article/details/131502345

版权

首先，让我们定义一些符号：

$p_{\text{data}}(x)$ ：真实数据的概率分布
$p_{\text{model}}(x; \theta)$ ：由参数 $\theta$ 确定的模型的概率分布
$\mathcal{D}$ ：从真实数据分布中抽取的数据集
我们的目标是找到一组参数 $\theta$ ，使得 $p_{\text{model}}(x; \theta)$ 尽可能地接近 $p_{\text{data}}(x)$ 。使用负对数似然函数和 KL 散度作为度量，我们可以分别定义这两个目标。

最小化负对数似然函数：
$\theta^* = \underset{\theta}{\operatorname{argmin}}; L(\theta) = \underset{\theta}{\operatorname{argmin}}; - \sum_{x \in \mathcal{D}} \log p_{\text{model}}(x; \theta)$

最小化 KL 散度：
$\theta^* = \underset{\theta}{\operatorname{argmin}}; D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \underset{\theta}{\operatorname{argmin}}; \sum_{x} p_{\text{data}}(x) \log \frac{p_{\text{data}}(x)}{p_{\text{model}}(x; \theta)}$

现在，让我们证明最小化负对数似然函数的学习策略等价于最小化 KL 散度的学习策略。首先我们将 KL 散度的表达式进行分解：

$D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \sum_{x} p_{\text{data}}(x) \log p_{\text{data}}(x) - \sum_{x} p_{\text{data}}(x) \log p_{\text{model}}(x; \theta)$

我们注意到第一项是关于 $\theta$ 的常数项，因为它仅与真实数据分布有关。因此，在最小化 KL 散度时，我们只关心第二项：

$\underset{\theta}{\operatorname{argmin}}; D_{\text{KL}}(p_{\text{data}}|p_{\text{model}}) = \underset{\theta}{\operatorname{argmin}}; - \sum_{x} p_{\text{data}}(x) \log p_{\text{model}}(x; \theta)$