深度学习剖根问底：交叉熵和KL散度的区别

最新推荐文章于 2025-06-30 11:26:33 发布

转载最新推荐文章于 2025-06-30 11:26:33 发布 · 2.4k 阅读

·

1

·

文章标签：

深度学习剖根问底专栏收录该内容

24 篇文章

订阅专栏

本文探讨了交叉熵与相对熵在机器学习中的应用。交叉熵作为一种损失函数，用于衡量真实分布与预测分布间的差异；相对熵（KL散度）则量化了两个概率分布之间的差距。文中详细解释了两者的数学定义及它们之间的联系，并指出优化交叉熵等效于最大化似然估计。

交叉熵可在神经网络(机器学习)中作为损失函数，p表示真实标记的分布，q则为训练后的模型的预测标记分布，交叉熵损失函数可以衡量真实分布p与当前训练得到的概率分布q有多么大的差异。

相对熵（relative entropy）就是KL散度（Kullback–Leibler divergence），用于衡量两个概率分布之间的差异。

对于两个概率分布 p(x) 和 q(x) ，其相对熵的计算公式为：

$\tt KL\it(p\parallel q)=-\int p(x)\ln q(x) dx -(-\int p(x)\ln p(x) dx)$

注意：由于 p(x) 和 q(x) 在公式中的地位不是相等的，所以 $\tt KL \it(p\parallel q)\not\equiv \tt KL \it (q\parallel p)$ 。

相对熵的特点，是只有 p(x)=q(x) 时，其值为0。若 p(x) 和 q(x) 略有差异，其值就会大于0。

相对熵公式的前半部分 $-\int p(x)\ln q(x)dx$ 就是交叉熵（cross entropy）。

若 p(x) 是数据的真实概率分布， q(x) 是由数据计算得到的概率分布。机器学习的目的就是希望 q(x) 尽可能地逼近甚至等于 p(x) ，从而使得相对熵接近最小值0。由于真实的概率分布是固定的，相对熵公式的后半部分 $(-\int p(x)\ln p(x) dx)$ 就成了一个常数。相对熵的值大于等于0(https://zhuanlan.zhihu.com/p/28249050,这里给了证明),那么相对熵达到最小值的时候，也意味着交叉熵达到了最小值。对 q(x) 的优化就等效于求交叉熵的最小值。另外，对交叉熵求最小值，也等效于求最大似然估计（maximum likelihood estimation）。

注意：交叉熵是衡量分布p与分布q的相似性，以前认为交叉熵的相似性越大，交叉熵的值就应该越大。但通过上面的推到可以看出，交叉熵得到两个分布的相似性是根据相对熵来的，所以相似性越大，交叉熵的值应该越小。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。