最大似然估计、交叉熵、KL散度的联系与区别

最新推荐文章于 2024-01-03 16:51:44 发布

进击的程序

最新推荐文章于 2024-01-03 16:51:44 发布

阅读量1k

点赞数 1

分类专栏：人脸检测深度学习文章标签：深度学习交叉熵最大似然估计 KL散度损失函数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46273288/article/details/119219345

版权

深度学习同时被 2 个专栏收录

2 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

深度学习中交叉熵和KL散度和最大似然估计之间的关系

机器学习的面试题中经常会被问到交叉熵(cross entropy)和最大似然估计(MLE)或者KL散度有什么关系，查了一些资料发现优化这3个东西其实是等价的。

熵和交叉熵

提到交叉熵就需要了解下信息论中熵的定义。信息论认为：

确定的事件没有信息，随机事件包含最多的信息。

事件信息的定义为： $I (x) = - l o g (P (x))$ ；而熵就是描述信息量： $H(x)=E_{x∼P}[I(x)]$ ，也就是 $H(x)=E_{x∼P}[−log(P(x))]=−Σ_xP(x)log(P(x))$ 。如果log的base是2，熵可以认为是衡量编码对应的信息需要的最少bits数；那么交叉熵就是来衡量用特定的编码方案Q来对分布为P的信息x进行编码时需要的最少的bits数。定义如下：
$H(P,Q)=−Σ_xP(x)log(Q(x))$
在深度学习中，P是label的真实分布；Q就是网络学习后输出的分布。

最大似然估计

机器学习中，通过最大似然估计方法使参数为 $\hatΘ$ 的模型使预测值贴近真实数据的概率最大化，即 $\hatΘ=argmax_θ\prod_{i=1}^Np(x_i|Θ)$ 。实际操作中，连乘很容易出现最大值或最小值溢出，造成计算不稳定，由于log函数的单调性，所以将上式进行取对数取负，最小化负对数似然(NLL)的结果与原始式子是一样的，即 $\hatΘ=argmin_θ-\sum_{i=1}^Np(x_i|Θ)$

对模型的预测值进行最大似然估计，
$\hatΘ=argmin_θ-\sum_{i=1}^Np(x_i|Θ)\\ =argmin_Θ−Σ_{x∈X}p(x)log(q(x|Θ))\\ =arg min_ΘH(p,q)$

所以最小化NLL和最小化交叉熵最后达到的效果是一样的。

KL散度

在深度学习中，KL散度用来评估模型输出的预测值分布与真值分布之间的差异，定义如下：
在这里插入图片描述

也就是交叉熵就是真值分布的熵与KL散度的和，而真值的熵是确定的，与模型的参数Θ无关，所以梯度下降求导时 $H(P,Q)=∇D_{KL}(P||Q)$ ，也就是说最小化交叉熵与最小化KL散度是一样的。

总结

从优化模型参数角度来说，最小化交叉熵，NLL，KL散度这3种方式对模型参数的更新来说是一样的。从这点来看也解释了为什么在深度学习中交叉熵是非常常用的损失函数的原因了。

参考

https://www.cnblogs.com/arkenstone/p/10524720.html

进击的程序

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

进击的程序 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。