信息熵，交叉熵，相对熵

最新推荐文章于 2021-11-08 21:53:24 发布

~℃~

最新推荐文章于 2021-11-08 21:53:24 发布

阅读量231

点赞数

分类专栏： CNN 深度学习文章标签： CNN

本文链接：https://blog.csdn.net/weixin_45254190/article/details/102532545

版权

7 篇文章 0 订阅

订阅专栏

4 篇文章 0 订阅

订阅专栏

信息熵：熵是用来衡量一个信息的混乱程度的，是对一个不确定程度的描述。公式如下：
图片来自百度在这里插入图片描述
在信息论中，信息熵是用于衡量信息量的一个指标。信息越是有序，信息熵就越低；如果信息越是混乱，信息熵就越高。

相对熵（也叫KL散度）：是用来描述两个概率分布P和Q差异的一种方式。
相对熵越小，证明两个分布之间的的差异就越小。
图片来自百度

交叉熵（也叫JS散度）：主要度量两个概率分布间的差异性信息。此处的log是以2为底的。
使用交叉熵做损失的时候，因为交叉熵损失是自带one_hot和softmax激活的，如果说在使用softmax进行激活的话，损失有可能为负，去掉就好（个人经历）。

图片来自百度

相对熵是用来描述两个概率分布之间的差异的大小，而交叉熵是衡量两个两个概率分布间的差异的信息
注：使用交叉熵做损失的时候，标签必须是long（）类型的。而且标签必须是从0-n的一个顺序，否则会报CUDA错误。
相对熵=交叉熵-熵

关注