【面经2.KL散度（相对熵）】

菜菜雪丫头

已于 2022-03-24 17:17:36 修改

阅读量1.8k

点赞数 1

分类专栏：面经文章标签：其他

于 2022-03-18 21:16:18 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45134475/article/details/123583524

版权

面经专栏收录该内容

12 篇文章 2 订阅

订阅专栏

KL散度、JS散度和交叉熵

KL散度、JS散度和交叉熵三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。
对于概率分布P(x)和Q(x)：

1. KL散度（Kullback–Leibler divergence）

KL散度的定义

KL divergence(KL散度又叫相对熵)：它表示用分布 q(x) 模拟真实分布 p(x) 所需要的额外信息。同时也叫KL距离，就是两个随机分布间距离的度量。
取值范围： $+\infty ]$ ，当两个分布接近相同的时候KL散度取值为0，当两个分布差异越来越大的时候KL散度值就会越来越大。
在这里插入图片描述
当 p(x) 和 q(x) 的相似度越高，KL散度越小。

注意：直观来说，由于 p ( x ) 是已知的分布(真实分布)，H ( p ) 是个常数，交叉熵和KL散度之间相差一个这样的常数(信息熵)。

KL散度的性质

相对熵(KL散度)主要有两个性质：

非负性。相对熵的值是非负值，即： ${D}_{K L}({p} ||{q})\geq 0$ 。
不对称性。尽管KL散度从直观上是个度量或距离函数，但它并不是一个真正的度量或者距离，因为它不具有对称性，即： ${D}_{K L}({p} || {q})\neq{D}_{K L}({q} || {p})$ 。

在这里插入图片描述

JS散度（Jensen-Shannon divergence）

JS散度也称JS距离，是KL散度的一种变形。
在这里插入图片描述
但是不同于KL主要又两方面：

（1）值域范围

JS散度的值域范围是[0,1]，相同则是0，相反为1。相较于KL，对相似度的判别更确切了。

（2）对称性

即 JS(P||Q)=JS(Q||P)，从数学表达式中就可以看出。

交叉熵（Cross Entropy）

在神经网络中，交叉熵可以作为损失函数，因为它可以衡量P和Q的相似性。
在这里插入图片描述
交叉熵和相对熵的关系：

以上都是基于离散分布的概率，如果是连续的数据，则需要对数据进行Probability Density Estimate来确定数据的概率分布，就不是求和而是通过求积分的形式进行计算了。

版权声明：本文为CSDN博主「布衣小张」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/abc13526222160/article/details/103168803

菜菜雪丫头

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【面经2.KL散度（相对熵）】

KL散度、JS散度和交叉熵KL散度、JS散度和交叉熵三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。对于概率分布P(x)和Q(x)：1. KL散度（Kullback–Leibler divergence）KL散度的定义KL divergence(KL散度又叫相对熵)：它表示用分布 q(x) 模拟真实分布 p(x) 所需要的额外信息。同时也叫KL距离，就是两个随机分布间距离的度量。取值范围： [0,+∞][0, +\infty ][0,+∞]，当两个分布接近相同的时候
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。