【面经2.KL散度(相对熵)】

KL散度、JS散度和交叉熵

KL散度、JS散度和交叉熵三者都是用来衡量两个概率分布之间的差异性的指标。不同之处在于它们的数学表达。
对于概率分布P(x)和Q(x):

1. KL散度(Kullback–Leibler divergence)

KL散度的定义

KL divergence(KL散度又叫相对熵): 它表示用分布 q(x) 模拟真实分布 p(x) 所需要的额外信息。同时也叫KL距离,就是两个随机分布间距离的度量。
取值范围 [ 0 , + ∞ ] [0, +\infty ] [0,+],当两个分布接近相同的时候KL散度取值为0,当两个分布差异越来越大的时候KL散度值就会越来越大。
在这里插入图片描述
当 p(x) 和 q(x) 的相似度越高,KL散度越小。

注意: 直观来说,由于 p ( x ) 是已知的分布(真实分布),H ( p ) 是个常数,交叉熵和KL散度之间相差一个这样的常数(信息熵)。

KL散度的性质

相对熵(KL散度)主要有两个性质:

  • 非负性。相对熵的值是非负值,即: D K L ( p ∣ ∣ q ) ≥ 0 {D}_{K L}({p} ||{q})\geq 0 DKL(pq)0
  • 不对称性。尽管KL散度从直观上是个度量或距离函数,但它并不是一个真正的度量或者距离,因为它不具有对称性,即: D K L ( p ∣ ∣ q ) ≠ D K L ( q ∣ ∣ p ) {D}_{K L}({p} || {q})\neq{D}_{K L}({q} || {p}) DKL(pq)=DKL(qp)

在这里插入图片描述

JS散度(Jensen-Shannon divergence)

JS散度也称JS距离,是KL散度的一种变形。
在这里插入图片描述
但是不同于KL主要又两方面:

(1)值域范围

JS散度的值域范围是[0,1],相同则是0,相反为1。相较于KL,对相似度的判别更确切了。

(2)对称性

即 JS(P||Q)=JS(Q||P),从数学表达式中就可以看出。

交叉熵(Cross Entropy)

在神经网络中,交叉熵可以作为损失函数,因为它可以衡量P和Q的相似性。
在这里插入图片描述
交叉熵和相对熵的关系:
在这里插入图片描述
以上都是基于离散分布的概率,如果是连续的数据,则需要对数据进行Probability Density Estimate来确定数据的概率分布,就不是求和而是通过求积分的形式进行计算了。
在这里插入图片描述

版权声明:本文为CSDN博主「布衣小张」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/abc13526222160/article/details/103168803

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: KL散度相对熵)是非负的,因为它衡量了两个概率分布之间的差异,而相对熵值永远不会小于0。公式为:KL(P||Q) = ∑P(X)log(P(X)/Q(X)),因此,KL散度是非负的,因为P(X)/Q(X)大于等于1,而log(P(X)/Q(X))永远不会小于0。 ### 回答2: KL散度(Kullback-Leibler divergence),也叫作相对熵(relative entropy),是一种用于衡量两个概率分布之间差异的度量方法。KL散度的非负性可以通过以下证明来说明: 假设我们有两个离散概率分布P和Q,其概率质量函数分别为p(x)和q(x),其中x表示随机变量的取值。KL散度定义为: KL(P || Q) = Σp(x)log(p(x)/q(x)) 为了证明KL散度的非负性,我们先证明一个引理:当且仅当p(x) = q(x)时,p(x)log(p(x)/q(x)) = 0。 当p(x) = q(x)时,p(x)/q(x) = 1,log(p(x)/q(x)) = 0,所以p(x)log(p(x)/q(x)) = 0。 反之,当p(x) ≠ q(x)时,由于p(x)和q(x)是概率分布,其取值范围在[0,1]之间。根据log函数的性质,log(p(x)/q(x))的取值范围是负无穷到正无穷之间。而p(x)是非零的,所以p(x)log(p(x)/q(x))的值是非零的。 根据上述引理,当p(x) = q(x)时,KL(P || Q) = 0,当p(x) ≠ q(x)时,KL(P || Q) > 0。 对于连续概率分布,KL散度的定义稍有不同,但证明方法是类似的。 综上所述,KL散度相对熵)是非负的。其非负性保证了KL散度可以用作度量两个概率分布之间的差异。如果KL散度为0,则意味着两个概率分布是相同的;如果KL散度大于0,则表示两个概率分布之间存在差异。 ### 回答3: KL散度相对熵)是衡量两个概率分布P和Q之间差异的一种度量方式。KL散度定义如下: KL(P || Q) = Σ P(x) log(P(x) / Q(x)) 其中,P(x)和Q(x)分别是概率分布P和Q在取值为x时的概率。 为了证明KL散度是非负的,我们需要利用凸函数性质以及Jensen不等式。 通过观察,我们可以发现当且仅当P(x) = Q(x)时,KL散度为0。这是因为当P(x) = Q(x)时,log(P(x) / Q(x)) = 0,所以KL散度的每一项和为0,整体也为0。 假设我们有两个概率分布P和Q,其中P(x) ≠ Q(x)。我们可以使用Jensen不等式来证明KL散度是非负的。 根据Jensen不等式,对于凸函数f(x)来说,有: f(Σ t_i * x_i) ≤ Σ t_i * f(x_i) 其中,t_i 是非负权重,且Σ t_i = 1。 我们将上式应用于凸函数f(x) = log(x): log(Σ t_i * x_i) ≤ Σ t_i * log(x_i) 接下来,我们用P(X)作为t_i和Q(X)/P(X)作为x_i,带入上述不等式: log(Σ P(x) * Q(x) / P(x)) ≤ Σ P(x) * log(Q(x) / P(x)) 可以简化为: log(Σ Q(x)) ≤ Σ P(x) * log(Q(x) / P(x)) 这等价于: log(1) ≤ Σ P(x) * log(Q(x) / P(x)) 即: 0 ≤ Σ P(x) * log(Q(x) / P(x)) 由于KL散度是P(x) * log(Q(x) / P(x))的加权和,故KL散度是非负的。即证明了KL散度的非负性。 综上所述,KL散度是非负的。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值