【数理基础】KL散度大于等于0及其取等条件的证明

本文介绍了KL散度,一种衡量概率分布间差异的指标,以及如何利用Jensen不等式证明其非负性。着重讨论了KL散度的定义、不等式形式以及取等条件。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

1 KL散度

2 Jensen不等式

3 KL散度大于等于0及其取等条件


1 KL散度

KL散度(Kullback-Leibler散度),也称为相对熵(Relative Entropy),是用于衡量两个概率分布之间差异的一种指标。KL散度的定义式如下:

KL(p(x)||q(x))

=-\int_xp(x)\ln q(x)dx-(-\int_xp(x)\ln p(x)dx)

=-\int_xp(x)\ln (q(x)/p(x))dx 

其中p(x)q(x)是变量x的两个概率分布。通常情况下,变量x有一个未知的真实分布p(x)。由于p(x)是未知的,因此我们无法直接使用p(x)进行操作,而是要用一个近似的分布q(x)对其建模,KL散度衡量的就是使用概率分布q(x)来近似p(x)而产生的信息损失。

需要注意的是,KL散度并不是对称的,因此不能保证KL(p(x)||q(x))等于KL(q(x)||p(x))

2 Jensen不等式

想要证明KL散度非负,需要用到Jensen不等式,这里做一个简单的介绍。

Jensen不等式形式如下,其中E[·]为求期望

对凸函数f(x),有E[f(x)]\geq f(E[x])

实际上需要用到的形式如下

对凸函数f(z),有E_x[f(g(x))]\geq f(E_x[g(x)])

3 KL散度大于等于0及其取等条件

根据定义式写出KL散度如下

KL(p(x)||q(x))

=-\int_xp(x)\ln (q(x)/p(x))dx 

由于p(x)x的概率分布,因此可以写成在p(x)分布下求期望的形式

=E_{x}[-\ln (q(x)/p(x))] 

根据Jensen不等式,令f(z)=-\ln z为凸函数,z=g(x)=q(x)/p(x)x的函数,则有

\geq -\ln E_{x}[q(x)/p(x)]

=-\ln \int_{x}p(x)(q(x)/p(x))dx

=-\ln \int_{x}q(x)dx

=-\ln 1

=0

由于f(z)=-\ln z为严格凸函数,

因此当且仅当\forall x:p(x)=q(x)时,KL(p(x)||q(x))=KL(q(x)||p(x))=0

证毕

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值