目录
1 KL散度
KL散度(Kullback-Leibler散度),也称为相对熵(Relative Entropy),是用于衡量两个概率分布之间差异的一种指标。KL散度的定义式如下:
其中和
是变量
的两个概率分布。通常情况下,变量
有一个未知的真实分布
。由于
是未知的,因此我们无法直接使用
进行操作,而是要用一个近似的分布
对其建模,KL散度衡量的就是使用概率分布
来近似
而产生的信息损失。
需要注意的是,KL散度并不是对称的,因此不能保证等于
。
2 Jensen不等式
想要证明KL散度非负,需要用到Jensen不等式,这里做一个简单的介绍。
Jensen不等式形式如下,其中E[·]为求期望
对凸函数,有
实际上需要用到的形式如下
对凸函数,有
3 KL散度大于等于0及其取等条件
根据定义式写出KL散度如下
由于是
的概率分布,因此可以写成在
分布下求期望的形式
根据Jensen不等式,令为凸函数,
为
的函数,则有
由于为严格凸函数,
因此当且仅当时,
证毕