从KL散度到MLE

MIT的课程 18.650 statistics for applications
在Lecture 4 讲MLE的时候,和一般书本上来就给出MLE公式的方法不同,这里使用Max variant distance -> KLdivergence ->MLE的方式,初看到这个过程,内心感觉还是比较有意思的,简单记录如下

假设我们要估算某个分布P的参数θ,记为θ^,我们希望分布PθPθ^越接近越好。怎么衡量呢,使用total variant distance,

TV(Pθ,Pθ^)=maxA|Pθ(A)Pθ^(A)|
, 其中A表示某个事件。然后我们的策略是构造一个Esitmator TV^(Pθ,Pθ), 求使得它最小的θ, 即
minθ[TV^(Pθ,Pθ)]

那么问题在哪里呢,我们不知道怎么构造这个表达式,θ我们不知道,而且A的取值空间那么大,也不知道该怎么算。于是我们用KL divergence, 虽然KL不是一个距离,而且KL(P,Q)KL(Q,P),但是当KL(P,Q)=0时,P=Q。于是我们的Estimator变成了求KL的最小值对应的θ,

minθ[KL(Pθ,Pθ)]

代入KL的公式,

KL(Pθ,Pθ)=Eθ[logPθ(x)Pθ(x)]=Eθ[logPθ(x)]Eθ[logPθ(x)]

第一项是个常量, 第二项的是个期望值,我们可以从数据估算!

KL(Pθ,Pθ)Constant1ni=1NlogPθ(xi)

这样我们求第2项的最大值不就行了。
argminθKL^(Pθ,Pθ)=argmaxθi=1NlogPθ(xi)=argmaxθi=1NPθ(xi)

这不就是MLE了吗!

由于KL散度展开后第一项是信息熵,不变,第2项是交叉熵(cross entropy),所以其实我们是最小化两个分布的交叉熵。

注: 最后一步: argmax(loga+logb)=argmaxlogab=argmaxab

阅读更多
文章标签: KL MLE
上一篇Mask RCNN的实现
下一篇C++成员函数指针揭秘
想对作者说点什么? 我来说一句

KL散度的理解英文文档

2017年05月18日 579KB 下载

KL变换及计算方法

2014年10月12日 128KB 下载

散度、旋度、梯度释义(图解版)

2016年08月28日 14.51MB 下载

KL变换特征提取

2017年10月16日 518KB 下载

散度、旋度、梯度释义 翻译版

2018年03月21日 29.09MB 下载

极坐标系下的散度(场论)

2014年04月09日 281KB 下载

基于KL变换的人脸识别

2010年10月22日 188KB 下载

没有更多推荐了,返回首页

关闭
关闭