从KL散度到MLE

MIT的课程 18.650 statistics for applications
在Lecture 4 讲MLE的时候,和一般书本上来就给出MLE公式的方法不同,这里使用Max variant distance -> KLdivergence ->MLE的方式,初看到这个过程,内心感觉还是比较有意思的,简单记录如下

假设我们要估算某个分布P的参数θ,记为θ^,我们希望分布PθPθ^越接近越好。怎么衡量呢,使用total variant distance,

TV(Pθ,Pθ^)=maxA|Pθ(A)Pθ^(A)|
, 其中A表示某个事件。然后我们的策略是构造一个Esitmator TV^(Pθ,Pθ), 求使得它最小的θ, 即
minθ[TV^(Pθ,Pθ)]

那么问题在哪里呢,我们不知道怎么构造这个表达式,θ我们不知道,而且A的取值空间那么大,也不知道该怎么算。于是我们用KL divergence, 虽然KL不是一个距离,而且KL(P,Q)KL(Q,P),但是当KL(P,Q)=0时,P=Q。于是我们的Estimator变成了求KL的最小值对应的θ,

minθ[KL(Pθ,Pθ)]

代入KL的公式,

KL(Pθ,Pθ)=Eθ[logPθ(x)Pθ(x)]=Eθ[logPθ(x)]Eθ[logPθ(x)]

第一项是个常量, 第二项的是个期望值,我们可以从数据估算!

KL(Pθ,Pθ)Constant1ni=1NlogPθ(xi)

这样我们求第2项的最大值不就行了。
argminθKL^(Pθ,Pθ)=argmaxθi=1NlogPθ(xi)=argmaxθi=1NPθ(xi)

这不就是MLE了吗!

由于KL散度展开后第一项是信息熵,不变,第2项是交叉熵(cross entropy),所以其实我们是最小化两个分布的交叉熵。

注: 最后一步: argmax(loga+logb)=argmaxlogab=argmaxab

阅读更多

没有更多推荐了,返回首页