MIT的课程 18.650 statistics for applications
在Lecture 4 讲MLE的时候,和一般书本上来就给出MLE公式的方法不同,这里使用Max variant distance -> KLdivergence ->MLE的方式,初看到这个过程,内心感觉还是比较有意思的,简单记录如下
假设我们要估算某个分布P的参数 θ∗ θ ∗ ,记为 θ^ θ ^ ,我们希望分布 P∗θ P θ ∗ 和 Pθ^ P θ ^ 越接近越好。怎么衡量呢,使用total variant distance,
TV(P∗θ,Pθ^)=maxA|Pθ∗(A)−Pθ^(A)| T V ( P θ ∗ , P θ ^ ) = max A | P θ