从KL散度到MLE

原创 2018年04月16日 11:53:52

MIT的课程 18.650 statistics for applications
在Lecture 4 讲MLE的时候,和一般书本上来就给出MLE公式的方法不同,这里使用Max variant distance -> KLdivergence ->MLE的方式,初看到这个过程,内心感觉还是比较有意思的,简单记录如下

假设我们要估算某个分布P的参数θ,记为θ^,我们希望分布PθPθ^越接近越好。怎么衡量呢,使用total variant distance,

TV(Pθ,Pθ^)=maxA|Pθ(A)Pθ^(A)|
, 其中A表示某个事件。然后我们的策略是构造一个Esitmator TV^(Pθ,Pθ), 求使得它最小的θ, 即
minθ[TV^(Pθ,Pθ)]

那么问题在哪里呢,我们不知道怎么构造这个表达式,θ我们不知道,而且A的取值空间那么大,也不知道该怎么算。于是我们用KL divergence, 虽然KL不是一个距离,而且KL(P,Q)KL(Q,P),但是当KL(P,Q)=0时,P=Q。于是我们的Estimator变成了求KL的最小值对应的θ,

minθ[KL(Pθ,Pθ)]

代入KL的公式,

KL(Pθ,Pθ)=Eθ[logPθ(x)Pθ(x)]=Eθ[logPθ(x)]Eθ[logPθ(x)]

第一项是个常量, 第二项的是个期望值,我们可以从数据估算!

KL(Pθ,Pθ)Constant1ni=1NlogPθ(xi)

这样我们求第2项的最大值不就行了。
argminθKL^(Pθ,Pθ)=argmaxθi=1NlogPθ(xi)=argmaxθi=1NPθ(xi)

这不就是MLE了吗!

由于KL散度展开后第一项是信息熵,不变,第2项是交叉熵(cross entropy),所以其实我们是最小化两个分布的交叉熵。

注: 最后一步: argmax(loga+logb)=argmaxlogab=argmaxab

人工智能工程师直通车第一期

-
  • 1970年01月01日 08:00

KL散度与极大似然

极大似然估计是一种概率论在统计学中的应用,建立在极大似然原理的基础上,极大似然原理的直观解释是:一个随机试验如有若干个可能的结果A、B、C、…,若在一次试验中,结果A出现,则一般认为试验条件对A出现有...
  • ccbka
  • ccbka
  • 2017-11-23 23:34:35
  • 190

熵、交叉熵、相对熵(KL 散度)意义及其关系

通过交叉熵的定义,连接熵,交叉熵,相对熵;
  • lanchunhui
  • lanchunhui
  • 2016-11-27 17:05:19
  • 3408

机器学习基础(五十八)—— 香农熵、相对熵(KL散度)与交叉熵

香农熵(Shannon entropy)信息熵(又叫香农熵)反映了一个系统的无序化(有序化)程度,一个系统越有序,信息熵就越低,反之就越高。如果一个随机变量 XX 的可能取值为 X={x1,x2,…,...
  • lanchunhui
  • lanchunhui
  • 2016-04-28 21:01:02
  • 8826

从香农熵到手推KL散度:一文带你纵览机器学习中的信息论

信息论与信息熵是 AI 或机器学习中非常重要的概念,我们经常需要使用它的关键思想来描述概率分布或者量化概率分布之间的相似性。在本文中,我们从最基本的自信息和信息熵到交叉熵讨论了信息论的基础,再由最大似...
  • FnqTyr45
  • FnqTyr45
  • 2018-01-14 00:00:00
  • 724

KL散度的理解

这篇文章是博客Count Bayesie上的文章Kullback-Leibler Divergence Explained 的学习笔记
  • ericcchen
  • ericcchen
  • 2017-05-17 10:32:05
  • 6345

相对熵(KL散度)

今天开始来讲相对熵,我们知道信息熵反应了一个系统的有序化程度,一个系统越是有序,那么它的信息熵就越低,反 之就越高。下面是熵的定义   如果一个随机变量的可能取值为,对应的概率为,则随机变 量的熵定义...
  • ACdreamers
  • ACdreamers
  • 2015-03-26 22:35:30
  • 46931

KL散度及其python实现

KL散度又是一个从信息论、熵的角度考量距离的一个量。但是,这里说他是距离有点不妥,因为距离需要满足4个条件: 1) d(x,x) = 0                    反身性 2) d(x...
  • qtlyx
  • qtlyx
  • 2016-07-05 21:31:57
  • 4732

深度学习(六十六)生成模型、最大化似然、KL散度

成模型中,假设样本数据是来自于未知的数据分布Pr中采样得到,生成模型的学习过程就是要学习一个Pr的近似概率分布Pθ,其中θ是模型的参数。对于Pθ有两种建模方式: (1)直接用参数θ来描述密度函数。也就...
  • hjimce
  • hjimce
  • 2017-06-27 09:45:55
  • 1914

最大似然估计,交叉熵,相对熵(KL散度)

在机器学习中,选择损失函数时,通常会遇到交叉熵的概念,也就是交叉熵损失函数,那么我们知道最小化交叉熵损失函数等价于最大化对数似然,那么最小化交叉熵损失函数其含义是怎么样本的?我们知道针对分类问题,我们...
  • zhlei12345
  • zhlei12345
  • 2018-01-04 11:42:57
  • 497
收藏助手
不良信息举报
您举报文章:从KL散度到MLE
举报原因:
原因补充:

(最多只允许输入30个字)