极简EM（最大期望）算法

最新推荐文章于 2021-06-11 10:09:22 发布

Kenneth shu

最新推荐文章于 2021-06-11 10:09:22 发布

阅读量263

点赞数

本文链接：https://blog.csdn.net/weixin_45559441/article/details/105755765

版权

EM是常用的估计参数隐变量的利器。他的思路很简单：记住三个变量：
θ：初始值
**Z:**隐变量
X:已知的观测到的变量
下面我们用一个例子介绍一下EM算法：
一个非常简单的例子
假设现在有两枚硬币1和2，,随机抛掷后正面朝上概率分别为P1，P2。为了估计这两个概率，
做实验，每次取一枚硬币，连掷5下，记录下结果，如下：在这里插入图片描述

还是上面的问题，现在抹去每轮投掷时使用的硬币标记，如上所示。
此时我们多了一个隐变量 z，可以把它认为是一个 5维的向量（z1,z2,z3,z4,z5)，代表每次投掷时所使用的硬币，比如z1，就代表第一轮投掷时使用的硬币是1还是2。但是，这个变量z不知道，就无法去估计P1和P2，所以，我们必须先估计出z，然后才能进一步估计P1和P2 在这里插入图片描述
要估计z，但又得知道P1和P2，这样才能用最大似然概率法则去估计z。
先随机初始化一个P1和P2，用它来估计z，然后基于z，还是按照最大似然概率法则去估计新的P1和P2，如果新的P1和P2和我们初始化的P1和P2一样，说明我们初始化的P1和P2是一个相当靠谱的估计。
如果新估计出来的P1和P2与我们初始化的值差别很大，继续用新的P1和P2迭代，直至收敛。
这就是下面的EM初级版。
先随便给P1和P2赋一个值，比如：P1 = 0.2，P2 = 0.7。
然后，看看第一轮抛掷最可能是哪个硬币。
如果是硬币1，得出3正2反的概率为
在这里插入图片描述
如果是硬币2，得出3正2反的概率为
0.70.70.70.30.3=0.03087

依次求出其他4轮中的相应概率：
![在这里插入图片描述](https://img-blog.csdnimg.cn/20200425202551853.png

上表中的右两列表示期望值。
这样我们在估计P1或者P2时，就可以用上全部的数据，而不是部分的数据，
显然这样会更好一些。
这一步，我们实际上是估计出了z的概率分布，这步被称作E步。
在这里插入图片描述
P1 = 4.22/(4.22+7.98) = 0.35。
可以看到P1更加接近0.4。原因就是我们使用了所有抛掷的数据，而不是之前只使用这步中，我们根据E步中求出的z的概率分布，依据最大似然概率法则去估计P1和P2，被称作M步。

收敛性的证明：

我们构造一个函数 𝐻H ，让他等于：
𝐻(𝜃,𝜃𝑖)=∑𝑖=1𝑀∑𝑍𝑗𝑙𝑜𝑔(𝑃(𝑍|𝑦𝑖,𝜃)𝑃(𝑍|𝑦𝑖,𝜃𝑖))
H(θ,θi)=∑i=1M∑Zjlog(P(Z|yi,θ)P(Z|yi,θi))

其中不等式是由于Jensen不等式，由此证明了 ∑𝑀𝑖=1𝑙𝑜𝑔𝑃(𝑦𝑖,𝜃𝑗+1)>∑𝑀𝑖=1𝑙𝑜𝑔𝑃(𝑦𝑖,𝜃𝑗)∑i=1MlogP(yi,θj+1)>∑i=1MlogP(yi,θj) ，证明了EM算法的收敛性。但不能保证是全局最优，只能保证局部最优。

Kenneth shu

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
极简EM（最大期望）算法

EM是常用的估计参数隐变量的利器。他的思路很简单：记住三个变量：θ：初始值**Z:**隐变量X:已知的观测到的变量下面我们用一个例子介绍一下EM算法：一个非常简单的例子假设现在有两枚硬币1和2，,随机抛掷后正面朝上概率分别为P1，P2。为了估计这两个概率，做实验，每次取一枚硬币，连掷5下，记录下结果，如下：还是上面的问题，现在抹去每轮投掷时使用的硬币标记，如上所示。此时我 ...
复制链接

扫一扫