EM算法追根溯源

最新推荐文章于 2022-04-23 19:12:09 发布

于建民

最新推荐文章于 2022-04-23 19:12:09 发布

阅读量1.6k

点赞数

分类专栏：技术博客文章标签：算法数据挖掘参数估计

本文链接：https://blog.csdn.net/yujianmin1990/article/details/47400519

版权

技术博客专栏收录该内容

79 篇文章 31 订阅

订阅专栏

EM算法通俗解释

　　大名鼎鼎的EM算法，用处如此广泛，以至于必须要看懂它，弄明白它，才不枉学习数据挖掘算法一番。
　　何为EM算法，就是对含有隐变量的概率模型参数的极大似然估计方法。如果没有隐变量，就是极大似然估计法。极大似然估计法，简单地说就是在已知结果的情况下，找到使得该结果出现的可能性最大时对应的参数。我们就知道了，EM算法是种参数估计的方法，跟极大似然法有些相近，比它多了中间变量-隐变量。
　　举个形象点的例子吧，抛硬币的例子大家都熟悉。
　　先举个适合于用极大似然估计的抛硬币例子。　　
　　例子1：抛一枚硬币，抛了好多次，比如100次，其正面朝上记作1,反面朝上记作0,则得到一组结果{0,1,1,1,0,1,0,1,0,0,0,1,…}。问题，估计硬币正面朝上的概率 $p$ 。
　　再举个适合于EM算法的抛硬币的例子。
　　例子2：抛三枚硬币A，B，C，怎么抛呢，先抛A，若A正面朝上，则抛B；若A反面朝上，则抛C。最后得到一组结果{0,1,1,0,1,0,0,1,1,0,0,…}。问题，估计硬币A，B，C各自正面朝上的概率 $p_{1}$ , $p_{2}$ , $p_{3}$ 。
　　上面两个例子中，例2比例1,明显多了中间变量A，由于A的变化，导致下面的操作也不同，并且A的情况是观察不到的，这就是隐变量。
　　例1求解： $P(y|\theta) = \prod_{i=1}^{N}P_{i}(y)$
　　例2求解： $P(y|\theta) = \prod_{z}P(y,z|\theta)*P(z|\theta)$
　　例1是在已知结果的情况下，找到参数 $\theta$ 使得当前结果出现的可能性最大。例2是在已知结果，不知隐变量 $z$ 的情况下，找到参数 $\theta$ 使得当前结果出现的可能性最大。
　　那么对于例2,如何找到最佳的参数 $\theta$ 呢，这就需要EM算法来搞定了。对于此类问题，目标是极大化观测数据Y关于参数 $\theta$ 的对数似然函数（对数的引入，一方面化积为和，一方面利于后面推导），即极大化下面目标函数
　　 $L(\theta) = logP(Y|\theta) = logP(Y,Z|\theta) = log \left[ \sum_{z}{P(Y|Z,\theta)*P(Z|\theta)} \right ]$

EM迭代过程推导

　　（不是常见推导方式，而是给出为什么这样推导，其背后的原因也表示出来，便于理解）
　　EM是通过迭代逐步近似极大 $L(\theta)$ 值的，假设第 $i$ 次迭代后的 $\theta$ 的估计值是 $\theta^{(i)}$ 。关键：我们希望更新 $\theta$ ，使得 $L(\theta)$ 比 $L(\theta^{i})$ 大，以此逐渐迭代到极大 $L(\theta)$ 值。为此，考虑两者的差 $L(\theta) - L(\theta^{(i)})$ ，只要两者差大于等于0也就 $L(\theta)$ 逐步增加。
　　 $L(\theta) - L(\theta^{(i)})$
　　 $= log \left[ \sum_{z}P(Y|Z, \theta)*P(Z|\theta) \right ] - log P(Y|\theta^{(i)})$ 里面乘以1
　　 $=log \left[ \sum_{z} P(Z|Y, \theta^{(i)})* \frac{P(Y|Z, \theta)*P(Z|\theta)} {P(Z|Y, \theta^{(i)}) } \right ] - logP(Y|\theta^{(i)})$ - - 1
　　利用Jensen不等式 $log\sum_{j}\lambda_{j}*y_{j} \geqslant \sum_{j} \lambda_{j}*logy_{j}$ ,其中, $\lambda_{j} \geqslant 0, \sum_{j} \lambda_{j} = 1$ ，变换上式，得到两者差的下界：
　　 $\geqslant \sum_{z} \left [ P(Z|Y, \theta^{(i)})* log \frac {P(Y|Z, \theta)*P(Z|\theta)} {P(Z|Y, \theta^{(i)}) } \right ] - logP(Y|\theta^{(i)})$
　　 $= \sum_{z}P(Z|Y, \theta^{(i)})*log \frac{P(Y|Z, \theta)*P(Z|\theta)} {P(Z|Y, \theta^{(i)})*P(Y|\theta^{(i)}) }$
　　 $= D(\theta, \theta^{(i)})$
　　综合 $L(\theta) - L(\theta^{(i)}) \geqslant D(\theta, \theta^{(i)})$ 得到 $L(\theta)$ 的下界
　　 $L(\theta) \geqslant L(\theta^{(i)}) + D(\theta, \theta^{(i)})$ - - 2
　　 $D(\theta, \theta^{(i)})$ 是大于等于0的，可以证明（后面）。当 $\theta = \theta^{(i)}$ 时，两边相等。
　　任何使得2式右侧(下界)增大的 $\theta$ 都会使得 $L(\theta)$ 增加。当右侧最大时， $L(\theta)$ 增加最大，选择 $\theta^{(i+1)}$ 满足
　　 $\theta^{(i+1)} = \underset{\theta}{arg max}\left[ L(\theta^{(i)}) + D(\theta, \theta^{(i)}) \right ]$
　　现在，稍微对相减公式变形，得到 $\theta$ 方便更新的公式。
　　 $L(\theta^{(i)})$ 是常数，略去则得到：
　　 $\theta^{(i+1)} = \underset{\theta}{argmax}\left [ D(\theta, \theta^{(i)}) \right ]$
　　 $\theta^{(i+1)} = \underset{\theta}{argmax}\sum_{z} \left [ P(Z|Y, \theta^{(i)})* log \frac {P(Y|Z, \theta)*P(Z|\theta)} {P(Z|Y, \theta^{(i)})*P(Y|\theta^{(i)}) } \right ]$
　　分母上的常数 $P(Y|\theta^{(i)})$ 也略去。
　　 $\theta^{(i+1)} = \underset{\theta}{argmax}\sum_{z} \left [ P(Z|Y, \theta^{(i)})* log \frac { {P(Y|Z, \theta)*P(Z|\theta)} }{P(Z|Y, \theta^{(i)})} \right ]$
　　令 $Q(Z)=P(Z|Y, \theta^{(i)})$
　　 $\theta^{(i+1)} = \underset{\theta}{argmax} \sum_{z}\left[ Q(Z) * log \frac {P(Y,Z| \theta)}{Q(Z)} \right ]$
　　可以看到，上式就是 $log\frac{P(Y, Z|\theta)}{Q(Z)}$ 的期望的最大化。（迭代的过程也清晰了，先求 $Q(Z)$ ，再求解 $log\frac{P(Y, Z|\theta)}{Q(Z)}$ 的期望，然后求其最大化对应的 $\theta$ ，更新后，重复此操作。同时，也就有了 $E$ 步和 $M$ 步。）不断提高下限，也就使得目标函数不断增加，但会陷于局部解。
　　

EM算法步骤

　　通过上面的推导，我们可以整理出EM算法的一般步骤


1. 参数初始化theta
2. 求解Q(Z)，并且求解log{ P(Y, Z| theta)/Q(Z) }的期望E。
3. 求解满足argmax{E}的参数theta。
4. 更新theta
5. 重复步骤2到4，直到终止条件abs{theta(i+1) - theta(i)}

EM收敛性的证明

　　先证明 $L( \theta^{(i+1)} ) - L(\theta^{i}) = D(\theta^{(i+1)}, \theta^{i})$ 是大于等于0的。
　　 $L( \theta^{(i+1)} ) - L(\theta^{i})$
　　 $= \sum_{z}P(Z|Y, \theta^{(i)})*log \frac{P(Y|Z, \theta^{(i+1)})*P(Z|\theta^{(i+1)})} {P(Z|Y, \theta^{(i)})*P(Y|\theta^{(i)}) }$
　　 $= \sum_{z} \left [ P(Z|Y, \theta^{(i)})*log \frac{P(Y|Z, \theta^{(i+1)})*P(Z|\theta^{(i+1)})} {P(Z|Y, \theta^{(i)}) }\right ] - \sum_{z} \left[ P(Z|Y, \theta^{(i)})*logP(Y|\theta^{(i)}) \right ]$
　　 $=A(\theta^{(i+1)}, \theta^{(i)}) - B(\theta^{(i+1)}, \theta^{(i)})$
　　由于 $\theta^{(i+1)} = \underset{\theta}{argmax} \sum_{z}\left[ Q(Z) * log \frac {P(Y,Z| \theta)}{Q(Z)} \right ]$ ，因此对于 $A(\theta^{(i+1)}, \theta^{(i)})$ 来说，其值大于等于0.
　　对于 $B(\theta^{(i+1)}, \theta^{(i)})$ ，利用jensen不等式。
　　 $= \sum_{z} \left[ P(Z|Y, \theta^{(i)})*logP(Y|\theta^{(i)}) \right ]$
　　 $\leqslant log\sum_{z}P(Z|Y, \theta^{(i)})P(Y|\theta^{(i)}) = log \sum_{z}P(Z, Y | \theta^{(i)}) \leqslant 0$ 概率小于1,对数小于0。
　　故 $L( \theta^{(i+1)} ) - L(\theta^{i})=A(\theta^{(i+1)}, \theta^{(i)}) - B(\theta^{(i+1)}, \theta^{(i)}) \geqslant 0$
　　再证明， $L(\theta)$ 收敛于某一个值 $L$
　　因为 $L(\theta)$ 的单调性，以及 $P(Y|\theta)$ 的有界性，得到结论： $L(\theta)$ 收敛于某一个值。
　　最后证明， $\theta$ 收敛于稳定值
　　暂时未看。