【机器学习】EM算法详解

一穷二白到年薪百万

已于 2022-10-10 19:40:42 修改

阅读量2k

点赞数 3

分类专栏：机器学习文章标签：机器学习 EM算法

于 2022-10-08 23:43:54 首次发布

本文链接：https://blog.csdn.net/zfhsfdhdfajhsr/article/details/127218548

版权

机器学习专栏收录该内容

20 篇文章 5 订阅

订阅专栏

1 引言

EM算法用于具有隐变量模型的参数估计，如高斯混合模型，VAE算法推导的前置知识等，了解EM算法更能深刻理解许多复杂算法模型。

本文为自学内容的记录，其中多有参考他人博客的地方在参考文献一并给出链接。

2 为什么需要EM算法

3 EM算法的推导

对于 $m$ 个相互独立的样本 $x=(x_1, x_2,\dots,x_m)$ ，对应的隐含数据 $z=(z_1,z_2,\dots,z_m)$ ，此时 $(x, z)$ 为完全数据，样本模型的参数为 $\theta$ 则观察数据 $x_i$ 的概率为 $P(x_i|\theta)$ ，完全数据 $x_i,z_i)$ 的似然函数为 $P(x_i,z_i|\theta)$ 。

假如没有隐含变量 $z$ ,仅需要找到合适的 $\theta$ 极大对数似然函数即可:
$\theta=\arg \max _{\theta} L(\theta)=\arg \max _{\theta} \sum_{i=1}^{m} \log P\left(x_{i} \mid \theta\right)$
增加隐含变量 $z$ 之后，我们的目标变成了找到合适的 $\theta$ 和 $z$ 让对数似然函数最大：
$\theta, z=\arg \max _{\theta, z} L(\theta, z)=\arg \max _{\theta, z} \sum_{i=1}^{m} \log \sum_{z_{i}} P\left(x_{i}, z_{i} \mid \theta\right)$

如果上式在 $l o g$ 里面会出现积分(求和)符号，导致对似然函数的求导变得困难，无法求解。对于这种无法直接求解的问题，我们通常会采用迭代求解的策略，一步一步逼近最终的结果，在EM算法中就是E步和M步的交替进行，直至收敛。

4 ELBO+KL形式

根据条件概率公式则
$\mid \theta)=\frac{P(X, Z \mid \theta)}{P(Z \mid X, \theta)}$
其中，上式引入了隐变量 $Z$ 和参数 $\theta$ ， $\mid X, \theta)$ 是后验概率。
对上式两边取对数
$\log P(X \mid \theta)=\log P(X, Z \mid \theta)-\log P(Z \mid X, \theta)$

下面的构造就比较有技巧性了，引入 $Z$ 的概率分布 $q (Z)$ （ $q (Z)$ 可以是任意一个分布，个人感觉这里是为了凑 $K L$ 散度公式，十分巧妙（见参考文献【8】））并且
$\int_{Z} q(Z) d Z=1$ ，则上式可以写为：

$\log P(X \mid \theta)=\log \frac{P(X, Z \mid \theta)}{q(Z)}-\log \frac{P(Z \mid X, \theta)}{q(Z)}$

然后两边同时求关于变量 $Z$ 的期望

$\mathbb{E}_{Z}[\log P(X \mid \theta)]=\mathbb{E}_{Z}\left[\log \frac{P(X, Z \mid \theta)}{q(Z)}\right]-\mathbb{E}_{Z}\left[\log \frac{P(Z \mid X, \theta)}{q(Z)}\right]$

将期望写成积分的形式（见参考文献【10】）

$\int_{Z} q(Z) \log P(X \mid \theta) d Z=\int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z-\int_{Z} q(Z) \log \frac{P(Z \mid X, \theta)}{q(Z)} d Z$

同时由于 $log(P(X|\theta))$ 和 $Z$ 无关，上式又可变换为：

$\log P(X \mid \theta)=\int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z-\int_{Z} q(Z) \log \frac{P(Z \mid X, \theta)}{q(Z)} d Z$
此处细节不了解的可见参考文献【9】，注意上式最右边的积分项 $-\int_{Z} q(Z) \log \frac{P(Z \mid X, \theta)}{q(Z)} d Z$ 这个其实就是 $q (Z)$ 和 $P(Z|X,\theta)$ 之间的相对熵Kullback-Leibler divergence (KL divergence)，记作：

$D_{K L}(q(Z) \| P(Z \mid X, \theta))=\int_{Z} q(Z) \log \frac{q(Z)}{P(Z \mid X, \theta)} d Z$

所以有

$\log P(X \mid \theta)=\int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z+D_{K L}(q(Z) \| P(Z \mid X, \theta))$

根据KL divergence的性质 $D_{K L}(q(Z) \| P(Z \mid X, \theta)) \geq 0$ 当且仅当 $\mid X, \theta)$ 取等号，因此有

$\log P(X \mid \theta) \geq \int_{Z} q(Z) \log \frac{P(X, Z \mid \theta)}{q(Z)} d Z$

因此便得到了 $\log P(X \mid \theta)$ 的一个下界称为Evidence Lower Bound (ELBO)，后面就可以通过迭代的方式不断抬高ELBO使得 $\log P(X \mid \theta)$ 增大。但目前还有一个问题， $q (Z)$ 是未知的下界还是没法求。我们可以直接在每一轮迭代时令 $q(Z)=P\left(Z \mid X, \theta^{(t)}\right)$ ，此时 $D_{K L}\left(q(Z) \| P\left(Z \mid X, \theta^{(t)}\right)\right)=0$
,因为我们想要ELBO和 $\log P(X \mid \theta)$ 的差距尽可能的小，这样抬高ELBO才会使得 $\log P(X \mid \theta)$ 的增益更大，所以将KL这一项直接置为0是比较合理的，此时ELBO就变为：
$\int_{Z} P\left(Z \mid X, \theta^{(t)}\right) \log \frac{P(X, Z \mid \theta)}{P\left(Z \mid X, \theta^{(t)}\right)} d Z=\mathbb{E}_{Z \mid X, \theta^{(t)}}\left[\log \frac{P(X, Z \mid \theta)}{P\left(Z \mid X, \theta^{(t)}\right)}\right]$
展开有
$\mathbb{E}_{Z \mid X, \theta^{(t)}}\left[\log \frac{P(X, Z \mid \theta)}{P\left(Z \mid X, \theta^{(t)}\right)}\right]=\mathbb{E}_{Z \mid X, \theta^{(t)}}[\log P(X, Z \mid \theta)]-\mathbb{E}_{Z \mid X, \theta^{(t)}}\left[\log P\left(Z \mid X, \theta^{(t)}\right]\right.$

因为我们最终的目标是求出某个 $\hat \theta$ 使得ELBO最大，上式的第二项与 $\theta$ 无关，可看成是一个常数，所以可以直接扔掉，则上式变为：

$\mathbb{E}_{Z \mid X, \theta^{(t)}}[\log P(X, Z \mid \theta)]$

这样我们得到了EM算法E-step求期望的那个式子。紧接着就是求解 $\theta$ ,使得该期望达到最大，即M-step
$\theta^{(t+1)}=\arg \max _{\theta} \mathbb{E}_{Z \mid X, \theta^{(t)}}[\log P(X, Z \mid \theta)]$