EM算法学习

回想sy

已于 2023-10-09 17:08:36 修改

阅读量146

点赞数 2

分类专栏：机器学习文章标签：算法机器学习深度学习人工智能

于 2021-08-22 11:20:36 首次发布

本文链接：https://blog.csdn.net/weixin_49708196/article/details/119850176

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

#! https://zhuanlan.zhihu.com/p/402301009

EM算法详解

1.1 EM算法概括

我们从最大后验出发，根据最大后验的原理，我们求参数的方法为 $\theta_{MLE}=\underset{a}{argmax}P(x|\theta)$ ,EM算法的迭代格式为
$\begin{aligned}\theta^{(t+1)}&=\underset{\theta}{argmax}\int_z\log P(x, z|\theta)\cdot P(z|x, \theta^{(t)})dz\\ &=\underset{\theta}{argmax}E_{z|x, \theta^{(t)}}[\log P(x, z|\theta)] \end{aligned}$

1.2 证明收敛性

我们上面给出了迭代式，我们接下来就要证明这个迭代式的收敛性，即证明： $\log P\left(x, \theta^{(t)}\right) \leq \log P\left(x, \theta^{(t+1)}\right)$
$p f$ :因为
$\log p(x \mid \theta)=\log p(x, z \mid \theta)-\log p(z \mid x, \theta)$
对两边关于 $z$ 积分：
$\begin{aligned}\int_{z} p(z \mid x, \theta ^{(t)}) \log p(x \mid \theta) d z&=\int_{z} p(z \mid x, \theta^{(t)}) \log p(x, z\mid\theta) d z - \int_z p(z \mid x, \theta^{(t)})\log p(z\mid x, \theta) d z \\ \log p(x \mid \theta)&=Q(\theta, \theta^{(t)})+H(\theta, \theta^{(t)}) \end{aligned}$
其中 $Q(\theta, \theta^{(t)})=\int_{z} p(z \mid x, \theta^{(t)}) \log p(x, z\mid\theta) d z$ , $H(\theta, \theta^{(t)})=-\int_z p(z \mid x, \theta^{(t)})\log p(z\mid x, \theta) d z$
根据上面的 $\theta$ 定义显然有 $Q(\theta^{(t)}, \theta^{(t)}) \le Q(\theta^{(t+1)}, \theta^{(t)})$ ，下面我们来证明 $H(\theta^{(t+1)}, \theta^{(t)}) \le H(\theta^{(t)}, \theta^{(t)})$
$\begin{aligned} H\left(\theta^{(t+1)}, \theta^{(t)}\right)-H\left(\theta^{(t)}, \theta^{(t)}\right)&=\int_{z} p( z \mid x, \theta^{(t)}) \log p(z| x , \theta^{(t)})dz-\int_{z} p( z \mid x, \theta^{(t)}) \log p(z| x , \theta^{(t+1)})dz \\ &=\int_{z} p( z \mid x, \theta^{(t)})\log \frac{p(z| x , \theta^{(t)})}{p(z| x , \theta^{(t+1)})}dz \\ &=-KL(p( z \mid x, \theta^{(t)}) \| p( z \mid x, \theta^{(t+1)})) \\ &\le 0 \end{aligned}$
证得结论成立，该迭代式可行。

2 EM算法

下面我们给出EM算法的具体步骤
假设 $X$ 是观察数据， $Z$ 是隐变量， $(X, Z)$ 是完全数据。
$\ step:根据已知参数求最大期望E_{z|x, \theta^{(t)}}[\log P(x, z|\theta^{(t)})] \\ M \ step: \theta^{(t+1)}=\underset{a}{argmax}E_{z|x, \theta^{(t)}}[\log P(x, z|\theta^{(t)})]$

3 EM算法推导

关于最大后验，有结论
$\begin{aligned}\log P(x \mid \theta)&=\log P(x, z \mid \theta)-\log P(z \mid x, \theta) \\ &=\log \frac{P(x, z \mid \theta)}{q(z)}-\log \frac{P(z \mid x, \theta)}{q(z)}\end{aligned}$
两边仍关于 $z$ 求积分
$\begin{aligned} \int_z q(z)\log P(x \mid \theta)dz &= \int_z q(z)\log \frac{P(x, z \mid \theta)}{q(z)}dz - \int_z q(z)\log \frac{P(z \mid x, \theta)}{q(z)}dz \\ \log P(x \mid \theta) &= ELBO + KL(q(z) \|P(z|x, \theta)) \end{aligned}$
EM算法的思想就是通过迭代使 $E L BO$ 变大,从而提升 $\log likelihood$ (对数似然)。即
$\begin{aligned} \hat{\theta}&=\underset{\theta}{argmax}ELBO \\ &=\underset{\theta}{argmax}\int_zq(z)\log \frac{P(x, z \mid \theta)}{q(z)}dz \\ &=\underset{\theta}{argmax}\int_z p(z \mid x, \theta^{(t)}) \log \frac{P(x, z \mid \theta)}{p(z \mid x, \theta^{(t)})}dz \\ &=\underset{\theta}{argmax}\int_z p(z \mid x, \theta^{(t)}) \log P(x, z \mid \theta)dz \end{aligned}$
通过最大后验的角度我们就推导出了 $EM$ 算法的迭代式，就是不断提高 $E L BO$ 。

4 EM算法推导的另外一个角度

这里我们再介绍一个推导出来 $EM$ 算法的另外一个角度——利用Jensen不等式。关于Jensen不等式大家可以看知乎上的一篇回答
Jensen不等式。
$\begin{aligned} \log P(x|\theta)&=\log \int_z P(x, z|\theta)dz \\ &=\log \int_z q(z) \cdot \frac{P(x, z|\theta)}{q(z)}dz \\ &= \log E_{q(z)}[\frac{P(x, z|\theta)}{q(z)}] \\ &\ge E_{q(z)}[\log \frac{P(x, z|\theta)}{q(z)}] \\ &= ELBO \end{aligned}$
根据Jensen不等式可知，只有当 $\frac{P(x, z|\theta)}{q(z)}$ 为常数时，等号才成立。
此时
$\begin{aligned} \frac{P(x, z|\theta)}{q(z)}&=C \\ q(z)&=\frac{P(x, z|\theta)}{C} \\ \int_z q(z)dz &= \int_z \frac{P(x, z|\theta)}{C} dz \\ 1 &= \frac{1}{C} P(x|\theta) \\ P(x|\theta) &= C \end{aligned}$
所以
$\frac{P(x, z|\theta)}{P(x|\theta)}$
这就证明了 $q (z)$ 是关于 $z$ 的后验，符合上一个推导的结果。

5 关于EM算法

EM算法解决的是概率生成模型的问题
狭义EM算法可以推导到广义EM算法
根据上面的推导，我们有下面的结论
$\log P(x|\theta) = ELBO + KL(q\|p)$
其中
$\left\{\begin{array}{l} E L B O=E_{q(z)} [ \log \frac{P(x, z \mid \theta)}{q(z)}] \\ K L\left(q \| p\right)=\int_{z} q(z) \log \frac{q(z)}{p(z | x, \theta)} d z \end{array}\right.$
所以
$\log P(x|\theta) \ge ELBO=\mathcal{L}(q, \theta)$
在狭义EM算法中， $\theta^{(t)})$ 。有时 $\theta^{(t)})$ 也会不易求得(此时可以用近似推断方法来求，包括变分推断、MCMC采样)，所以此时不能直接令 $\theta^{(t)})$ ，此时就是广义EM算法的形式:
在形式上， $\hat{\theta}$ 固定时， $\hat{q} = \underset{q}{argmax}KL(q\|p)=\underset{q}{armax}\mathcal{L}(q)$
$\hat{q}$ 固定时， $\hat{\theta}=\underset{\theta}{argmax}\mathcal{L}(\hat{q})$
广义EM算法：
$\left\{\begin{array}{l} E-step: q^{(t+1)}=\underset{q}{armax}\mathcal{L}(q, \theta^{(t)}) \\ M-step: \theta^{(t+1)}=\underset{\theta}{argmax}\mathcal{L}(q^{(t+1)}, \theta) \end{array}\right.$
观察广义EM算法里 $E L BO$ 的形式：
$\begin{aligned} \mathcal{L}(q, \theta) &= E_{q}[\log P(x, z) - \log q(z)] \\ &=E_{q}[\log P(x, z)] - E_{q}[\log q(z)] \\ &=E_{q}[\log P(x, z)] + H(q) \end{aligned}$
其中 $H(q)=-\int_z q(z)\log q(z)dz$ 是关于 $q$ 分布的熵。
在狭义EM算法中我们可以观察到是没有第二项的，是因为在狭义EM算法中 $q$ 分布是确定的， $H (q) = 0$

6 EM算法的变种

前面我们提到在狭义EM算法中， $\theta^{(t)})$ 。有时 $\theta^{(t)})$ 也会不易求得(此时可以用近似推断方法来求，包括变分推断、MCMC采样)，所以此时不能直接令 $\theta^{(t)})$ ，这就分别有EM算法的变种——VEM, MCEM。

回想sy

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
EM算法学习

#! https://zhuanlan.zhihu.com/p/402301009EM算法详解1.1 EM算法概括我们从最大后验出发，根据最大后验的原理，我们求参数的方法为θMLE=argmaxaP(x∣θ)\theta_{MLE}=\underset{a}{argmax}P(x|\theta)θMLE=aargmaxP(x∣θ),EM算法的迭代格式为θ(t+1)=argmaxa∫zlog⁡P(x,z∣θ)⋅P(z∣x,θ(t))dz=argmaxaEz∣x,θ(t)[log⁡P(x,z∣θ
复制链接

扫一扫