EM算法原理和推导

碌碌无为的小张

已于 2023-01-29 10:52:46 修改

阅读量668

点赞数

分类专栏： NLP 文章标签：算法 python

于 2023-01-02 15:15:42 首次发布

本文链接：https://blog.csdn.net/weixin_52862386/article/details/128519081

版权

NLP 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

EM算法介绍和推导

EM算法简介
狭义EM算法
- EM算法的导出
- - ELBO+KL散度
  - ELBO+Jesson不等式
广义EM算法
EM算法的收敛性证明

EM算法简介

EM（expectation maximization algorithm）算法是一种迭代的算法，用于含有隐变量的极大似然估计。通常而言，EM算法分为E步和M步，先通过E步来求期望，然后再通过M步求期望的极大值，通过后反复迭代来寻找最优值。

狭义EM算法

EM算法的导出

ELBO+KL散度

从极大似然函数入手，极大似然是通过求 $\mathop{\arg\max}\limits_ {\theta}\log P(X|\theta)$ 来求使得概率密度乘积最大时的 $\theta$ 值，在此我们可以引入隐变量 $z$ ，即将目标函数改为在 $X$ 和 $z$ 可观测的前提下，求目标函数最大时的 $\theta$ 值，故变换为
$\log P(X|\theta)=\log P(X,z|\theta)-\log P(z|X,\theta)$
接下来在引入隐变量的分布函数 $q (z)$
$\log P(X|\theta)=\log \frac{P(X,z|\theta)}{q(z)}-\log \frac{P(z|X,\theta)}{q(z)}$
此处的 $q (z)$ 是通过对数函数的变换加入的，具体如下
$\log P(X,z|\theta)-\log P(z|X,\theta)=(\log P(X,z|\theta)-\log q(z))-(\log P(z|X,\theta)-\log q(z))=\log \frac{P(X,z|\theta)}{q(z)}-\log \frac{P(z|X,\theta)}{q(z)}$

接下来可以对分布函数 $q (z)$ 做个积分，具体如下
$\int^{}_{z}q(z) \log P(X|\theta) dz=\int_{z}q(z)\log \frac{P(X,z|\theta)}{q(z)}dz-\int_{z}q(z)\log \frac{P(z|X,\theta)}{q(z)}dz$

等式左边的积分仅与 $q (z)$ 有关，即
$\int^{}_{z}q(z) \log P(X|\theta) dz=\log P(X|\theta)\int^{}_{z}q(z)dz=\log P(X|\theta)$
其中 $q (z)$ 是概率密度函数，所以积分和为1

等式右边的积分可以分为俩个部分,具体如下
$\int_{z}q(z)\log \frac{P(X,z|\theta)}{q(z)}dz$
$KL(q(z)||P(z|X,\theta))=\int_{z}q(z)\log \frac{q(z)}{P(z|X,\theta)}dz=-\int_{z}q(z)\log \frac{P(z|X,\theta)}{q(z)}dz$

这样就可以推出
$P(X|\theta)=ELBO+KL(q(z)||P(z|X,\theta))$
根据KL散度的性质可以知道，KL散度是大于等于0的，所以有
$P(X|\theta)\geq ELBO$
如果在这里我们使 $P(X|\theta)= ELBO$ ，则后续仅需通过求 $\mathop{\arg\max}\limits_ {\theta}ELBO$ ,就可以使 $P(X|\theta)$ 的下界不断提高，从而达到最大；所以从狭义的角度，我们可以在这里使 $K L$ 散度达到最小值0，即 $P(z|X,\theta^{(t)})$ 。

注：这里 $\theta$ 取 $\theta^{(t)}$ 是因为我们在当前时刻 $\theta$ 已知的前提下，使得 $K L$ 散度达到了最小，然而 $E L BO$ 中的 $\theta$ 仍视为变量

接下来我们可以将这个 $P(z|X,\theta^{(t)})$ 代入 $E L BO$ 中，消去变量 $z$ ，从而只关注变量 $\theta$ ，变换后
$P(X|\theta)=ELBO= \int_{z} P(z|X,\theta^{(t)})\log \frac{P(X,z|\theta)}{ P(z|X,\theta^{(t)})}dz$
即 $\mathop{\arg\max}\limits_ {\theta}P(X|\theta)=\mathop{\arg\max}\limits_ {\theta} \int_{z} P(z|X,\theta^{(t)})\log \frac{P(X,z|\theta)}{ P(z|X,\theta^{(t)})}dz=\mathop{\arg\max}\limits_ {\theta} \int_{z} P(z|X,\theta^{(t)})\log {P(X,z|\theta)}dz-\int_{z} P(z|X,\theta^{(t)})\log{ P(z|X,\theta^{(t)})}dz$
此时可以发现 $\log$ 函数中的分母与变量 $\theta$ 无关，则
$\theta^{(t+1)}=\mathop{\arg\max}\limits_ {\theta}P(X|\theta)=\mathop{\arg\max}\limits_ {\theta}\int_{z} P(z|X,\theta^{(t)})\log {P(X,z|\theta)}dz$
至此我们就推导出了关于 $\theta^{(t)}\rightarrow\theta^{(t+1)}$ 的公式
$\theta^{(t+1)} =\mathop{\arg\max}\limits_ {\theta}\int_{z} P(z|X,\theta^{(t)})\log {P(X,z|\theta)}dz$

ELBO+Jesson不等式

从 $\log P(X|\theta)$ 入手，引入隐变量 $z$ ，从而有
$\log P(X|\theta) =\log \int_{z}P(X,z|\theta)dz$
再引入分布函数 $q (z)$ ，有
$\log P(X|\theta) =\log \int_{z}\frac{P(X,z|\theta)}{q(z)}q(z)dz = log E_{q(z)}(\frac{P(X,z|\theta)}{q(z)})$
又函数 $\log$ 是凸函数，根据Jesson不等式，有
$\log E(x)\geq E \log(x)$
同理得到
$E_{q(z)}(\frac{P(X,z|\theta)}{q(z)}) \geq E_{q(z)}\log (\frac{P(X,z|\theta)}{q(z)})$
又
$E_{q(z)}\log (\frac{P(X,z|\theta)}{q(z)}) = \int_{z}\log (\frac{P(X,z|\theta)}{q(z)})q(z)dz$
所以就得到了
$\log P(X|\theta) = log E_{q(z)}(\frac{P(X,z|\theta)}{q(z)})\geq\int_{z}\log (\frac{P(X,z|\theta)}{q(z)})q(z)dz$
在狭义的角度，我们关注一下取等号的条件，当 $\frac{P(X,z|\theta)}{q(z)}=c$ （其中 $c$ 为常数）时，可以使得 $l o g E (c) = El o g (c)$ ，接下来我们先关注 $q(z)=\frac{1}{c}P(X,z|\theta)$ ，在这里对做积分可以得到
$\int_{z} q(z)dz=\int_{z} \frac{1}{c}P(X,z|\theta) dz$
$1=\frac{1}{c}P(X|\theta)$
即 $P(X|\theta) =c$ ，代回 $\frac{P(X,z|\theta)}{q(z)}=c$ 中，可以得到
$q(z)=\frac{P(X,z|\theta)}{P(X|\theta) }=P(z|X,\theta)$
这里的 $\theta$ 也是在已知情况下取得的等价条件，所以就得到了 $q(z)=P(z|X,\theta^{(t)})$

接下来将其代入 $\int_{z}\log (\frac{P(X,z|\theta)}{q(z)})q(z)dz$ 中有
$\int_{z}\log (\frac{P(X,z|\theta)}{q(z)})q(z)dz=\int_{z}\log (\frac{P(X,z|\theta)}{P(z|X,\theta^{(t)})})P(z|X,\theta^{(t)})dz=\int_{z}\log (P(X,z|\theta)P(z|X,\theta^{(t)})dz-\int_{z}\log (P(z|X,\theta)P(z|X,\theta^{(t)})dz$
所以就有
$\theta^{(t+1)}=\mathop{\arg\max}\limits_ {\theta} \log P(X|\theta) = \mathop{\arg\max}\limits_ {\theta}\int_{z}\log (P(X,z|\theta)P(z|X,\theta^{(t)})dz$
至此我们就推导出了关于 $\theta^{(t)}\rightarrow\theta^{(t+1)}$ 的公式
$\theta^{(t+1)} =\mathop{\arg\max}\limits_ {\theta}\int_{z} P(z|X,\theta^{(t)})\log {P(X,z|\theta)}dz$

广义EM算法

狭义EM算法实际上是广义EM算法的一种特殊情况，所以接下来我们分析一下广义上的EM算法

这里我们从狭义EM算法中推出的 $P(X|\theta)=ELBO+KL(q(z)||P(z|X,\theta))$ 入手，将 $E L BO$ 看作 $F(q(z),\theta)$ ，然后根据 $K L$ 散度大于等于0，得到
$P(X|\theta)\geq F(q(z),\theta)$
在这里 $q (z)$ 是不固定的，所以我们需要求出使函数 $F$ 达到最大时的 $\theta$

这里我们从E步开始，先固定 $\theta$ ，即在 $\theta^{(t)}$ 已知的前提下，求 $\hat{q}$ ，即E-step为
$\hat{q}^{(t+1)}=\mathop{\arg\max}\limits_ {q}F(q,\theta^{(t)})$
然后接下来开始M步，即固定了 $\hat{q}$ 来求 $\theta^{(t+1)}$ ，即M-step为
$\theta^{(t+1)}=\mathop{\arg\max}\limits_ {\theta}F(q^{(t+1)},\theta)$
然后通过反复迭代，不断地使 $F$ 变大，从而提高 $P(X|\theta)$ 的下界，最终求出最优的 $\theta$

EM算法的收敛性证明

我们可以发现 $P(X|\theta)$ 是概率所以其上界为1，而函数收敛的充分条件为单调有界，所以只要证明 $\log P(X|\theta)$ 是单调递增的

首先引入隐变量
$\log P(X|\theta) = \log P(X,z|\theta)-\log P(z|X,\theta)$

由于ELBO每次迭代都增大，所以我们可以将 $\log P(X,z|\theta)$ 凑成ELBO的形式，即等式左右乘以 $P(z|X,\theta^{(t)})$ ，并同时对 $z$ 做积分，有
$\log P(X|\theta) = \int_{z} \log P(X,z|\theta) P(z|X,\theta^{(t)}) dz-\int_{z}\log P(z|X,\theta) P(z|X,\theta^{(t)}) dz$

这里我们令
$Q(\theta,\theta^{(t)})=\int_{z} \log P(X,z|\theta) P(z|X,\theta^{(t)}) dz \\ H(\theta,\theta^{(t)})=\int_{z}\log P(z|X,\theta) P(z|X,\theta^{(t)}) dz$

所以 $P(X|\theta^{(t)})=Q(\theta^{(t)},\theta^{(t)})-H(\theta^{(t)},\theta^{(t)})$ ，由于ELBO是不断增大的，所以 $Q(\theta^{(t+1)},\theta^{(t)})>Q(\theta^{(t)},\theta^{(t)})$ (此处不严谨)，接下来我们仅需证明 $H(\theta^{(t)},\theta^{(t)})\geq H(\theta^{(t+1)},\theta^{(t)})$

$H(\theta^{(t+1)},\theta^{(t)})-H(\theta^{(t)},\theta^{(t)})=\int_{z}\log P(z|X,\theta^{(t+1)}) P(z|X,\theta^{(t)}) dz-\int_{z}\log P(z|X,\theta^{(t)}) P(z|X,\theta^{(t)}) dz\\ =\int_{z}\log \frac{P(z|X,\theta^{(t+1)})}{P(z|X,\theta^{(t)})} P(z|X,\theta^{(t)}) dz \\ \leq \log \int_{z}\frac{P(z|X,\theta^{(t+1)})}{P(z|X,\theta^{(t)})} P(z|X,\theta^{(t)}) dz \\= \log \int_{z} P(z|X,\theta^{(t+1)}) dz = \log1 = 0$