【统计学习方法】第9章 EM算法及其推广

最新推荐文章于 2022-05-16 15:34:42 发布

gkm0120

最新推荐文章于 2022-05-16 15:34:42 发布

阅读量187

点赞数

分类专栏：统计学习方法文章标签：最大期望算法

本文链接：https://blog.csdn.net/weixin_45839039/article/details/113448643

版权

统计学习方法专栏收录该内容

11 篇文章 2 订阅

订阅专栏

EM算法是一种迭代算法，1977年由Dempster等人总结提出，用于含有隐变量（hidden variable）的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步，求期望（expectation）；M步，求极大（maximization）。所以这一算法称为期望极大算法（expectation maximization algorithm），简称EM算法。

1、EM算法的引入

EM算法

不完全数据：观测随机变量 $Y$ 。
完全数据：观测随机变量 $Y$ 和隐随机变量 $Z$ 。

$Q$ 函数：完全数据的对数似然函数 $\log P \left( Y , Z | \theta \right)$ 关于在给定观测数据 $Y$ 和当前参数 $\theta^{\left( i \right)}$ 下对未观测数据 $Z$ 的条件概率分布 $\left( Z | Y, \theta^{\left( i \right)} \right)$ 的期望
$\begin{aligned} & Q \left( \theta, \theta^{\left( i \right)} \right) = E_{Z} \left[ \log P \left( Y, Z | \theta \right) | Y , \theta^{\left( i \right)} \right] \end{aligned}$

EM算法的导出

含有隐变量 $Z$ 的概率模型，目标是极大化观测变量 $Y$ 关于参数 $\theta$ 的对数似然函数，即 $\begin{aligned} & \max L \left( \theta \right) = \log P \left( Y | \theta \right) \\ & = \log \sum_{Z} P \left( Y,Z | \theta \right) \\ & = \log \left( \sum_{Z} P \left( Y|Z,\theta \right) P \left( Z| \theta \right) \right)\end{aligned}$

对数似然函数 $\left( \theta \right)$ 与第 $i$ 次迭代后的对数似然函数估计值 $\left( \theta^{\left( i \right)} \right)$ 的差 $\begin{aligned} & L \left( \theta \right) - L \left( \theta^{\left( i \right)} \right) ＝ \log \left( \sum_{Z} P \left( Y|Z,\theta \right) P \left( Z| \theta \right) \right) - \log P \left( Y| \theta^{ \left( i \right)} \right) \\ & = \log \left( \sum_{Z} P \left( Z | Y , \theta^{\left( i \right)} \right) \dfrac { P \left( Y|Z,\theta \right) P \left( Z| \theta \right)} {P \left( Z | Y , \theta^{\left( i \right)} \right)} \right) - \log P \left( Y| \theta^{ \left( i \right)} \right)\\ &\geq \sum_{Z} P \left( Z | Y , \theta^{\left( i \right)} \right) \log \dfrac {P \left( Y | Z, \theta \right) P \left(Z|\theta\right)}{P \left( Z | Y , \theta^{\left( i \right)} \right)} - \log P \left( Y| \theta^{ \left( i \right)} \right) \\ & = \sum_{Z} P \left( Z | Y , \theta^{\left( i \right)} \right) \log \dfrac {P \left( Y | Z, \theta \right) P \left(Z|\theta\right)} {P \left( Z | Y , \theta^{\left( i \right)} \right) P \left(Y|\theta^{\left( i \right)} \right)}\end{aligned}$

令 $\begin{aligned} & B \left( \theta , \theta^{\left ( i \right)} \right) = L \left( \theta^{\left ( i \right)} \right) + \sum_{Z} P \left( Z | Y , \theta^{\left( i \right)} \right) \log \dfrac {P \left( Y | Z, \theta \right) P \left(Z|\theta\right)} {P \left( Z | Y , \theta^{\left( i \right)} \right) P \left(Y|\theta^{\left( i \right)} \right)} \end{aligned}$

则 $\begin{aligned} & L \left( \theta \right) \geq B \left( \theta, \theta^{\left( i \right)} \right) \end{aligned}$

即函 $\left( \theta, \theta^{\left( i \right)} \right)$ 是 $\left( \theta \right)$ 的一个下界。选择 $\theta^{\left( i \right)}$ 使 $\left( \theta, \theta^{\left( i \right)} \right)$ 达到极大，即 $\begin{aligned} & \theta^{\left( i+1 \right)}＝ \arg \max B \left( \theta, \theta^{\left( i \right)} \right) \\ & = \arg \max \left( L \left( \theta^{\left ( i \right)} \right) + \sum_{Z} P \left( Z | Y , \theta^{\left( i \right)} \right) \log \dfrac {P \left( Y | Z, \theta \right) P \left(Z|\theta\right)} {P \left( Z | Y , \theta^{\left( i \right)} \right) P \left(Y|\theta^{\left( i \right)} \right)} \right) \\ & = \arg \max \left( \sum_{Z} P \left( Z | Y, \theta^{\left( i \right)} \right) \log \left( P \left( Y | Z, \theta \right) \right) P \left( Z | \theta \right) \right) \\ & = \arg \max \left( \sum_{Z} P \left( Z | Y, \theta^{\left( i \right)} \right) \log P \left( Y, Z | \theta\right) \right) \\ & = \arg \max Q \left( \theta, \theta^{\left( i \right)} \right) \end{aligned}$

EM算法：

输入：观测随机变量数据 $Y$ ，隐随机变量数据 $Z$ ，联合分布 $P\left(Y,Z|\theta \right)$ ，条件分布 $P\left(Y｜Z，\theta\right)$ ；
输出：模型参数 $\theta$

初值 $\theta^{\left(0\right)}$
$E$ 步： $Q\left(\theta,\theta^{\left(i\right)}\right)=E_{Z}\left[\log P\left(Y,Z|\theta\right)|Y,\theta^{\left(i\right)}\right] \\ = \sum_{Z} \log P\left(Y,Z|\theta \right) \cdot P\left(Z|Y, \theta^{\left(i\right)}\right)$
$M$ 步： $\begin{aligned} & \theta^{\left( i+1 \right)} = \arg \max Q\left(\theta, \theta^{\left( i \right)} \right)\end{aligned}$
重复2. 3.，直到收敛。

2、EM算法的推广

F函数的极大算法

$F$ 函数：隐变量 $Z$ 的概率分布为 $\tilde{P} \left( Z \right)$ ，关于分布 $\tilde{P}$ 与参数 $\theta$ 的函数 $\begin{aligned} \\ & F \left( \tilde{P}, \theta \right) = E_{\tilde{P}} \left[ \log P \left( Y, Z | \theta \right)\right] + H \left( \tilde{P} \right) \end{aligned}$
其中， $\left( \tilde{P} \right) = - E_{\tilde{P}} \left[ \log \tilde{P} \left( Z\right)\right]$ 是分布 $\tilde{P} \left( Z \right)$ 的熵。

对于固定的 $\theta$ ，极大化 $F$ 函数
$\begin{aligned} \\ & \max_{\tilde{P}} F \left( \tilde{P}, \theta \right) \\ & s.t. \sum_{Z} \tilde{P}_{\theta} \left( Z \right) = 1 \end{aligned}$

引入拉格朗日乘子 $\lambda$ ，构造拉格朗日函数 $\begin{aligned} \\ & L = E_{\tilde{P}} \left[ \log P \left( Y, Z | \theta \right)\right] - E_{\tilde{P}} \left[ \log \tilde{P} \left( Z\right)\right] + \lambda \left( 1 - \sum_{Z} \tilde{P} \left( Z \right) \right) \\ & = \sum_{Z} \log P \left( Y, Z | \theta \right) \tilde{P} \left( Z \right) - \sum_{Z} \log P \left( Z \right) \tilde{P} \left( Z \right) + \lambda - \lambda \sum_{Z} \tilde{P} \left( Z \right) \end{aligned}$

将其对 $\tilde{P} \left( Z \right)$ 求偏导，得 $\begin{aligned} \\ & \dfrac {\partial L}{\partial \tilde{P} \left( Z \right) } = \log P \left( Y, Z | \theta \right) - 1 - \log P \left( Z \right) - \lambda \end{aligned}$

令其等于0，得 $\begin{aligned} & \lambda ＝ \log P \left( Y, Z | \theta \right) - 1 - \log P \left( Z \right) \\ & \dfrac{P \left( Y, Z | \theta \right) }{\tilde{P}_{\theta} \left( Z \right) } = e^{1 + \lambda } \\ & \sum_{Z} P \left( Y, Z | \theta \right) ＝ e^{1 + \lambda } \sum_{Z} \tilde{P}_{\theta} \left( Z \right) \end{aligned}$

由于 $\sum_{Z} \tilde{P}_{\theta} \left( Z \right) = 1$ ，得
$\begin{aligned} & P \left( Y \right) = e^{1 + \lambda } \end{aligned}$

代回，得
$\begin{aligned} & \tilde{P}_{\theta} \left( Z \right) = P \left( Z | Y, \theta \right) \end{aligned}$

则 $\begin{aligned} & F \left( \tilde{P}, \theta \right) = E_{\tilde{P}} \left[ \log P \left( Y, Z | \theta \right)\right] + H \left( \tilde{P} \right) \\ & = \sum_{Z} \log P \left( Y, Z | \theta \right) \tilde{P} \left( Z \right) - \sum_{Z} \log P \left( Z \right) \tilde{P} \left( Z \right) \\ & = \sum_{Z} \tilde{P} \left( Z \right) \log \dfrac{P \left( Y, Z | \theta \right) }{\tilde{P} \left( Z \right) } \\ & = \sum_{Z} \tilde{P} \left( Z \right) \log \dfrac{P \left( Z | Y, \theta \right) P \left(Y | \theta \right) }{\tilde{P} \left( Z \right) } \\ & = \log P \left(Y | \theta \right) \sum_{Z} \tilde{P} \left( Z \right) \\ & = \log P \left(Y | \theta \right) \\ & = L \left( \theta \right) \end{aligned}$

对于使 $\left( \tilde{P}, \theta \right)$ 达到最大值的参数 $\theta^{*}$ ，有 $\begin{aligned} L \left( \theta^{*} \right) = F \left( \tilde{P}_{\theta^{*}}, \theta^{*} \right) = F \left( \tilde{P}^{*}, \theta^{*} \right)\end{aligned}$

即，如果 $\left( \tilde{P}, \theta \right)$ 在 $\tilde{P}^{*}, \theta^{*}$ 达到局部极大值（全局最大值）,则 $\left( \theta^{*} \right)$ 在 $\tilde{P}^{*}, \theta^{*}$ 也达到局部极大值（全局最大值）。

由 $\tilde{P}_{\theta} \left( Z \right) = P \left( Z | Y, \theta \right)$ ，对固定的 $\theta^{\left( i \right) }$ ， $\begin{aligned} \tilde{P}^{\left( i + 1 \right)} \left( Z \right) = \tilde{P}_{\theta^{\left( i \right)}} \left( Z \right) = P \left( Z | Y, \theta^{\left( i \right) } \right)\end{aligned}$

使 $\left( \tilde{P}, \theta^{\left( i \right)} \right)$ 极大化，
则 $\begin{aligned} & F \left( \tilde{P}^{\left( i + 1 \right)}, \theta \right) ＝ E_{\tilde{P}^{\left( i + 1 \right)}} \left[ \log P \left( Y, Z | \theta \right)\right] + H \left( \tilde{P}^{\left( i + 1 \right)} \right) \\ & = \sum_{Z} log P \left(Y , Z | \theta \right) P \left( Z | Y, \theta^{\left( i \right)} \right) + H \left( \tilde{P}^{\left( i + 1 \right)} \right) \\ & =Q \left( \theta, \theta^{\left( i \right)} \right) + H \left( \tilde{P}^{\left( i + 1 \right)} \right)\end{aligned}$

固定 $\tilde{P}^{\left( i + 1 \right)}$ ，求 $\theta^{\left( i \right)}$ 使 $\left( \tilde{P}^{\left( i + 1 \right)}, \theta \right)$ 极大化，得
$\begin{aligned} \theta^{\left( i + 1 \right)} = \arg \max_{\theta} F \left( \tilde{P}^{\left( i + 1 \right)}, \theta \right) = \arg \max_{\theta} Q \left( \theta, \theta^{\left( i \right)} \right) \end{aligned}$

即，由 $E M$ 算法与 $F$ 函数的极大－极大算法的到的参数估计序列 $\theta^{\left( i \right)},i = 1, 2, \cdots,$ 是一致的。

GEM算法

$G E M$ 算法：

输入：观测数据 $Y$ ， $F$ 函数；
输出：模型参数 $\theta$

初值 $\theta^{\left(0\right)}$
第 $i + 1$ 次迭代，第1步：记 $\theta^{\left( i \right)}$ 为参数 $\theta$ 的估计值， $\tilde{P}^{\left( i \right)}$ 为函数 $\tilde{P}$ 的估计。求 $\tilde{P}^{\left( i+1 \right)}$ 使 $\tilde{P}$ 极大化 $\left( \tilde{P}^{\left( i + 1 \right)}, \theta \right)$
第2步：求 $\theta^{\left( i \right)}$ 使 $\left( \tilde{P}^{\left( i + 1 \right)}, \theta \right)$ 极大化
重复（2）和（3），直到收敛。

3、EM算法在高斯混合模型学习中的应用

高斯混合模型

高斯混合模型 $\begin{aligned} & P \left( y | \theta \right) = \sum_{k=1}^{K} \alpha_{k} \phi \left( y | \theta_{k} \right) \end{aligned}$

其中， $\alpha_{k}$ 是系数， $\alpha_{k} \geq 0$ ， $\sum_{k=1}^{K} \alpha_{k} = 1$ ; $\phi \left( y | \theta_{k} \right)$ 是高斯分布密度， $\theta_{k} = \left( \mu_{k} , \sigma_{k}^{2} \right)$ , $\begin{aligned} & \phi \left( y | \theta_{k} \right) = \dfrac{1}{\sqrt{2 \pi} \sigma_{k}} \exp \left( - \dfrac{\left( y - \mu_{k} \right)^2}{2 \sigma_{k}^{2}} \right)\end{aligned}$

称为第 $k$ 个分模型。

高斯混合模型参数估计的EM算法

假设观测数据 $\left( y_{1}, y_{2}, \cdots, y_{N} \right)$ 由高斯混合模型 $\begin{aligned} & P \left( y | \theta \right) = \sum_{k=1}^{K} \alpha_{k} \phi \left( y | \theta_{k} \right) \end{aligned}$

生成，其中， $\theta = \left( \alpha_{1}, \alpha_{2}, \cdots, \alpha_{K}; \theta_{1}, \theta_{2}, \cdots, \theta_{K}\right)$ 是模型参数。

隐变量 $\gamma_{jk}$ 是0-1变量，表示观测数据 $y_{j}$ 来自第 $k$ 个分模型 $\begin{aligned} \\& \gamma_{jk} = \begin{cases} 1,第j个观测数据来自第k个分模型\\ 0,否则\end{cases} \quad \quad \quad \quad \quad \left( j = 1, 2, \cdots, N; k = 1, 2, \cdots, K \right)\end{aligned}$

完全数据 $\begin{aligned} \\& \left( y_{j}, \gamma_{j1}, \gamma_{j2}, \cdots, \gamma_{jk}\right) \quad j = 1,2, \cdots, N\end{aligned}$

完全数据似然函数 $\begin{aligned} \\& P \left( y, \gamma | \theta \right) = \prod_{j=1}^{N} P \left( y_{j}, \gamma_{j1}, \gamma_{j2}, \cdots, \gamma_{jK} | \theta \right) \\ & = \prod_{k=1}^{K} \prod_{j=1}^{N} \left[ \alpha_{k} \phi \left( y_{j} | \theta_{k} \right)\right]^{\gamma_{jk}} \\ & = \prod_{k=1}^{K} \alpha_{k}^{n_{k}}\prod_{j=1}^{N} \left[ \phi \left( y_{j} | \theta_{k} \right)\right]^{\gamma_{jk}} \\& = \prod_{k=1}^{K} \alpha_{k}^{n_{k}}\prod_{j=1}^{N} \left[ \dfrac{1}{\sqrt{2 \pi} \sigma_{k}} \exp \left( - \dfrac{\left( y - \mu_{k} \right)^2}{2 \sigma_{k}^{2}} \right) \right]^{\gamma_{jk}} \end{aligned}$
式中， $n_{k} = \sum_{j=1}^{N} \gamma_{jk}$ 。

完全数据的对数似然函数 $\begin{aligned} & \log P \left( y, \gamma | \theta \right) = \sum_{k=1}^{K} \left\{ \sum_{j=1}^{K} \gamma_{jk} \log \alpha_{k} + \sum_{j=1}^{K} \gamma_{jk}\left[ \log \left( \dfrac{1}{ \sqrt{2 \pi} } \right) - \log \sigma_{k} - \dfrac{1}{ 2 \sigma_{k}^{2} } \left( y_{j} - \mu_{k} \right)^{2} \right]\right\} \end{aligned}$
$Q\left( \theta, \theta^{\left( i \right)} \right)$ 函数 $\begin{aligned} & Q \left( \theta , \theta^{\left( i \right)} \right) = E \left[ \log P \left( y, \gamma | \theta \right) | y, \theta^{ \left( i \right) }\right] \\ & = E \left\{ \sum_{k=1}^{K} \left\{ \sum_{j=1}^{K} \gamma_{jk} \log \alpha_{k} + \sum_{j=1}^{K} \gamma_{jk}\left[ \log \left( \dfrac{1}{ \sqrt{2 \pi} } \right) - \log \sigma_{k} - \dfrac{1}{ 2 \sigma_{k}^{2} } \left( y_{j} - \mu_{k} \right)^{2} \right]\right\}\right\} \\ & = \sum_{k=1}^{K} \left\{ \sum_{j=1}^{K} E \left( \gamma_{jk} \right) \log \alpha_{k} + \sum_{j=1}^{K} E \left( \gamma_{jk} \right)\left[ \log \left( \dfrac{1}{ \sqrt{2 \pi} } \right) - \log \sigma_{k} - \dfrac{1}{ 2 \sigma_{k}^{2} } \left( y_{j} - \mu_{k} \right)^{2} \right]\right\} \\ & =\sum_{k=1}^{K} \left\{ \sum_{j=1}^{K} \hat{\gamma}_{jk} \log \alpha_{k} + \sum_{j=1}^{K} \hat{\gamma}_{jk}\left[ \log \left( \dfrac{1}{ \sqrt{2 \pi} } \right) - \log \sigma_{k} - \dfrac{1}{ 2 \sigma_{k}^{2} } \left( y_{j} - \mu_{k} \right)^{2} \right]\right\} \end{aligned}$

其中，分模型 $k$ 对观测数据 $y_{j}$ 的响应度 $\hat{\gamma}_{jk}$ 是在当前模型参数下第 $j$ 个观测数据来自第 $k$ 个分模型的概率。 $\begin{aligned} & \hat{\gamma}_{jk} ＝ E \left( \gamma_{jk} | y, \theta \right) = P \left( \gamma_{jk} = 1 | y, \theta \right) \\ & = \dfrac{P \left( \gamma_{jk} = 1, y_{j} | \theta \right)}{ \sum_{k=1}^{K} P \left( \gamma_{jk} = 1, y_{j} | \theta \right)} \\ & = \dfrac{\alpha_{k} \phi \left( y | \theta_{k} \right) }{\sum_{k=1}^{K} \alpha_{k} \phi \left( y | \theta_{k} \right) } \quad \quad \quad \left( j = 1, 2, \cdots, N; k = 1, 2, \cdots, K \right) \end{aligned}$
求 $Q\left( \theta, \theta^{\left( i \right)} \right)$ 函数对 $\theta$ 的极大值 $\begin{aligned} \theta^{\left( i+1 \right)} = \arg \max Q\left(\theta, \theta^{\left( i \right)} \right) \end{aligned}$

得 $\begin{aligned} & \hat{\mu}_{k} = \dfrac{\sum_{j=1}^{N} \hat{\gamma}_{jk} y_{j}}{\sum_{j=1}^{N} \hat{\gamma}_{jk}}, \quad k = 1, 2, \cdots, K \\ & \hat{\sigma}_{k}^2 = \dfrac{\sum_{j=1}^{N} \hat{\gamma}_{jk} \left( y_{j} - \mu_{k}\right)^2}{\sum_{j=1}^{N} \hat{\gamma}_{jk}}, \quad k = 1, 2, \cdots, K \\ & \hat{\alpha}_{k} = \dfrac{\sum_{j=1}^{N} \hat{\gamma}_{jk} }{N}, \quad k = 1, 2, \cdots, K\end{aligned}$

高斯混合模型参数估计得EM算法：

输入：观测数据 $y_{1}, y_{2}, \cdots, y_{N}$ ，高斯混合模型；
输出：高斯混合模型参数

取参数的初始值开始迭代
$E$ 步：计算分模型 $k$ 对观测数据 $y_{i}$ 的响应度 $\begin{aligned} & \hat{\gamma}_{jk} = \dfrac{\alpha_{k} \phi \left( y | \theta_{k} \right) }{\sum_{k=1}^{K} \alpha_{k} \phi \left( y | \theta_{k} \right) } \quad \quad \quad j = 1, 2, \cdots, N; k = 1, 2, \cdots, K \end{aligned}$
$M$ 步：计算新迭代的模型参数 $\begin{aligned} & \hat{\mu}_{k} = \dfrac{\sum_{j=1}^{N} \hat{\gamma}_{jk} y_{j}}{\sum_{j=1}^{N} \hat{\gamma}_{jk}}, \quad k = 1, 2, \cdots, K \\ & \hat{\sigma}_{k}^2 = \dfrac{\sum_{j=1}^{N} \hat{\gamma}_{jk} \left( y_{j} - \mu_{k}\right)^2}{\sum_{j=1}^{N} \hat{\gamma}_{jk}}, \quad k = 1, 2, \cdots, K \\ & \hat{\alpha}_{k} = \dfrac{\sum_{j=1}^{N} \hat{\gamma}_{jk} }{N}, \quad k = 1, 2, \cdots, K\end{aligned}$
重复2.步和3.步，直到收敛。

4、概要总结

1．EM算法是含有隐变量的概率模型极大似然估计或极大后验概率估计的迭代算法。含有隐变量的概率模型的数据表示为 $\theta$ )。这里， $Y$ 是观测变量的数据， $Z$ 是隐变量的数据， $\theta$ 是模型参数。EM算法通过迭代求解观测数据的对数似然函数 ${L}(\theta)=\log {P}(\mathrm{Y} | \theta)$ 的极大化，实现极大似然估计。每次迭代包括两步：

$E$ 步，求期望，即求 $logP\left(Z | Y, \theta\right)$ )关于$ P\left(Z | Y, \theta^{(i)}\right)$)的期望：

$Q\left(\theta, \theta^{(i)}\right)=\sum_{Z} \log P(Y, Z | \theta) P\left(Z | Y, \theta^{(i)}\right)$

称为 $Q$ 函数，这里 $\theta^{(i)}$ 是参数的现估计值；

$M$ 步，求极大，即极大化 $Q$ 函数得到参数的新估计值：

$\theta^{(i+1)}=\arg \max _{\theta} Q\left(\theta, \theta^{(i)}\right)$

在构建具体的EM算法时，重要的是定义 $Q$ 函数。每次迭代中，EM算法通过极大化 $Q$ 函数来增大对数似然函数 ${L}(\theta)$ 。

2．EM算法在每次迭代后均提高观测数据的似然函数值，即

$P\left(Y | \theta^{(i+1)}\right) \geqslant P\left(Y | \theta^{(i)}\right)$

在一般条件下EM算法是收敛的，但不能保证收敛到全局最优。

3．EM算法应用极其广泛，主要应用于含有隐变量的概率模型的学习。高斯混合模型的参数估计是EM算法的一个重要应用，下一章将要介绍的隐马尔可夫模型的非监督学习也是EM算法的一个重要应用。

4．EM算法还可以解释为 $F$ 函数的极大-极大算法。EM算法有许多变形，如GEM算法。GEM算法的特点是每次迭代增加 $F$ 函数值（并不一定是极大化 $F$ 函数），从而增加似然函数值。

gkm0120

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
【统计学习方法】第9章 EM算法及其推广

EM算法（expectation maximization algorithm）是一种迭代算法，EM算法的每次迭代由两步组成：E步，求期望（expectation）；M步，求极大（maximization）。所以这一算法称为期望极大算法（expectation maximization algorithm），简称EM算法.
复制链接

扫一扫

专栏目录