EM算法的理解

K24B;

已于 2023-06-28 09:45:12 修改

阅读量57

点赞数 2

分类专栏：机器学习文章标签：算法机器学习聚类人工智能 python

于 2023-06-22 13:24:49 首次发布

本文链接：https://blog.csdn.net/weixin_64017116/article/details/131340192

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

EM算法的理解

EM算法的本质：

EM算法其实也是利用了极大似然估计的思想，只不过是极大似然估计是在观测样本不缺失的情况下，找到模型参数使得观测样本出现的概率最大。而EM算法要解决的问题是，当观测样本数据不完整（缺失）的情况下，找到模型参数使得观测样本出现的概率最大并且补全缺失的数据。与传统的极大似然估计求参数的方法不同，此时因为含有未知的数据，就不能直接极大化对数似然函数来求解模型参数。这时候EM算法就派上用场了。

EM算法概述：

EM算法解决这个问题使用的是迭代的方法，既然我们无法直接求解出模型的参数，那就先猜想缺失的数据（EM算法的E步），然后再利用观测样本和猜想的缺失数据极大化对数似然函数，求解模型的参数（EM的M步）。由于我们之前的缺失的数据是猜想来的，故第一次求解出来的参数大概率不是最终的结果，不过没关系，基于当前的参数，我们可以继续利用样本猜测缺失的数据（EM算法的E步），然后继续极大化对数似然，求解我们的模型参数（EM算法的M步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。

K-Means与EM算法的联系：

一个最直观的例子就是，之前提到过的K-Means聚类算法，EM算法和K-Means聚类算法都是迭代求解的过程，在K-Means中，每个样本所属的类就可以看成是一个隐变量，k个中心点即为我们要求解的参数。首先要初始化k个中心点，然后使得总体类内距离最小，即把样本指派到与其最近的中心所属的类中，得到聚类（E step），然后根据得到的聚类重新确定k个中心点（M step）。K-Means聚类算法

EM算法的推导

对于m个样本的观测数据 $x=(x^{(1)},x^{(2)},...x^{(m)})$ ，极大化模型的对数似然函数，找到对于的参数
$\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m logP(x^{(i)};\theta)$
但是，如果我们有未知的样本 $z=(z^{(1)},z^{(2)},...z^{(m)})$ ，就要重新考虑我们的对数似然函数：
$\theta = arg \max \limits_{\theta}\sum\limits_{i=1}^m logP(x^{(i)};\theta) = arg \max \limits_{\theta}\sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}P(x^{(i)}， z^{(i)};\theta)$
此时，我们可以利用Jensen不等式变形为：
$\begin{align} \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}P(x^{(i)}， z^{(i)};\theta) & = \sum\limits_{i=1}^m log\sum\limits_{z^{(i)}}Q_i(z^{(i)})\frac{P(x^{(i)}， z^{(i)};\theta)}{Q_i(z^{(i)})} \\ & \geq \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log\frac{P(x^{(i)}， z^{(i)};\theta)}{Q_i(z^{(i)})} \end{align}\tag{1}$
其中 $Q_i(z^{(i)})$ 代表丢失变量z的概率。

Jensen不等式是这样定义的：
$\geq E(f(x))\;\; 如果f(x) 是凹函数 \tag{2}$
上面公式的f(x)就是log函数。

此时如果要满足Jensen不等式的等号，当且仅当：(2)式中的x为常数，对应到公式（1）中，即：
$\frac{P(x^{(i)}， z^{(i)};\theta)}{Q_i(z^{(i)})} =c, c为常数$
因为：
$\sum\limits_{z}Q_i(z^{(i)}) =1$
从上面两式，我们可以得到：
$Q_i(z^{(i)}) = \frac{P(x^{(i)}， z^{(i)};\theta)}{\sum\limits_{z}P(x^{(i)}， z^{(i)};\theta)} = \frac{P(x^{(i)}， z^{(i)};\theta)}{P(x^{(i)};\theta)} = P( z^{(i)}|x^{(i)};\theta))$
到此，我们便求出了丢失变量 $z$ 的概率。

有了 $Q_i(z^{(i)})$ ，怎么更新模型的参数使得对数似然函数逐渐增加呢？（M-step）

我们需要最大化似然函数，即（1）式，也就是最大化（1）式中的下界，把其中的常数想去掉，即最大化：
$\max \limits_{\theta} \sum\limits_{i=1}^m \sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}, z^{(i)};\theta)}$
知道了 $M - s t e p$ ，那么 $E - s t e p$ 呢， $E - s t e p$ 即计算联合分布的条件概率期望：
$Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)}，\theta^{j}))$

$L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}， z^{(i)};\theta)}\tag{3}$

EM算法的流程：

输入观测数据 $x=(x^{(1)},x^{(2)},...x^{(m)})$ ， $z=(z^{(1)},z^{(2)},...z^{(m)})$ ，联合分布 $;\theta)$ ，条件分布 $\theta)$ ，最大迭代次数 $J$ ，

初始化模型的参数 $\theta$ 为 $\theta_0$
for j from 1 to J开始EM算法迭代：

E -step：计算联合分布的条件概率期望

$Q_i(z^{(i)}) = P( z^{(i)}|x^{(i)}，\theta^{j}))\\ L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}Q_i(z^{(i)})log{P(x^{(i)}， z^{(i)};\theta)}$

M-step：极大化 $L(\theta, \theta^{j})$ ，得到 $\theta^{j+1}$ 。
$\theta^{j+1} = arg \max \limits_{\theta}L(\theta, \theta^{j})$
如果 $\theta^{j+1}$ 收敛，则停止迭代，否则回到E-step继续迭代。

EM算法收敛性的思考:

（1）EM算法能够收敛吗？

（2）EM算法能够收敛到全局最大值么？

第一个问题：EM算法要想要收敛而且想要达到最大值，则必须保证EM算法迭代过程中对数似然函数是一直增大即：
$\sum\limits_{i=1}^m logP(x^{(i)};\theta^{j+1}) \geq \sum\limits_{i=1}^m logP(x^{(i)};\theta^{j})$
由于：
$L(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)};\theta^{j}))log{P(x^{(i)}， z^{(i)};\theta)}$
令：
$H(\theta, \theta^{j}) = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)};\theta^{j}))log{P( z^{(i)}|x^{(i)};\theta)}$
上面两式子相减得到：
$\sum\limits_{i=1}^m logP(x^{(i)};\theta) = L(\theta, \theta^{j}) - H(\theta, \theta^{j})$
在上式中分别取θ为 $θ^j$ 和 $θ^{j+1}$ ，并相减得到：
$\sum\limits_{i=1}^m logP(x^{(i)};\theta^{j+1}) - \sum\limits_{i=1}^m logP(x^{(i)};\theta^{j}) = [L(\theta^{j+1}, \theta^{j}) - L(\theta^{j}, \theta^{j}) ] -[H(\theta^{j+1}, \theta^{j}) - H(\theta^{j}, \theta^{j}) ]$
要证明EM算法的收敛性，我们只需要证明上式的右边是非负的即可。

由于 $\theta^{j+1}$ 使得 $L(\theta, \theta^{j})$ 极大，所以
$L(\theta^{j+1}, \theta^{j}) - L(\theta^{j}, \theta^{j}) \geq 0$
所以只需要证明右边式子小于0即可：
$\begin{align} H(\theta^{j+1}, \theta^{j}) - H(\theta^{j}, \theta^{j}) & = \sum\limits_{i=1}^m\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)};\theta^{j})log\frac{P( z^{(i)}|x^{(i)};\theta^{j+1})}{P( z^{(i)}|x^{(i)};\theta^j)} \\ & \leq \sum\limits_{i=1}^mlog(\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)};\theta^{j})\frac{P( z^{(i)}|x^{(i)};\theta^{j+1})}{P( z^{(i)}|x^{(i)};\theta^j)}) \\ & = \sum\limits_{i=1}^mlog(\sum\limits_{z^{(i)}}P( z^{(i)}|x^{(i)};\theta^{j+1})) = 0 \end{align}$
其中第（4）式用到了Jensen不等式，只不过和第二节的使用相反而已，第（5）式用到了概率分布累积为1的性质。

至此，我们得到了： $\sum\limits_{i=1}^m logP(x^{(i)};\theta^{j+1}) - \sum\limits_{i=1}^m logP(x^{(i)};\theta^{j}) \geq 0$ 。证明了EM算法的收敛性。

从上面的推导可以看出，EM算法可以保证收敛到一个稳定点，但是却不能保证收敛到全局的极大值点，因此它是局部最优的算法，当然，如果我们的优化目标 $L(\theta, \theta^{j})$ 是凸的，则EM算法可以保证收敛到全局最大值，这点和梯度下降法这样的迭代算法相同。

K24B;

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
EM算法的理解

EM算法解决这个问题使用的是迭代的方法，既然我们无法直接求解出模型的参数，那就先猜想缺失的数据（EM算法的E步），然后再利用观测样本和猜想的缺失数据极大化对数似然函数，求解模型的参数（EM的M步）。由于我们之前的缺失的数据是猜想来的，故第一次求解出来的参数大概率不是最终的结果，不过没关系，基于当前的参数，我们可以继续利用样本猜测缺失的数据（EM算法的E步），然后继续极大化对数似然，求解我们的模型参数（EM算法的M步)。以此类推，不断的迭代下去，直到模型分布参数基本无变化，算法收敛，找到合适的模型参数。
复制链接

扫一扫

专栏目录