EM算法（expectation maximization algorithm）含有隐变量的概率模型参数的极大似然估计方法

HadesZ~

已于 2022-02-15 19:47:10 修改

阅读量1.1k

点赞数

分类专栏：机器学习笔记文章标签：算法概率论机器学习

于 2022-02-14 21:57:09 首次发布

本文链接：https://blog.csdn.net/xunyishuai5020/article/details/122929868

版权

机器学习笔记专栏收录该内容

11 篇文章 0 订阅

订阅专栏

引言

概率模型的目的是最大化标签在特征条件下的概率分布 $\theta)$ 。一般来讲，我们可根据给定样本的标签 $y$ 和特征 $X$ 数据，直接使用极大似然估计法或贝叶斯估计法来估计模型参数 $\theta$ 。

但当标签 $y$ 是不可观测的隐变量（hidden variable）时，极大似然估计法或贝叶斯估计法失效，需要使用期望极大算法（expectation maximization algorithm, EM）对模型参数进行极大似然估计。

EM算法推导

一个含有隐变量的概率模型，目标变为是最大化观测数据（不完全数据） $X$ 关于模型参数的对数似然函数：

$\hat{\theta} = \argmax_{\theta} L(\theta) \tag{1}$ $L(\theta) = log[P(X | \theta)] = log\begin{bmatrix} \sum_{Y} P(X, Y | \theta) \end{bmatrix} = log\begin{bmatrix} \sum_{Y} P(X | Y, \theta)P(Y|\theta) \end{bmatrix} \tag{2}$
EM算法是通过迭代来逐步近似极大化 $L(\theta)$ 的，假设在第 $i$ 次迭代后 $\theta$ 的估计值是 $\theta^{(i)}$ ，所以前后两次迭代对数似然函数的差值 $\Delta L(\theta)$ 等于：

$\Delta L(\theta) = L(\theta) - L(\theta^{(i)}) = log\begin{bmatrix} \sum_{Y} P(X | Y, \theta)P(Y|\theta) \end{bmatrix} - logP(X | \theta^{(i)})$ $L(\theta) - L(\theta^{(i)}) = log\begin{bmatrix} \sum_{Y} P(X | Y, \theta)P(Y|\theta) \end{bmatrix} - log\begin{bmatrix} \sum_{Y}P(X, Y | \theta^{(i)}) \end{bmatrix}$ $L(\theta) - L(\theta^{(i)}) = log\begin{bmatrix} \sum_{Y} P(X | Y, \theta)P(Y|\theta) \end{bmatrix} - log\begin{bmatrix} \sum_{Y}P(Y | X, \theta^{(i)})P(X | \theta^{(i)}) \end{bmatrix} \tag{3}$

利用Jensen不等式¹得到 $\Delta L(\theta)$ 的下界：

$L(\theta) - L(\theta^{(i)}) = log\begin{bmatrix} \sum_{Y} P(X | Y, \theta)P(Y|\theta) \end{bmatrix} - log\begin{bmatrix} \sum_{Y}P(Y | X, \theta^{(i)})P(X | \theta^{(i)}) \end{bmatrix}$ $L(\theta) - L(\theta^{(i)}) \ge \sum_{Y}[ P(Y|X, \theta^{(i)}) \cdot log( \frac{P(X | Y, \theta)P(Y|\theta)}{P(Y|X, \theta^{(i)})} ) ] - \sum_{Y}[ P(Y | X, \theta^{(i)}) \cdot logP(X | \theta^{(i)})] \tag{4}$
合并同类项后， $式 (4)$ 中 $\sum_{Y}[ P(Y|X, \theta^{(i)}) \cdot log( \frac{P(X | Y, \theta)P(Y|\theta)}{P(Y|X, \theta^{(i)})} ) ] - \sum_{Y}[ P(Y | X, \theta^{(i)}) \cdot logP(X | \theta^{(i)})]$ 可简化为：

$\sum_{Y} P(Y|X, \theta^{(i)}) \cdot log[ \frac{P(X | Y, \theta)P(Y|\theta)}{P(Y|X, \theta^{(i)})P(X | \theta^{(i)})} ] \tag{5}$ 所以 $式 (4)$ 可简化为：

$L(\theta) - L(\theta^{(i)}) \ge \sum_{Y} P(Y|X, \theta^{(i)}) \cdot log[ \frac{P(X | Y, \theta)P(Y|\theta)}{P(Y|X, \theta^{(i)})P(X | \theta^{(i)})} ] \tag{6}$

令
$B(\theta, \theta^{(i)}) = L(\theta^{(i)}) + \sum_{Y}[ P(Y|X, \theta^{(i)}) \cdot log( \frac{P(X | Y, \theta)P(Y|\theta)}{P(Y|X, \theta^{(i)})P(X | \theta^{(i)})} )] \tag{7}$

则
$L(\theta) \ge B(\theta, \theta^{(i)}) \tag{8}$

因此，任何可以使 $B(\theta, \theta^{(i)})$ 增大的 $\theta$ 也可以使 $L(\theta)$ 增大，所以模型参数的估计可变换为：
$\hat{\theta} = \theta^{(i+1)} = \argmax_{\theta} B(\theta, \theta^{(i)})$ $\hat{\theta} = \theta^{(i+1)} = \argmax_{\theta} L(\theta^{(i)}) + \sum_{Y}[ P(Y|X, \theta^{(i)}) \cdot log( \frac{P(X | Y, \theta)P(Y|\theta)}{P(Y|X, \theta^{(i)})P(X | \theta^{(i)})} )] \tag{9}$ 可见上式十分复杂，我们不妨省去一些对参数估计没有影响的常数项，以简化 $B(\theta, \theta^{(i)})$ 表达式。由此模型参数的极大似然估计可简写成如下所示：

$\hat{\theta} = \theta^{(i+1)} = \argmax_{\theta} \sum_{Y}[ P(Y|X, \theta^{(i)}) log( P(X | Y, \theta)P(Y|\theta)) ]$ $\hat{\theta} = \theta^{(i+1)} = \argmax_{\theta} \sum_{Y}[P(Y|X, \theta^{(i)}) \cdot logP(X, Y | \theta)] \tag{10}$
$式 (10)$ 中 $\sum_{Y}[P(Y|X, \theta^{(i)}) \cdot logP(X, Y | \theta)]$ 可定义为 $Q$ 函数，它表示完全数据的对数似然函数 $\theta)$ 在给定观测数据 $X$ 和当前参数 $\theta^{(i)}$ 下对不可观测数据 $Y$ 的条件概率分布 $\theta^{(i)})$ 的期望 $E_{Y}[logP(X, Y | \theta) | X, \theta^{(i)}]$ 。所以：

$Q(\theta, \theta^{(i)}) = E_{Y}[logP(X, Y | \theta) | X, \theta^{(i)}] = \sum_{Y}[P(Y|X, \theta^{(i)}) \cdot logP(X, Y | \theta)] \tag{11}$

$log\begin{bmatrix} \sum_{j} \lambda_{j}y_{j} \end{bmatrix} \ge \sum_{j} \lambda_{j}log(y_{j}), \ \ \ 其中要求\ \ \lambda_{j} \ge 0 \ 且\ \sum_{j} \lambda_{j}=1$ ，更多内容可参考文章：EM算法(Expectation Maximization) ↩︎

HadesZ~

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
EM算法（expectation maximization algorithm）含有隐变量的概率模型参数的极大似然估计方法

引言概率模型的目的是最大化标签在特征条件下的概率分布 P(y∣X;θ)P(y | X; \theta)P(y∣X;θ)。一般来讲，我们可根据给定样本的标签 yyy 和特征 XXX 数据，直接使用极大似然估计法或贝叶斯估计法来估计模型参数 θ\thetaθ。但当标签 yyy 是不可观测的隐变量（hidden variable）时，极大似然估计法或贝叶斯估计法失效，需要使用期望极大算法（expectation maximization algorithm, EM）对模型参数进行极大似然估计。EM算法推导
复制链接

扫一扫