EM算法理解

最新推荐文章于 2023-12-20 10:16:34 发布

LyonWu4

最新推荐文章于 2023-12-20 10:16:34 发布

阅读量519

点赞数 2

分类专栏：算法文章标签：算法优化

本文链接：https://blog.csdn.net/wzl45678959/article/details/54381460

版权

算法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前言

前段时间学习 HMM-GMM 模型，对其优化算法“EM 算法”的理解不够透彻。经过反复查找资料学习，现将自己的理解进行整理，用以巩固。这里大部分公式推导都源自 [1] 中第二章内容。

辅助函数

EM算法是解决不完全数据下的最大似然估计的算法。从原理上讲，它通过逐步迭代，将最大化不完全数据的对数似然，转化为最大化完全数据的对数似然的期望。假设一个分布中分别有隐变量 $S$ 和显变量 $X$ ，数据中只有 $X$ 可观测，这就是不完全的数据。如果可以观测 $(S, X)$ ，则为完全数据。要估计包含隐变量的分布，需要最大化的目标就是 $p(X|\Phi)$ 。采用最大似然估计，最大化下式：

P (Φ) = log p (X | Φ) = l o g \sum S p (S, X | Φ)

$\begin{equation} P(\Phi)=\log p(X|\Phi)=log\sum_S p(S,X|\Phi) \end{equation}$
最右边的式子中 log sum 是无法分解的，所以无法像常规最大似然算法一样直接求解。于是，EM算法构造了如下的辅助函数：

Q (Φ | Φ (0)) = \sum S p (S | X, Φ (0)) log p (X, S | Φ)

$\begin{equation} Q(\Phi|\Phi^{(0)})=\sum_S p(S|X,\Phi^{(0)})\log p(X,S|\Phi) \end{equation}$
这个辅助函数从形式上来看是把 log 和 sum 对调了一下，然后 sum 的每一项乘上一个系数，这个系数就是给定观测数据

X $X$ 以及旧模型

Φ(0) $\Phi^{(0)}$ 下隐变量

S $S$ 的概率。这就是完全数据的对数似然的期望，由于 sum log 是可分解的，所以辅助函数

Q $Q$ 更容易优化。

辅助函数分析

那么优化这个辅助函数 $Q$ 与优化 $P$ 有什么关系呢？下面就来分析一下 $P$ 和 $Q$ 之间的关系。
首先，来看一下贝叶斯公式的变形：

p (X | Φ) = p ( S , X | Φ ) p ( S | X Φ )

$\begin{equation} p(X|\Phi)=\frac{p(S,X|\Phi)}{p(S|X\Phi)} \end{equation}$
对等式两边取 log 得到：

log p (X | Φ) = log p (S, X | Φ) - log p (S | X, Φ)

$\begin{equation} \log p(X|\Phi)=\log p(S,X|\Phi)-\log p(S|X,\Phi) \end{equation}$
这个式子的等号右边与

Q $Q$ 有些接近了，少了期望，多了一个似然项。先把期望加进去，分别在上式两边对给定观测

X $X$ 及旧模型

Φ(0) $\Phi^{(0)}$ 下的隐变量

S $S$ 求期望，如下：

E [log p (X | Φ)] S | X, Φ (0) = E [log p (X, S | Φ)] S | X, Φ (0) - E [log p (S | X, Φ)] S | X, Φ (0)

$\begin{equation} E[\log p(X|\Phi)]_{S|X,\Phi^{(0)}}=E[\log p(X,S|\Phi)]_{S|X,\Phi^{(0)}}-E[\log p(S|X,\Phi)]_{S|X,\Phi^{(0)}} \end{equation}$
等式左边即等于

logp(X|Φ) $\log p(X|\Phi)$ ，因为

logp(X|Φ) $\log p(X|\Phi)$ 与

p(S|X,Φ(0)) $p(S|X,\Phi^{(0)})$ 无关，所以取期望就为其本身。上面的式子与

Q $Q$ 只差多余的第二项了。上面的式子如果展开看着比较晕，先简化一下，定义：

Q (Φ | Φ (0)) = E [log p (X, S | Φ)] S | X, Φ (0) = \sum S p (S | X, Φ (0)) log p (X, S | Φ)

$\begin{equation} Q(\Phi|\Phi^{(0)})=E[\log p(X,S|\Phi)]_{S|X,\Phi^{(0)}}=\sum_S p(S|X,\Phi^{(0)})\log p(X,S|\Phi) \end{equation}$

H (Φ | Φ (0)) = E [log p (S | X, Φ)] S | X, Φ (0) = \sum S p (S | X, Φ (0)) log p (S | X, Φ)

$\begin{equation} H(\Phi|\Phi^{(0)})=E[\log p(S|X,\Phi)]_{S|X,\Phi^{(0)}}=\sum_S p(S|X,\Phi^{(0)})\log p(S|X,\Phi) \end{equation}$
上面的

Q $Q$ 就是辅助函数，而

H $H$ 就是多出来的那项。到目前为止可以得到：

P (Φ) = log p (X | Φ) = Q (Φ | Φ (0)) - H (Φ | Φ (0))

$\begin{equation} P(\Phi)=\log p(X|\Phi)=Q(\Phi|\Phi^{(0)})-H(\Phi|\Phi^{(0)}) \end{equation}$
这就是所要优化的目标，与EM算法所构造的辅助函数

Q $Q$ 之间的关系。接着就来看一下最大化

Q $Q$ 与最大化

P $P$ 之间的关系。在上面的式子中一直假设

Φ(0) $\Phi^{(0)}$ 为优化前的旧模型，

Φ $\Phi$ 为优化后的新模型。在这个假设下，对于相同观测数据，新模型的目标函数与旧模型的目标函数分别为

logp(X|Φ) $\log p(X|\Phi)$ ，

logp(X|Φ)(0) $\log p(X|\Phi)^{(0)}$ ，两者相减得到：

log p (X | Φ) - log p (X | Φ (0)) = [Q (Φ | Φ (0)) - Q (Φ (0) | Φ (0))] - [H (Φ | Φ (0)) - H (Φ (0) | Φ (0))]

$\begin{equation} \begin{aligned} &\log p(X|\Phi)-\log p(X|\Phi^{(0)}) \\ &=\left[Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)})\right]-\left[H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})\right] \\ \end{aligned} \end{equation}$
对于等号右边的第二项，可以证明它是小于等于0的，过程如下：

H (Φ | Φ (0)) - H (Φ (0) | Φ (0)) = \sum S p (S | X, Φ (0)) log p (S | X, Φ) - \sum S p (S | X, Φ (0)) log p (S | X, Φ (0)) = \sum S p (S | X, Φ (0)) log p ( S | X , Φ ) p ( S | X , Φ ( 0 ) )

$\begin{equation} \begin{aligned} H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})&=\sum_S p(S|X,\Phi^{(0)})\log p(S|X,\Phi)-\sum_S p(S|X,\Phi^{(0)})\log p(S|X,\Phi^{(0)}) \\ &=\sum_S p(S|X,\Phi^{(0)})\log \frac{p(S|X,\Phi)}{p(S|X,\Phi^{(0)})} \end{aligned} \end{equation}$
由 Jenson 不等式：

\sum i a i log x i \leq log \sum i a i x i 对 于 a i > 0, \sum i a i = 1

$\begin{equation} \begin{aligned} &\sum_i a_i \log x_i \leq \log \sum_i a_i x_i \\ &对于~~ a_i>0, \sum_i a_i=1 \end{aligned} \end{equation}$
可得：

H (Φ | Φ (0)) - H (Φ (0) | Φ (0)) \leq \sum S p (S | X, Φ (0)) p ( S | X , Φ ) p ( S | X , Φ ( 0 ) ) = log \sum S p (S | X, Φ) = 0

$\begin{equation} \begin{aligned} H(\Phi|\Phi^{(0)})-H(\Phi^{(0)}|\Phi^{(0)})& \leq \sum_S p(S|X,\Phi^{(0)}) \frac{p(S|X,\Phi)}{p(S|X,\Phi^{(0)})}\\ &=\log \sum_S p(S|X,\Phi)\\ &=0 \end{aligned} \end{equation}$
所以，最后得到如下不等式：

log p (X | Φ) - log p (X | Φ (0)) \geq Q (Φ | Φ (0)) - Q (Φ (0) | Φ (0))

$\begin{equation} \begin{aligned} \log p(X|\Phi)-\log p(X|\Phi^{(0)}) \geq Q(\Phi|\Phi^{(0)})-Q(\Phi^{(0)}|\Phi^{(0)}) \end{aligned} \end{equation}$
这个式子的物理含义就是，如果对

Q $Q$ 进行优化，得到更大

Q $Q$ 。那么与之相应的

P $P$ 也会比旧的

P $P$ 大，而且新

P $P$ 与旧

P $P$ 之间的差值比新

Q $Q$ 与旧

Q $Q$ 之间的差值还要大。所以优化

Q $Q$ 也会的到相应的

P $P$ 的优化。通过迭代的方式，随着

Q $Q$ 的优化，最终

P $P$ 会收敛于某个局部最优点。一次迭代过程中，先对目标函数取期望 (Expectation)，然后优化取期望后的辅助函数 (Maximization)，这就是EM算法名字的由来。

参考文献

[1] 鄢志杰. 声学模型区分性训练及其在自动语音识别中的应用[D]. 中国科学技术大学, 2008.

LyonWu4

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
EM算法理解

辅助函数EM算法是解决不完全数据下的最大似然估计的算法。从原理上讲，它通过逐步迭代，将最大化不完全数据的对数似然，转化为最大化完全数据的对数似然的期望。假设一个分布中分别有隐变量 SS 和显变量 XX，数据中只有 XX 可观测，这就是不完全的数据。如果可以观测(S,X)(S, X)，则为完全数据。要估计包含隐变量的分布，需要最大化的目标就是p(X|Φ)p(X|\Phi)。采用最大似然估计，最大
复制链接

扫一扫

专栏目录