EM算法

最新推荐文章于 2021-09-23 18:13:20 发布

原创最新推荐文章于 2021-09-23 18:13:20 发布

· 459 阅读

0 ·

版权

文章标签：

#机器学习 #算法

EM算法用于寻找含潜在分布的参数的最大似然估计。在高斯混合模型（GMM）中，EM算法通过不断迭代优化，最大化完全对数似然，从而估计模型参数。E-step计算期望，M-step进行参数更新。GMM是多个高斯分布的组合，可用于复杂分布的拟合。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

EM算法是一种通过观测到的数据，找到含潜在分布的参数的最大似然估计(MLE,Maximum Likelihood Estimate)的通用方法。一般我们称观测到的数据是incomplete的，或有missing values。

那EM算法如果要成功得到MLE，需要将不可观测的complete data和incomplete data联系起来，这样complete data可以被未知参数的函数所描述，MLE求解也变的简单。

EM框架中，我们通常将 $\log p(\mathbf{X} \mid \theta)$ 称为不完全对数似然（incomplete log data likelihood)，而 $\log\ p(\mathbf{X},\mathbf{Z}|\theta)$ 称为完全对数似然(complete log data likelihood )，EM算法的目标是通过最大化完全对数似然找到参数的合理估计。然而由于我们对隐变量一无所知，因此没办法直接最大化完全对数似然，替代方案是最大化完全对数似然的后验数学期望，这里先给出该算法的参数迭代更新式：

θ (g + 1) = arg max θ \int Z l o g p (X, Z | θ) \cdot p (Z | X, θ (g)) d Z (1)

$\theta^{(g+1)} = \arg\max_{\theta} \int_{\mathbf{Z}} log \ p(\mathbf{X},\mathbf{Z}|\theta)\cdot p(\mathbf{Z}|\mathbf{X},\theta^{(g)}) d\mathbf{Z} \qquad(1)$

公式推导和解释

求参数 $\theta$ 的最大似然：

θ M L E = a r g max θ (L (θ)) = a r g max θ (l o g [p (X ∣ θ)])

$\theta^{MLE}=arg\max_\theta(L(\theta))=arg\max_\theta(log[p(\mathbf{X}\mid \theta)])$
需要一些trick，上面公式中的

Z $\mathbf{Z}$ 成为模型的latent variable
要证明Eq(1)的EM迭代公式是有效的，那么就需要确保

log p (X ∣ θ (g + 1)) ⩾ log p (X ∣ θ (g))

$\log p(\mathbf{X}\mid \theta^{(g+1)}) \geqslant \log p(\mathbf{X}\mid \theta^{(g)})$
使得最终结果收敛。
所以先看如下证明，已知：

log p (X | θ) = log p (X, Z | θ) - log p (Z | X, θ) (2)

$\log p(\mathbf{X}| \theta)=\log p(\mathbf{X},\mathbf{Z}|\theta)-\log p(\mathbf{Z}|\mathbf{X},\theta)\qquad (2)$
Eq(2)式子两边同时对分布

p(Z|X,θ(g)) $p(\mathbf{Z}|\mathbf{X},\theta^{(g)})$ 在latent变量

Z $\mathbf{Z}$ 上求积分。

左 边 = \int Z log p (X | θ) p (Z | X, θ (g)) d Z = log p (X | θ)

$左边=\int_{\mathbf{Z}}\log p(\mathbf{X}|\theta)p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z}=\log p(\mathbf{X}|\theta)$

右 边 = \int Z log p (X, Z | θ) p (Z | X, θ (g)) d Z                    Q (θ, θ (g)) - \int Z log p (Z | X, θ) p (Z | X, θ (g)) d Z                    H (θ, θ (g))

$右边=\underbrace{\int_{\mathbf{Z}}\log p(\mathbf{X},\mathbf{Z}|\theta)p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z}}_{Q(\theta,\theta^{(g)})} -\underbrace{\int_{\mathbf{Z}}\log p(\mathbf{Z}|\mathbf{X},\theta)p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z}}_{H(\theta,\theta^{(g)})}$
其中Q的形式和Eq(1)是一样的，如果参数从

θ(g) $\theta^{(g)}$ 迭代到

θ(g+1) $\theta^{(g+1)}$ ，那么

Q(θ,θ(g+1))⩾Q(θ,θ(g)) $Q(\theta,\theta^{(g+1)})\geqslant Q(\theta,\theta^{(g)})$ ，那么为什么最大化这个Q就可以保证Eq(2)的左边也能增大呢，如果要确保这个关系就需要证明

H(θ,θ(g+1))⩽H(θ,θ(g)) $H(\theta,\theta^{(g+1)})\leqslant H(\theta,\theta^{(g)})$
我们知道第g次迭代的时候，

θ(g) $\theta^{(g)}$ 使得H值取到最大，即

a r g max θ H (θ, θ (g)) = a r g max θ \int Z log p (Z | X, θ) p (Z | X, θ (g)) d Z = θ (g)

$arg \max_\theta H(\theta,\theta^{(g)})=arg\max_\theta\int_{\mathbf{Z}}\log p(\mathbf{Z}|\mathbf{X},\theta)p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z}=\theta^{(g)}$
证明对于任意的

θ $\theta$ （里面当然也包括了

θ(g+1) $\theta^{(g+1)}$ ），

H(θ,θ(g))−H(θ,θ(g))⩾0 $H(\theta,\theta^{(g)})- H(\theta,\theta^{(g)})\geqslant0$

H (θ, θ (g)) - H (θ, θ (g)) = \int Z log p (Z | X, θ (g)) p (Z | X, θ (g)) d Z - \int Z log p (Z | X, θ) p (Z | X, θ (g)) d Z = \int Z log p ( Z | X , θ ( g ) ) p ( Z | X , θ ) p (Z | X, θ (g)) d Z = - \int Z log p ( Z | X , θ ) p ( Z | X , θ ( g ) ) p (Z | X, θ (g)) d Z ⩾ - log \int Z p ( Z | X , θ ) p ( Z | X , θ ( g ) ) p (Z | X, θ (g)) d Z = - log \int Z p (Z | X, θ) d Z = - log (1) = 0

$\begin{split} H(\theta,\theta^{(g)})- H(\theta,\theta^{(g)}) & =\int_{\mathbf{Z}}\log p(\mathbf{Z}|\mathbf{X},\theta^{(g)})p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z}-\int_{\mathbf{Z}}\log p(\mathbf{Z}|\mathbf{X},\theta)p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z} \\ & = \int_{\mathbf{Z}}\log \frac{p(\mathbf{Z}|\mathbf{X},\theta^{(g)})}{p(\mathbf{Z}|\mathbf{X},\theta)}p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z} \\ &= -\int_{\mathbf{Z}}\log \frac{p(\mathbf{Z}|\mathbf{X},\theta)}{p(\mathbf{Z}|\mathbf{X},\theta^{(g)})}p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z} \\ &\geqslant -\log\int_{\mathbf{Z}}\frac{p(\mathbf{Z}|\mathbf{X},\theta)}{p(\mathbf{Z}|\mathbf{X},\theta^{(g)})}p(\mathbf{Z}|\mathbf{X},\theta^{(g)})d\mathbf{Z} \\ & = -\log \int _{\mathbf{Z}}p(\mathbf{Z}|\mathbf{X},\theta)d\mathbf{Z}\\ &=-\log(1) = 0 \end{split}$
其中，上面推导过程

⩾ $\geqslant$ 的出现是由于Jensus inequality的性质得到的：函数值的期望大于等于期望的函数值。这个性质仅在convex function下成立。

高斯混合模型(GMM)

高斯混合模型（Gaussian Mixed Model）指的是多个高斯分布函数的线性组合，理论上GMM可以拟合出任意类型的分布，通常用于解决同一集合下的数据包含多个不同的分布的情况（或者是同一类分布但参数不一样，或者是不同类型的分布，比如正态分布和伯努利分布）。

p (X | θ) = \sum l = 1 k α l  (X | μ l, σ l) \sum l = 1 k α l = 1

$p(\mathbf{X}|\theta)=\sum_{l=1}^{k}\alpha_l\mathcal{N}(\mathbf{X}|\mu_l,\sigma_l)\qquad \sum_{l=1}^k\alpha_l=1$

a n d θ = {α 1, \dots \dots, α k, μ 1, \dots \dots, μ k, σ 1, \dots \dots, σ k}

$and\ \theta=\{\alpha_1,……,\alpha_k,\mu_1,……,\mu_k,\sigma_1,……,\sigma_k\}$
对于数据集

X={x1,……,xn} $\mathbf{X}=\{x_1,……,x_n\}$ ，引入latent变量

Z={z1,……,zn} $\mathbf{Z}=\{z_1,……,z_n\}$ ，其中每个

zi $z_i$ 表示

xi $x_i$ 属于哪个mixture component。

重新看Eq(1)，要通过EM算法来解决一个高斯混合模型的参数估计问题，需要定义 $p(\mathbf{X},\mathbf{Z}|\theta)$ 和 $p(\mathbf{Z}|\mathbf{X},\theta)$ 。

note:下面公式中出现的 $l$ , $z_i$ 是等价的

p (X, Z | θ) = \sum l = 1 k α l  (X | μ l, σ l) = \prod i = 1 n \sum l = 1 k α l  (x i | μ l, σ l)

$p(\mathbf{X},\mathbf{Z}|\theta)=\sum_{l=1}^{k}\alpha_l\mathcal{N}(\mathbf{X}|\mu_l,\sigma_l)=\prod_{i=1}^{n}\sum_{l=1}^{k}\alpha_l\mathcal{N}(x_i|\mu_l,\sigma_l)$

定义 $p(\mathbf{X},\mathbf{Z}|\theta)$ ：

$p (X, Z | θ) = \prod i = 1 n p (x i, z i | θ) = \prod i = 1 n p (x i, z i | θ)       (μ z i, σ z i) p (z i | θ) ⏟ α z i = \prod i = 1 n α z i  (μ z i, σ z i)$ $p(\mathbf{X},\mathbf{Z}|\theta)=\prod_{i=1}^{n}p(x_i,z_i|\theta)=\prod_{i=1}^{n} \underbrace{p(x_i,z_i|\theta)}_{\mathcal{N}(\mu_{z_i},\sigma_{z_i})}\underbrace{p(z_i|\theta)}_{\alpha_{z_i}}=\prod_{i=1}^{n} \alpha_{z_i}\mathcal{N}(\mu_{z_i},\sigma_{z_i})$
可以看到 $p(\mathbf{X},\mathbf{Z}|\theta)$ 比 $p(\mathbf{X}|\theta)$ 形式更简单。
定义 $p(\mathbf{Z}|\mathbf{X},\theta)$

$p (Z | X, θ) = \prod i = 1 n p (z i | x i, θ) = \prod i = 1 n α z i  ( μ z i , σ z i ) \sum k l = 1 α l  ( μ l , σ l )$ $p(\mathbf{Z}|\mathbf{X},\theta)=\prod_{i=1}^{n}p(z_i|x_i,\theta)=\prod_{i=1}^{n}\frac{\alpha_{z_i}\mathcal{N}(\mu_{z_i},\sigma_{z_i})}{\sum_{l=1}^k\alpha_l\mathcal{N}(\mu_l,\sigma_l)}$

那么，现在就可以把高斯混合模型放在Eq(1)所示的EM算法框架里了

θ (g + 1) = arg max θ \int Z l o g p (X, Z | θ) \cdot p (Z | X, θ (g)) d Z                      E x p e c t a t i o n                            M a x m i z a t i o n

$\theta^{(g+1)} = \overbrace{\arg\max_{\theta} \underbrace{\int_{\mathbf{Z}} log \ p(\mathbf{X},\mathbf{Z}|\theta)\cdot p(\mathbf{Z}|\mathbf{X},\theta^{(g)}) d\mathbf{Z}}_{Expectation}} ^{Maxmization}$

E-step:
由于 $\mathbf{Z}=\{z_1,……,z_n\}$ 是离散变量，所以积分形式变为求和形式（注意 $z_i$ 的取值有k个，n个样本每个样本都有对应的 $z_i$ ）
$\sum z 1 = 1 k \sum z 2 = 1 k \dots \dots \sum z n = 1 k ⎛ ⎝ ⎜ ⎜ ⎜ ⎜ ⎜ \sum i = 1 n log α z i + log  (x i | μ z i, σ z i)                  f i (z i) \prod i = 1 n p (z i | x i, θ (g))          p (Z) ⎞ ⎠ ⎟ ⎟ ⎟ ⎟ ⎟ (3)$ $\sum_{z_1=1}^{k}\sum_{z_2=1}^{k}……\sum_{z_n=1}^{k} \left( \sum_{i=1}^{n}\underbrace{\log\alpha_{z_i}+\log \mathcal{N}(x_i|\mu_{z_i},\sigma_{z_i})}_{f_i(z_i)}\underbrace{\prod_{i=1}^{n}p(z_i|x_i,\theta^{(g)})}_{p(\mathbf{Z})} \right )\qquad(3)$
拆开：
$= \sum z 1 = 1 k \sum z 2 = 1 k \dots \dots \sum z n = 1 k (f 1 (z 1) + f 2 (z 2) + \dots \dots + f n (z n)) \cdot p (z 1, \dots \dots, z n)$ $=\sum_{z_1=1}^{k}\sum_{z_2=1}^{k}……\sum_{z_n=1}^{k}(f_1(z_1)+f_2(z_2)+……+f_n(z_n))\cdot p(z_1,……,z_n)$
观察第一个term：
$= \sum z 1 = 1 k \sum z 2 = 1 k \dots \dots \sum z n = 1 k f 1 (z 1) \cdot p (z 1, \dots \dots, z n) = \sum z 1 = 1 k f 1 (z 1) \sum z 2 = 1 k \dots \dots \sum z n = 1 k p (z 1, \dots \dots, z n)                    边际概率 = \sum z 1 = 1 k f 1 (z 1) p (z 1)$ $\begin{split} & =\sum_{z_1=1}^{k}\sum_{z_2=1}^{k}……\sum_{z_n=1}^{k}f_1(z_1)\cdot p(z_1,……,z_n) \\ & =\sum_{z_1=1}^{k}f_1(z_1)\underbrace{\sum_{z_2=1}^{k}……\sum_{z_n=1}^{k}p(z_1,……,z_n)}_{边际概率} \\ & = \sum_{z_1=1}^{k}f_1(z_1)p(z_1) \end{split}$
每一个term都可以化简成这么简单的形式，所以
$E q (3) = \sum i = 1 n \sum z i = 1 k f i (z i) p (z i) = \sum i = 1 n \sum z i = 1 k (log α z i + log  (x i | μ z i, σ z i)) p (z i | x i, θ (g))$ $Eq(3)=\sum_{i=1}^{n}\sum_{z_i=1}^{k}f_i(z_i)p(z_i)=\sum_{i=1}^{n}\sum_{z_i=1}^{k}\left( \log\alpha_{z_i}+\log \mathcal{N}(x_i|\mu_{z_i},\sigma_{z_i}) \right)p(z_i|x_i,\theta^{(g)})$
M-step:
参数有三个 $\alpha_l$ , $\mu_l$ , $\sigma_l$ ，分开来求解最大值：

maximizing $\alpha$ :

\partial \sum k l = 1 \sum n i = 1 l o g ( α l ) p ( l | x i , θ ( g ) ) \partial α 1 , . . . \partial α k = [0, . . ., 0] s u b j e c t t o \sum l = 1 k α l = 1

$\frac{\partial \sum_{l=1}^{k}\sum_{i=1}^{n}log(\alpha_l)p(l|x_i,\theta^{(g)})}{\partial \alpha_1,...\partial \alpha_k}=[0,...,0]\qquad subject \ to \sum_{l=1}^{k}\alpha_l=1$

这种式子的求解一般用Lagrange Multiplier。这里略过详细推导，直接给出结论：

α l = 1 N \sum i = 1 n p (l | x i, θ (g))

$\alpha_l=\frac{1}{N}\sum_{i=1}^{n}p(l|x_i,\theta^{(g)})$

maximizing $\mu_l$ , $\sigma_l$ :

\partial \sum k l = 1 \sum n i = 1 l o g ( α l ) p ( l | x i , θ ( g ) ) \partial μ 1 , . . . \partial μ k , σ 1 , . . . \partial σ k = [0, . . ., 0]

$\frac{\partial \sum_{l=1}^{k}\sum_{i=1}^{n}log(\alpha_l)p(l|x_i,\theta^{(g)})}{\partial \mu_1,...\partial \mu_k,\sigma_1,...\partial \sigma_k}=[0,...,0]$
还是直接给出结果：

μ l = \sum n i = 1 p ( l | x i , θ ( g ) ) \sum n i = 1 x i p ( l | x i , θ ( g ) )

$\mu_l=\frac{\sum_{i=1}^{n}p(l|x_i,\theta^{(g)})}{\sum_{i=1}^{n}x_ip(l|x_i,\theta^{(g)})}$

σ l = \sum n i = 1 ( x i - μ l ) ( x - μ l ) T p ( l | x i , θ ( g ) ) \sum n i = 1 p ( l | x i , θ ( g ) )

$\sigma_l=\frac{\sum_{i=1}^{n}(x_i-\mu_l)(x-\mu_l)^Tp(l|x_i,\theta^{(g)})}{\sum_{i=1}^{n}p(l|x_i,\theta^{(g)})}$
如果对其中的推导感兴趣，要知道解决这个问题，需要知道一些线性代数恒等式，详细信息可以参考：

J. Bilmes. “A Gentle Tutorial on the EM Algorithm and its Application to Parameter Estimation for Gaussian Mixture and Hidden Markov Models”

Richard Yi Da Xu slices