统计学习方法笔记（十三）EM算法（二）

最新推荐文章于 2022-09-07 16:03:26 发布

yeyustudy

最新推荐文章于 2022-09-07 16:03:26 发布

阅读量258

点赞数

分类专栏：统计学习方法笔记

本文链接：https://blog.csdn.net/yeyustudy/article/details/80374660

版权

统计学习方法笔记专栏收录该内容

23 篇文章 0 订阅

订阅专栏

EM算法在高斯混合模型学习中的应用

一、高斯混合模型
1、定义：高斯混合模型是指具有以下形式的概率分布模型：
$P(y|\theta ) = \sum\limits_{k = 1}^K {{\alpha _k}\phi (y|{\theta _k})}$
其中， $\alpha_k$ 是系数，有 $\sum\limits_{k = 1}^K {{\alpha _k}} = 1,{\alpha _k} \ge 0$ ； ${\phi (y|{\theta _k})}$ 是高斯分布密度， ${\theta _k} = ({\mu _k},\sigma _k^2)$
2、EM算法的应用
假设观测数据是由高斯混合模型生成的，我们需要利用EM算法来估计参数 $\theta$
（1）明确隐变量，写出完全数据的对数似然函数
我们已知一个观测数据 $y_i$ 但不知道是由哪个分模型产生的，以隐变量 ${\gamma _{jk}}$ 来表示，其定义为：
当第j个观测来自第k个分模型时，隐变量取1，否则取0
所以完全数据的似然函数为：

P (y, γ | θ) = \prod j = 1 N P (y j, γ j 1, γ j 2, \dots, γ j k | θ) = \prod k = 1 N \prod j = 1 N [α k ϕ (y j | θ k)] γ j k = \prod k = 1 K α n k k \prod j = 1 N [1 2 π \sqrt σ k exp (- ( y j - μ k ) 2 2 σ 2 k)] γ j k

$\begin{array}{c} P(y,\gamma |\theta ) = \prod\limits_{j = 1}^N {P({y_j},{\gamma _{j1}},{\gamma _{j2}}, \cdots ,{\gamma _{jk}}|\theta )} \\ = {\prod\limits_{k = 1}^N {\prod\limits_{j = 1}^N {[{\alpha _k}\phi ({y_j}|{\theta _k})]} } ^{{\gamma _{jk}}}}\\ {\rm{ = }}{\prod\limits_{k = 1}^K {\alpha _k^{{n_k}}\prod\limits_{j = 1}^N {\left[ {\frac{1}{{\sqrt {2\pi } {\sigma _k}}}\exp \left( { - \frac{{{{({y_j} - {\mu _k})}^2}}}{{2\sigma _k^2}}} \right)} \right]} } ^{{\gamma _{jk}}}} \end{array}$
由此可以求出完全似然函数。
（2）确定Q函数

Q(θ,θ(i))=E[logP(y,γ|θ)|y,θ(i)] Q ( θ , θ ( i ) ) = E [ log ⁡ P ( y , γ | θ ) | y , θ ( i ) ] $Q(\theta ,{\theta ^{(i)}}) = E[\log P(y,\gamma |\theta )|y,{\theta ^{(i)}}]$
（3）求极大值
经过一系列的推导，具体可以参考《统计学习方法》第163，最终总结如下：
E步：计算分模型对观测数据的响应度：

γˆjk=αkϕ(yj|θk)∏k=1Kαkϕ(yj|θk) γ ^ j k = α k ϕ ( y j | θ k ) ∏ k = 1 K α k ϕ ( y j | θ k ) ${\widehat \gamma _{jk}} = \frac{{{\alpha _k}\phi ({y_j}|{\theta _k})}}{{\prod\limits_{k = 1}^K {{\alpha _k}\phi ({y_j}|{\theta _k})} }}$
M步：计算迭代参数：

μˆk=∑j=1Nγˆjkyj∑j=1Nγˆjk μ ^ k = ∑ j = 1 N γ ^ j k y j ∑ j = 1 N γ ^ j k ${\widehat \mu _k} = \frac{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}{y_j}} }}{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}} }}$

σˆ2k=∑j=1Nγˆjk(yj−μk)2∑j=1Nγˆjk σ ^ k 2 = ∑ j = 1 N γ ^ j k ( y j − μ k ) 2 ∑ j = 1 N γ ^ j k $\widehat \sigma _k^2 = \frac{{{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}({y_j} - {\mu _k})} }^2}}}{{\sum\limits_{j = 1}^N {{{\widehat \gamma }_{jk}}} }}$