EM算法及其推广---《统计学习方法》第9章

最新推荐文章于 2022-08-16 19:00:43 发布

Icevivina

最新推荐文章于 2022-08-16 19:00:43 发布

阅读量409

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/zhouhong0284/article/details/79606931

版权

机器学习算法专栏收录该内容

19 篇文章 0 订阅

订阅专栏

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步求期望值，M步求最大值。
（EM算法是一种对模型参数的估计，该模型中含有隐变量）

EM算法的引入

EM算法

概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么就可以通过极大似然估计或贝叶斯估计法估计模型参数。但是，当模型中含有隐变量的时候，就不能简单的使用这些估计方法。EM算法就是含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。
观测数据的似然函数：

P (Y | θ) = \sum z P (z | θ) P (Y | z, θ)

$P(Y|\theta)=\sum_zP(z|\theta)P(Y|z,\theta)$ 对似然函数求最大值的结果就是参数

θ θ $\theta$ 的极大似然估计。也就是对数似然函数

L(θ)=logP(Y|θ) L ( θ ) = log ⁡ P ( Y | θ ) $L(\theta)=\log P(Y|\theta)$ 的极大似然估计。
EM算法与初值的选择有关，选择不同的初值可能得到不同的参数估计值。
（Q函数）完全数据的对数似然函数

logP(Y,Z|θ) l o g P ( Y , Z | θ ) $logP(Y,Z|\theta)$ 关于在给定观测数据Y和当前参数

θ(i) θ ( i ) $\theta^{(i)}$ 下对未观测数据Z的条件概率分布

P(Z,Y|θ(i)) P ( Z , Y | θ ( i ) ) $P(Z,Y|\theta^{(i)})$ 的期望称为Q函数，即

Q (θ, θ (i)) = E z [log P (Y, Z | θ) | Y, θ (i)]

$Q(\theta,\theta^{(i)})=E_z[\log P(Y,Z|\theta)|Y,\theta^{(i)}]$

EM算法的导出

EM算法是通过不断求解下界（对数似然函数的下界）的极大化逼近求解对数似然函数极大化的算法。

EM在非监督学习中的应用

EM算法可以用于生成模型的非监督学习。生成模型由联合概率分布P（X,Y）表示，可以认为非监督学习训练数据是联合概率分布产生的数据，X为观测数据，Y为未观测数据。

EM算法的收敛性

定理1 设 $P（Y|\theta）$ 为观测数据的似然函数， $\theta^{(i)}$ 为EM得到的参数估计序列， $P（Y|\theta^{(i)}）$ 为对应的似然函数序列，则 $P（Y|\theta^{(i)}）$ 是单调递增的。
初值的选择十分重要，常用的方法是选择几个不同的初值进行迭代，然后对得到的各个估计值加以比较，从中选择最好的。

EM算法在高斯混合模型学习中的应用

EM算法的一个重要应用是高斯混合模型（Gaussian misture model, GMM）的参数估计。

EM算法的推广

F函数
GEM函数

相关问题总结

1.EM算法的由来/原理
我们面对一个含有隐变量的概率模型，目标是极大化观测数据（不完全数据）关于参数 $\theta$ 的对数似然函数，但是这一极大化的困难是在计算过程中有未观测数据并有包含和（或积分）的对数。那么EM算法通过迭代不断求解下界的极大化逼近求解对数似然函数极大化的算法。
2.算法的过程;
1）选择参数初值
2）E步：确定Q函数，也就是求出完全数据的对数自然函数关于在给定观测数据Y和当前参数下对未观测数据的条件概率分布 $P(Z,Y|\theta^{(i)})$ 的期望
3）M步:求Q函数的极大值，得出第i+1次迭代的参数的估计值。
4）重复2-3步直到收敛。
3.采用EM算法求解的模型有哪些？为什么不用牛顿法或者梯度下降法？
一般有混合高斯、协同过滤、k-means。算法一定会收敛，但是可能会收敛到局部最优。EM算法是一种非梯度下降算法，解决了梯度下降等优化方法的缺陷：求和的项数将随着隐变量的数目以指数级上升，会给梯度计算带来麻烦）。
4.用EM算法推导解释K-means：
k-means算法是高斯混合聚类在混合成分方差相等，且每个样本仅指派一个混合成分时候的特例。k-means中每个样本所属的类就可以看成是一个隐变量。
在E步中，我们固定每个类的中心，通过对每一个样本选择最近的类优化目标函数；在M步，重新更新每个类的中心点，该步骤可以通过对目标函数求导实现，最终可得新的类中心就是类中样本的均值。

Icevivina

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
EM算法及其推广---《统计学习方法》第9章

EM算法是一种迭代算法，用于含有隐变量的概率模型参数的极大似然估计，或极大后验概率估计。EM算法的每次迭代由两步组成：E步求期望值，M步求最大值。（EM算法是一种对模型参数的估计，该模型中含有隐变量）EM算法的引入EM算法概率模型有时既含有观测变量，又含有隐变量或潜在变量。如果概率模型的变量都是观测变量，那么就可以通过极大似然估计或贝叶斯估计法估计模型参数。但是，当模型中含有隐...
复制链接

扫一扫

专栏目录