EM 算法

目录

1.概述

2.最大似然估计

2.1 二项分布的最大似然估计

 2.2 最大似然函数做参数估计

3. EM算法:随机变量无法直接(完全)观察到

3.1 欧拉式的解释

​ 3.2 Gauss式的解释

4. GMM的推导

4.1 从直观理解猜测GMM的参数估计

4.2 从理论公式推导GMM

5.EM算法的应用

5.1 等值线

5.2 模型选择的标准

6.DPGMM

7. 总结

8. 附录

8.1 二项分布与先验举例

8.2 PLSA模型

 8.参考文献


1.概述

经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇;但无法给出某个样本属于该簇的后验概率

EM算法全称:Expectation Maximization Algorithm

2.最大似然估计

找出与样本的分布最接近的概率分布模型。

一个例子:

2.1 二项分布的最大似然估计

 

 2.2 最大似然函数做参数估计

 

 上述结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差。 

3. EM算法:随机变量无法直接(完全)观察到

3.1 欧拉式的解释

 
3.2 Gauss式的解释

 假定有训练集{x1, x2, ……xm},包含m个独立样本,希望从中找到该数组数据的模型p(x,z)的参数(其中:z为隐变量)。

通过最大似然估计得到目标函数

z是隐随机变量,不方便直接找到参数估计。策略:计算l(θ)下界,求该下界的最大值;重复该过程,直到收敛到局部最大值。

 

 

4. GMM的推导

4.1 从直观理解猜测GMM的参数估计

 

4.2 从理论公式推导GMM

高斯分布的方差 

 

5.EM算法的应用

5.1 等值线

5.2 模型选择的标准

  

6.DPGMM

 

同理可推到线性回归的目标函数

  

7. 总结

(1)混合泊松分布,也可以用EM算法

(2)EM算法需假设数据分布,是否可以用EM算法,主要和是否含有隐变量有关。

(3)Gibbs sampling

8. 附录

8.1 二项分布与先验举例

二项分布的最大似然估计

为什么要加上5?

8.2 PLSA模型

 

 

 

 8.参考文献

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值