EM 算法

目录

1.概述

2.最大似然估计

2.1 二项分布的最大似然估计

 2.2 最大似然函数做参数估计

3. EM算法:随机变量无法直接(完全)观察到

3.1 欧拉式的解释

​ 3.2 Gauss式的解释

4. GMM的推导

4.1 从直观理解猜测GMM的参数估计

4.2 从理论公式推导GMM

5.EM算法的应用

5.1 等值线

5.2 模型选择的标准

6.DPGMM

7. 总结

8. 附录

8.1 二项分布与先验举例

8.2 PLSA模型

 8.参考文献


1.概述

经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇;但无法给出某个样本属于该簇的后验概率

EM算法全称:Expectation Maximization Algorithm

2.最大似然估计

找出与样本的分布最接近的概率分布模型。

一个例子:

2.1 二项分布的最大似然估计

 

 2.2 最大似然函数做参数估计

 

 上述结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差。 

3. EM算法:随机变量无法直接(完全)观察到

3.1 欧拉式的解释

 
3.2 Gauss式的解释

 假定有训练集{x1, x2, ……xm},包含m个独立样本,希望从中找到该数组数据的模型p(x,z)的参数(其中:z为隐变量)。

通过最大似然估计得到目标函数

z是隐随机变量,不方便直接找到参数估计。策略:计算l(θ)下界,求该下界的最大值;重复该过程,直到收敛到局部最大值。

 

 

4. GMM的推导

4.1 从直观理解猜测GMM的参数估计

 

4.2 从理论公式推导GMM

高斯分布的方差 

 

5.EM算法的应用

5.1 等值线

5.2 模型选择的标准

  

6.DPGMM

 

同理可推到线性回归的目标函数

  

7. 总结

(1)混合泊松分布,也可以用EM算法

(2)EM算法需假设数据分布,是否可以用EM算法,主要和是否含有隐变量有关。

(3)Gibbs sampling

8. 附录

8.1 二项分布与先验举例

二项分布的最大似然估计

为什么要加上5?

8.2 PLSA模型

 

 

 

 8.参考文献

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值