目录
1.概述
经典的K-means聚类方法,能够非常方便的将未标记的样本分成若干簇;但无法给出某个样本属于该簇的后验概率。
EM算法全称:Expectation Maximization Algorithm
2.最大似然估计
找出与样本的分布最接近的概率分布模型。
一个例子:
2.1 二项分布的最大似然估计
2.2 最大似然函数做参数估计
上述结论和矩估计的结果是一致的,并且意义非常直观:样本的均值即高斯分布的均值,样本的伪方差即高斯分布的方差。
3. EM算法:随机变量无法直接(完全)观察到
3.1 欧拉式的解释
3.2 Gauss式的解释
假定有训练集{x1, x2, ……xm},包含m个独立样本,希望从中找到该数组数据的模型p(x,z)的参数(其中:z为隐变量)。
通过最大似然估计得到目标函数
z是隐随机变量,不方便直接找到参数估计。策略:计算l(θ)下界,求该下界的最大值;重复该过程,直到收敛到局部最大值。
4. GMM的推导
4.1 从直观理解猜测GMM的参数估计
4.2 从理论公式推导GMM
高斯分布的方差
5.EM算法的应用
5.1 等值线
5.2 模型选择的标准
6.DPGMM
同理可推到线性回归的目标函数
7. 总结
(1)混合泊松分布,也可以用EM算法
(2)EM算法需假设数据分布,是否可以用EM算法,主要和是否含有隐变量有关。
(3)Gibbs sampling
8. 附录
8.1 二项分布与先验举例
二项分布的最大似然估计
为什么要加上5?
8.2 PLSA模型