这周突发兴致,拿起“西瓜书”啃了啃,没按照书上的目录来,结合目前正在做的,看到了高斯混合模型(Gaussian mixture model——GMM)。这个模型与原型聚类稍有区别,是
采用概率模型来聚类。
1.高斯分布
既然有“高斯”两字,那就跟高斯分布有关吧~然而我连概率密度表达式都记不太清了,赶紧复习一下!
一元高斯分布:
多元高斯分布:
我使用的是多元高斯分布,是均值向量,是协方差矩阵,这两个参数可以完全确定高斯分布,我们分析可以从二元开始。我们再定义由K个高斯分布形成的混合分布:
其中和是第i个高斯混合成分的参数,为相应的混合系数,满足:
这三个参数共同构成了高斯混合模型的参数,高斯混合成分的个数可以自行选择,当然也可以自动选择,写一个迭代器就好了。
2.为什么要用高斯混合模型?
高斯混合模型针对K-means的不足,聚类方式不一样。
对于上图中的数据,可以用K-means得到比较好的结果。但是对于下图的情况,采用K-means得到的效果就很差。
而高斯混合模型可以很好地处理这一类数据:
3.简要数学推导
假设现有训练集样本