聚类(3)-- Gaussian Mixtures Model

Gaussian Mistures Model(GMM) 假设数据集服从混合高斯分布(Mixture Gaussian Distribution),即认为整个数据集是由若干个高斯分布(每个高斯分布分别代表一个component)混合而成的,通过估计每个component的模型参数(均值和协方差),实现数据集密度估计以及将数据点以一定概率归属于某参数所代表的的高斯分布中,实现clustering。与k-means不同的是,k-means最终输出是将每个数据点归属到最合适的cluster中,而GMM输出的是每个数据点从属于每个component的概率。即类似于Fuzzy k-means,GMM也属于一种对数据的软划分。

GMM假设数据集是若干个高斯分布的叠加,如下:

p(x) = sum(w(k)*N(x|miu(k), cov(k)))

(sum是对k求和,k=1,2,...,K,其中K代表component的个数,即对应最终的cluster number)

其中,w(k)代表每个component对于整个数据分布的贡献,称为mixing coefficient,即混合系数,且有sum(w(k)) = 1(对k求和)

miu(k)和cov(k)分别代表第k个component的均值和协方差,N(x|miu(k), cov(k))即为第k个component的高斯分布模型。

有了模型之后,要做的就是进行模型参数估计,参数估计实现的目标是,使得使用估计的参数所代表的模型产生当前数据集的概率最大。从上述混合高斯模型可见,需要估计的参数有2类,即w(k

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值