Gaussian Mixture Model(GMM)

一、GMM的原理

  高斯混合模型(Gaussian Mixed Model,GMM)也是一种常见的聚类算法,与K-means类似,都使用了EM算法进行迭代计算。高斯混合模型假设每个簇的数据都是符合高斯分布的,当前数据呈现的分布就是各个簇的高斯分布叠加在一起的结果。理论上,高斯混合模型可以拟合出任意类型的分布
  高斯混合模型的核心思想:假设数据可以看作从多个高斯分布中生成出来的。在该假设下,每个单独的分模型都是标准高斯模型,其均值 μ i \mu_i μi方差 ∑ i \sum_i i,此外,每个分模型都还有一个参数,可以理解为权重或生成数据的概率。高斯混合模型公式如下:
在这里插入图片描述

  高斯混合模型是一个生成式模型
  求解高斯混合模型的参数可以用EM算法框架,先固定一个变量使整体函数变为凸优化函数,求导得到最值,然后利用最优参数更新被固定的变量,进入下一个循环。也就是说每次循环时,先固定当前的高斯分布不变,获得每个数据点由各个高斯分布生成的概率。然后固定该生成概率不变,根据数据点的生成概率,获得一组更佳的高斯分布。

1.1、高斯混合模型与K均值算法:

相同点:

  • (1) 都是聚类算法;
  • (2) 都需要指定K值;
  • (3) 都用EM算法来求解;
  • (4) 往往只能收敛于局部最优。

高斯混合模型的优点:

  • (1) 可以给出一个样本属于某类的概率是多少;
  • (2) 不仅用于聚类,还可以用于概率密度估计;
  • (3) 可以用于生成新的样本点。

二、

三、SparkML实现


Reference:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值