GMM算法与KMeans算法的联系（高斯混合 K-means）

Deno_V

于 2022-01-12 21:28:45 发布

阅读量1k

点赞数 1

文章标签：算法数据挖掘人工智能机器学习

本文链接：https://blog.csdn.net/weixin_44839047/article/details/122462804

版权

从混合高斯密度函数估计的角度，简述K-Means聚类算法的原理。给出K-Means聚类算法的计算步骤，说明会影响K-Means算法聚类性能的因素

K-Means算法可以看作是一种简化的混合高斯模型，在GMM模型中，需要估计的参数有每个高斯成分前的系数，每个高斯成分的协方差矩阵和均值向量。K-Means等价于固定GMM中每个高斯成分的系数都相等，每个高斯成分都协方差矩阵为单位阵，只需要优化每个高斯成分的均值向量。那么K-Means模型可以写成（一共有C个类别，n个样本）：
$p(x)=\frac1C\sum_{i=1}^C \frac{1}{\sqrt{2\pi}}exp\{-\frac12(x-\mu_i)^T(x-\mu_i)\}$
对上式运用极大似然估计，对数似然函数
$\log \prod_{i=1}^n p(x_i)=\sum_{i=1}^n\log p(x_i)=-n\log(C\sqrt{2\pi})+\sum_{i=1}^n\log\left(\sum_{j=1}^C\exp\left(-\frac{1}{2}(x_i-\mu_j)^T(x_i-\mu_j)\right)\right)$

令似然函数对 $\mu_j$ 的梯度为0得到
$\sum_{i=1}^n\frac{\exp(-\frac12(x_i-\mu_j)^T(x_i-\mu_j))}{\sum_{j=1}^C \exp\left(-\frac{1}{2}(x_i-\mu_j)^T(x_i-\mu_j)\right)}(x_i-\mu_j)=0\\ \Leftrightarrow \sum_{i=1}^n \gamma_j(x_i)(x_i-\mu_j)=0\\ 其中\gamma_j(x_i)=\frac{\exp(-\frac12(x_i-\mu_j)^T(x_i-\mu_j))}{\sum_{j=1}^C \exp\left(-\frac{1}{2}(x_i-\mu_j)^T(x_i-\mu_j)\right)}\qquad(\triangledown)$
K-Means算法等价于使用近似的EM算法

在E步骤中近似计算得到 $\gamma_j(x_i)$ 。近似规则为
$\gamma_j(x_i)=\left\{\begin{matrix}1 & ,&if\ j=\arg\max_j(-\frac12(x_i-\mu_j)^T(x_i-\mu_j))\\0&,&other\end{matrix}\right.$
即为每个 $x_i$ 分配一个最近高斯类。
在M步骤中，将近似的 $\gamma_j(x_i)$ 代入 $(\triangledown)$ 式，可以得到 $\mu_j = \frac{\sum_{i=1}^n\gamma_j(x_i)x_i}{\sum_{i=1}^n\gamma_j(x_i)}$ ，即更新 $\mu_j$ 为属于 $j$ 类别的样本的均值。

计算步骤：

随机选择K个类中心。
将每个样本分配到离其最近的类中心。
更新类中心为上一步分配到该类的样本的均值。

影响聚类性能的因素：

数据本身的分布，如果数据分布不符合高斯特性，那么分类效果差。
不同类别数据的样本数量的差距，由于K-Means是GMM的一个简化，其假设了GMM中每个高斯项前的系数相同，所以当样本类别数量不均衡时效果差。
离群点的存在会对计算样本的均值造成影响。

Deno_V

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
GMM算法与KMeans算法的联系（高斯混合 K-means）

从混合高斯密度函数估计的角度，简述K-Means聚类算法的原理。给出K-Means聚类算法的计算步骤，说明会影响K-Means算法聚类性能的因素K-Means算法可以看作是一种简化的混合高斯模型，在GMM模型中，需要估计的参数有每个高斯成分前的系数，每个高斯成分的协方差矩阵和均值向量。K-Means等价于固定GMM中每个高斯成分的系数都相等，每个高斯成分都协方差矩阵为单位阵，只需要优化每个高斯成分的均值向量。那么K-Means模型可以写成（一共有C个类别，n个样本）：p(x)=1C∑i=1C12πexp
复制链接

扫一扫