聚类分析简单介绍（附R对应函数介绍）

本文链接：https://blog.csdn.net/wzgl__wh/article/details/79255107

本文介绍了聚类分析的基本思想和五种常用方法：K-均值、K-中心点、系谱聚类、DBSCAN和期望最大化（EM），并详细讲解了这些聚类算法在R语言中的实现函数。聚类广泛应用于客户分类、文本分析等领域，是一种无监督学习方法。文章通过实例展示了如何使用R中的cluster、dbscan和mclust等包进行聚类分析。

摘要由CSDN通过智能技术生成

聚类分析是一种机器学习领域最常用的分类方法，它在在客户分类，文本分类，基因识别，空间数据处理，卫星图片处理，医疗图像自动检测等领域有着广泛应用。聚类就是将相同，相似的对象划分到同一个组中，聚类分析事前不需要参考任何分类信息，可以通过判断数据表特征的相似性来完成对数据的归类。在聚类分析中，观测值的类别一般情况下是未知的。我们希望将观测值聚类为合适的几个分类。聚类在机器学习中就是无监督学习。今天来介绍一下下面的五种聚类方法和对于R里面的函数。

K-均值聚类（K-Means）
K-中心点聚类（K-Medoids）
系谱聚类（HC）
密度分析（DBSCAN）
期望最大化聚类（EM）

聚类算法思想

K-均值聚类

K均值法：又称快速聚类法，有时也称扁平聚类。将n个对象分成k个簇，簇内高度相似，簇间较低相似。它并不知道训练集中的观测值的类别，它以观测值之间的距离作为度量观测值相似程度的指标，使用迭代的方法训练模型，它和KNN都具有计算简洁的优点，他们同样受聚类个数和初始分布的影响。它的思想是以随机选取的K个样本作为簇的起始中心点或簇的平均值，各个簇中心点的距离，将该对象赋给最近的簇，再计算每个簇的平均值，然后不断重复，直至所有样本所属类为中心。该算法的缺点是易受异常值的干扰。

K-中心点聚类

由于K-均值算法易受极值影响，为了改进这一点缺点，就提出来K-中心点算法。K-均值算法是在当前簇中样本坐标的均值为新的中心点。K-中心点算法在选择各类别中心点时不选取样本均值点，而是选择簇内的每个对象为中心，使得总的代价减少或最小即可。它类别内选取到其余样本距离之和最小的样本为中心，这也保证了总的代价最小。但这也增加了算法的复杂度。K-中心聚类的鲁棒性更好。

系谱聚类

系谱聚类的主要特点是不需要事先设定类别数K，它在每次迭代过程中仅将距离最近的两个样本或簇聚为一类，其过程自然得到k=1至k=n（n为待分类样本总数）个类别的聚类结果。

密度聚类

DBSCAN算法是基于密度的聚类方法中最常用的代表方法之一该算法将分布稠密的样本划分到同一个簇，并过滤掉那些低密度的区域。可以在有噪声的数据中形成任意形状的簇，弥补了前几种算法易受异常值干扰的缺点，因此可以发现各种任意形状的聚类簇。但他也有缺点，就是对定义的半径和密度阈值敏感，稍有不同，结果也会不一样，只能不断调整参数。

期望最大化聚类

期望最大化算法，简称EM算法。该算法在聚类时，它将数据集看作一个含有隐形变量的概率模型，并实现模型最优化。通过“反复估计 ”这也迭代找出最优解，每一次迭代包含两步：第一步求期望值，称为E步，第二步求极大值，称为M步，同时给出相应的最优类别数k。kmeans聚类计算的是距离，该聚类是计算概率。

代码

K-均值算法

kmeans(x, centers, iter.max = 10, nstart = 1,
       algorithm = c("Hartigan-Wong", "Lloyd", "Forgy",
                     "MacQueen"), trace=FALSE)

参数	作用
x	数据集
centers	预设类别数k