Kmeans算法

最新推荐文章于 2024-05-30 15:50:09 发布

成为希望的自己

最新推荐文章于 2024-05-30 15:50:09 发布

阅读量5k

点赞数

本文链接：https://blog.csdn.net/wfh684066/article/details/81006472

版权

聚类算法

是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。

聚类与非聚类算法区别

聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。
在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法是欧式距离法。

算法流程

1.选择聚类的个数k.

2.任意产生k个聚类，然后确定聚类中心，或者直接生成k个中心。

3.针对所有样本点通过计算欧氏距离确定其聚类中心点。

4.基于各自分配样本点的各个新簇类更新聚类中心点（通常基于均值的方法）。

5.重复以上步骤直到满足收敛要求。（通常就是确定的中心点不再改变。）

具体流程图如下图所示：
这里写图片描述

算法优点

1.原理简单（靠近中心点）， 实现容易。

2.聚类效果中上（依赖K的选择）

3.空间复杂度o(N) 
  时间复杂度 o(I*K*N)。
  N为样本点个数， K为中心点个数，I 为迭代次数

算法缺点

1.对离群点，噪声敏感（中心点易偏移）

2.很难发现大小差别 很大的簇及进行增 量计算

3.结果不一定是全局最 优，只能保证局部最 优（与K的个数及初 值选取有关）。

K值确定

肘方法的核心指标是SSE(sum of the squared errors，误差平方和)，Ci是第i个簇， p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。

这里写图片描述

肘方法的核心思想

1、当k小于真实聚类数时， 由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大。

2、而当k到达真实聚类数时，再增加k所得 到的聚合程度回报会迅速变小，所以SSE的下降幅度会 骤减，然后随着k值的继续增大而趋于平缓。

3、也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的 k值就是数据的真实聚类数。

这里写图片描述

Kmeans评估标准

一、轮廓系数法

轮廓系数法（Silhouette Coefficient）结合了聚类的凝聚度（Cohesion）和分离度（Separation），用于评估聚类的效果。该值处于-1~1之间，值越大，表示聚类效果越好。
a是Xi与同簇的其他样本的平均距离，称为凝聚度； b是Xi与最近簇中所有样本的平均距离，称为分离度。

计算公式如下：
这里写图片描述

求出所有样本的轮廓系数后再求平均值就得到了平均轮廓系数。平均轮廓系数的取值范 围为[-1,1]，且簇内样本的距离越近，簇间样本距离越远，平均轮廓系数越大，聚类效果 越好。

最近簇定义：
这里写图片描述

其中p是某个簇Ck中的样本。即，用Xi到某个簇所有样本平均距离作为衡量该点到该簇的 距离后，选择离Xi最近的一个簇作为最近簇。

二、Calinski-Harabasz指标

Calinski-Harabasz：类别内部数据的协方差越小越好，类别之间的协方差越大越好，这样的Calinski-Harabasz分数s会高，分数s高则聚类效果越好

这里写图片描述

其中m为训练集样本数，k为类别数。Bk为类别之间的协方差矩阵，Wk为类别内部数据的 协方差矩阵。tr为矩阵的迹。

聚类算法的划分

有如下几种划分方法：
划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法。

硬聚类与模糊聚类

硬聚类：即每一个数据只能被归为一类，数据 集中每一个样本都是被100%确定得分到某一个类别中

模糊聚类：主要通过隶属函数来确定每个数据隶属于各个簇的程度，而不是将一个数据对象硬性地归类到某一簇中，可以理解为每个样本是以一定的概率被分到某一个类别中。

Kmeans算法优化

主要有以下几种优化算法。
K-means++、 二分K-means、 ISODATA 、Kernel K-means以及Mini Batch K-Means算法。

1、K-means++
假设已经选取了n个初始聚类中心(0<n<K)，则在选取第n+1个聚类中 心时：距离当前n个聚类中心越远的点会有更高的概率被选为第n+1个聚类中心。聚类中心当然是互相离得越远越好。

2、二分K-means
1、首先将所有点作为一个簇，然后将该簇一分为二。
2、之后选择能最大限度降低聚类代价函数（也就是误差平方和最大）的簇划分为两个簇。
3、以此进行下去，直到簇的数目等于用户给定的数目k为止。

隐含的一个原则就：
聚类的误差平方和能够衡量聚类性能，该值越小表示数据点越接近于他们的质心，聚类效果就越好。所以我们就需要对误差平方和最大的簇进行再一次划分，因为误差平方和越大，表示该簇聚类效果越不好，越有可能是多个簇被当成了一个簇，所以我们首先需要对这个簇进行划分。

3、ISODATA
1、类别数目随着聚类过程而变化。
2、对类别数的“合并”：（当聚类结果某一类中样本数太少，或两个类间的距离太近时）。
3、“分裂”（当聚类结果中某一类的类内方差太大，将该类进行分裂）。

4、Kernel K-means
kernel k-means实际上就是将每个样本进行一个投射到高维空间的处理，然 后再将处理后的数据使用普通的k-means算法思想进行聚类。

5、Mini Batch K-Means算法
Mini Batch KMeans使用了一个种叫做Mini Batch（分批处理）的方法对数据点之间的距离进行计算。

该方法好处是计算过程中不必使用所有的数据样本，而是从不同类别的样本中抽取一部分样本来代表各自类型进行计算。

由于计算样本量少，所以会相应的减少运行时间，但另一方面抽样也必然会带来准确度的下降。

成为希望的自己

关注

0
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
Kmeans算法

聚类算法是一种典型的无监督学习算法，主要用于将相似的样本自动归到一个类别中。聚类与非聚类算法区别聚类算法是无监督的学习算法，而分类算法属于监督的学习算法。在聚类算法中根据样本之间的相似性，将样本划分到不同的类别中，对于不同的相似度计算方法，会得到不同的聚类结果，常用的相似度计算方法是欧式距离法。算法流程1.选择聚类的个数k.2.任意产生k个聚类，...
复制链接

扫一扫