K-means聚类最优k值的选取

最新推荐文章于 2024-06-05 23:49:40 发布

zhige1112

最新推荐文章于 2024-06-05 23:49:40 发布

阅读量1.6k

点赞数

分类专栏：数据分析

数据分析专栏收录该内容

5 篇文章 0 订阅

订阅专栏

我们希望能从数据自身出发去确定真实的聚类数，也就是对数据而言的最佳聚类数

1.手肘法
1.1 理论

手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，

其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。

   手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。并且，当k小于真实聚类数时，由于k的增大会大幅增加每个簇的聚合程度，故SSE的下降幅度会很大，而当k到达真实聚类数时，再增加k所得到的聚合程度回报会迅速变小，所以SSE的下降幅度会骤减，然后随着k值的继续增大而趋于平缓，也就是说SSE和k的关系图是一个手肘的形状，而这个肘部对应的k值就是数据的真实聚类数。当然，这也是该方法被称为手肘法的原因。

1.2 实践

我们对预处理后数据.csv 中的数据利用手肘法选取最佳聚类数k。具体做法是让k从1开始取值直到取到你认为合适的上限(一般来说这个上限不会太大，这里我们选取上限为8)，对每一个k值进行聚类并且记下对于的SSE，然后画出k和SSE的关系图（毫无疑问是手肘形），最后选取肘部对应的k作为我们的最佳聚类数。python实现如下：

[python] view plain copy

import pandas as pd  
from sklearn.cluster import KMeans  
import matplotlib.pyplot as plt  
  
df_features = pd.read_csv(r'C:\预处理后数据.csv',encoding='gbk') # 读入数据  
'利用SSE选择k'  
SSE = []  # 存放每次结果的误差平方和  
for k in range(1,9):  
    estimator = KMeans(n_clusters=k)  # 构造聚类器  
    estimator.fit(df_features[['R','F','M']])  
    SSE.append(estimator.inertia_)  
X = range(1,9)  
plt.xlabel('k')  
plt.ylabel('SSE')  
plt.plot(X,SSE,'o-')  
plt.show()

画出的k与SSE的关系图如下：

在这里插入图片描述
显然，肘部对于的k值为4，故对于这个数据集的聚类而言，最佳聚类数应该选4

轮廓系数法

轮廓系数法确定出的最优k值不一定是最优的，有时候还需要根据SSE去辅助选取，这样一来相对手肘法就显得有点累赘。因此，如果没有特殊情况的话，我还是建议首先考虑用手肘法。

博文转自：https://blog.csdn.net/qq_15738501/article/details/79036255 感谢

zhige1112

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
K-means聚类最优k值的选取

我们希望能从数据自身出发去确定真实的聚类数，也就是对数据而言的最佳聚类数1.手肘法1.1 理论手肘法的核心指标是SSE(sum of the squared errors，误差平方和)，其中，Ci是第i个簇，p是Ci中的样本点，mi是Ci的质心（Ci中所有样本的均值），SSE是所有样本的聚类误差，代表了聚类效果的好坏。手肘法的核心思想是：随着聚类数k的增大，样本划分会更加精细，每个...
复制链接

扫一扫