如何确定K-means算法中的k值？

最新推荐文章于 2025-03-10 18:02:48 发布

黄佳俊、

最新推荐文章于 2025-03-10 18:02:48 发布

阅读量3k

点赞数 3

分类专栏：人工智能学习文章标签：算法 kmeans 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48419914/article/details/124959996

版权

人工智能学习专栏收录该内容

9 篇文章

订阅专栏

本文介绍多种确定K-means算法中K值的方法，包括肘部法、轮廓系数法等，并提供了具体案例及代码实现。适用于需要进行聚类分析的场景。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最常用最简单的方法可视化数据，然后观察出聚类聚成几类比较合适
绘制出k-average with cluster distance to centroid的图表，观察随着k值的增加，曲线的下降情况，当曲线不再“急剧”下降时，就是合适的k值
计算不同k值下KMeans算法的BIC和AIC值，BIC或AIC值越小，选择该k值
使用 Canopy算法先进行粗略的聚类，产生的簇的个数，作为KMeans算法的k值
使用x-means方法结合BIC准则去判定簇的个数，也就是k值
使用Gap Statistic公式来确定k值
使用轮廓系数来确定，选择使系数较大所对应的k值
使用交叉验证来确定使目标函数（距中心的距离的平方差）变小的k值
利用Affinity propagation的方法估计最优的聚类数目，进一步进行KMeans的算法
利用层次聚类，可视化后认为地观察认定可聚为几类，确定k值
确定较粗的数目，并找到一个初始聚类，然后用迭代重定位来改进该聚类。

1) 肘部法

肘部法所使用的聚类评价指标为：数据集中所有样本点到其簇中心的距离之和的平方。但是肘部法选择的并不是误差平方和最小的，而是误差平方和突然变小时对应的值。

2) 轮廓系数法

轮廓系数是一种非常常用的聚类效果评价指标。该指标结合了内聚度和分离度两个因素。其具体计算过程如下：

假设已经通过聚类算法将待分类的数据进行了聚类，并最终得到了个簇。对于每个簇中的每个样本点，分别计算其轮廓系数。而所有样本点的轮廓系数的平均值，即为该聚类结果总的轮廓系数。，越接近与1，聚类效果越好。

3) 具体案例

先利用sklearn.datasets中的方法生成自己的聚类数据集。具体如下：

对数据x进行归一化(因为KMeans算法中涉及到距离的计算)，具体如下：

使用肘部法确定值，其代码如下：

使用轮廓系数确定值，其代码如下：

参考文章：如何确定K-means算法中的k值？_Sun_Sherry的博客-CSDN博客_kmeans算法k值的确定

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。