聚类算法中K值的选取

最新推荐文章于 2024-08-31 22:47:58 发布

ybdesire

最新推荐文章于 2024-08-31 22:47:58 发布

阅读量1.4w

点赞数 3

分类专栏： Machine Learning 文章标签： clustering 算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ybdesire/article/details/54850129

版权

Machine Learning 专栏收录该内容

110 篇文章 17 订阅

订阅专栏

介绍

下面是scikit-learn中的几种聚类算法。

聚类算法	参数
K-Means	number of clusters
Affinity propagation	damping, sample preference
Mean-shift	bandwidth
Spectral clustering	number of clusters
Ward hierarchical clustering	number of clusters
Agglomerative clustering	number of clusters, linkage type, distance

可以发现，大部分聚类算法的输入参数，都含有聚类类别数目K，K表示我们需要算法将样本聚成几类。

那么问题来了，在使用聚类算法时，我们该如何决定聚类类别数目K值的选取呢？

方法

关于聚类K值问题，有很多种求解的方法。

有暴力的均方根解法，也有直观的图解法，下面介绍几种常用的方法。

均方根

假设我们有m个样本，该方法认为 $K=\sqrt{m/2}$

Elbow法

首先给出聚类算法的一些符号表示
* 聚类算法的m个输入样本： ${x^{(1)}, ... , x^{(m)}}$
* $x^{(i)}$ 所属的聚类中心： $\mu_{c^{(i)}}$

聚类算法在聚类过程中，会寻找每个样本到聚类中心距离最小的点作为聚类中心。所以聚类算法的优化目标为：

J (c (1), . . ., c (m), μ 1, . . ., μ k) = 1 m \sum 1 m (∥ x (i) - μ c (i) ∥)

$J(c^{(1)},...,c^{(m)}, \mu_{1},...,\mu_{k}) = \frac{1}{m}\sum_{1}^{m}(\parallel x^{(i)}-\mu_{c^{(i)}} \parallel )$

其中

$c^{(i)}$ 表示最接近 $x^{(i)}$ 的聚类中心下标
$\mu_{k}$ 表示聚类中心

优化目标J的值就表示每个样本到聚类中心的距离之和，所以J在某种程度上表示了误差，J最小则聚类误差最小。

当K取值不同，得到的J值也不同。

Elbow法认为，K值应该取拐点上的那个值，如下图。

这里写图片描述

当然，实际情况中，不一定能看到拐点，也就不一定能使用这种方法。

图像法

把样本的二维、三维特征图画出来，通过观察，人为决定K值选取。
样本特征维度大于三时，用降维或Visual Intelligence的方法来作图观察。

结论

聚类使用中，可以根据上面一些方法确定K值得选取。
但最终决定你聚类K值的，应该是根据你聚类后的后续目的来选取。可以尝试不同的K，看聚类结果能为你后续目的提供多大帮助。

关注

3
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。