聚类算法中K值的选取

介绍

下面是scikit-learn中的几种聚类算法。

聚类算法参数
K-Meansnumber of clusters
Affinity propagationdamping, sample preference
Mean-shiftbandwidth
Spectral clusteringnumber of clusters
Ward hierarchical clusteringnumber of clusters
Agglomerative clusteringnumber of clusters, linkage type, distance

可以发现,大部分聚类算法的输入参数,都含有聚类类别数目K,K表示我们需要算法将样本聚成几类。

那么问题来了,在使用聚类算法时,我们该如何决定聚类类别数目K值的选取呢?

方法

关于聚类K值问题,有很多种求解的方法。

有暴力的均方根解法,也有直观的图解法,下面介绍几种常用的方法。

均方根

假设我们有m个样本,该方法认为 K=m/2

Elbow法

首先给出聚类算法的一些符号表示
* 聚类算法的m个输入样本: x(1),...,x(m)
* x(i) 所属的聚类中心: μc(i)

聚类算法在聚类过程中,会寻找每个样本到聚类中心距离最小的点作为聚类中心。所以聚类算法的优化目标为:

J(c(1),...,c(m),μ1,...,μk)=1m1m(x(i)μc(i))

其中

  • c(i) 表示最接近 x(i) 的聚类中心下标
  • μk 表示聚类中心

优化目标J的值就表示每个样本到聚类中心的距离之和,所以J在某种程度上表示了误差,J最小则聚类误差最小。

当K取值不同,得到的J值也不同。

Elbow法认为,K值应该取拐点上的那个值,如下图。

这里写图片描述

当然,实际情况中,不一定能看到拐点,也就不一定能使用这种方法。

图像法

把样本的二维、三维特征图画出来,通过观察,人为决定K值选取。
样本特征维度大于三时,用降维或Visual Intelligence的方法来作图观察。

结论

聚类使用中,可以根据上面一些方法确定K值得选取。
但最终决定你聚类K值的,应该是根据你聚类后的后续目的来选取。可以尝试不同的K,看聚类结果能为你后续目的提供多大帮助。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值