K-means原理介绍

1.原理

k-means的原理很简单,首先在数据当中随机生成k个聚类中心,后计算数据当中每个样本到这k个聚类中心的距离,并将对应的样本分到距离最小的聚类中心所对应的簇当中,将所有样本归类之后,对于每一个k个簇重新计算每个簇的聚类中心,也就是每个簇中的所有样本的质心,重复上述操作,直到聚类中心不发生改变为止。具体操作如下图所示:
在这里插入图片描述
上述(a)为样本,(b)中随机生成两个聚类中心,(c)中计算每个样本到聚类中心的距离,并判断样本属于那个簇,(d)图重新计算聚类中心,(e)图重新计算样本与聚类中心的距离并重新分配每个簇的样本,重复上述操作,直到聚类中心不发生改变,(f)为最后的聚类结果。

2.k值的选择

2.1 轮廓系数

轮廓系数是聚类算法用来判定聚类结果好坏的评估指标,完全依赖于簇内的稠密程度和簇间的离散程度来评估聚类的效果,即簇内差异小,簇外差异大。单个样本的轮廓系数计算如下所示:
在这里插入图片描述
其中a为样本与同一个簇中所有其他点之间的平均距离,b为样本与下一个最近的簇中的所有样本之间的平均距离。我们希望的是b永远大于a,且大的越多越好,总的轮廓系数越高,则聚类效果越好。

2.2 Calinski-Harabasz

在这里插入图片描述

缺点

k-means是局部最优的,容易受到初始质心的影响,初始质心的不同会导致不同的聚类效果
k值的选取也会直接影响聚类的好坏,k值的选择应该和样本数据本身的结构信息相吻合,但是这种信息很难掌握,所以k值的选取很困难。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值