K-means原理介绍

最新推荐文章于 2023-12-12 20:27:06 发布

ideas-workstyle

最新推荐文章于 2023-12-12 20:27:06 发布

阅读量3.1k

点赞数 2

分类专栏：面试技巧机器学习文章标签：聚类算法机器学习 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43595430/article/details/105683575

版权

机器学习同时被 2 个专栏收录

13 篇文章 0 订阅

订阅专栏

10 篇文章 0 订阅

订阅专栏

1.原理

k-means的原理很简单，首先在数据当中随机生成k个聚类中心，后计算数据当中每个样本到这k个聚类中心的距离，并将对应的样本分到距离最小的聚类中心所对应的簇当中，将所有样本归类之后，对于每一个k个簇重新计算每个簇的聚类中心，也就是每个簇中的所有样本的质心，重复上述操作，直到聚类中心不发生改变为止。具体操作如下图所示:
在这里插入图片描述
上述（a）为样本，（b）中随机生成两个聚类中心，（c）中计算每个样本到聚类中心的距离，并判断样本属于那个簇，（d）图重新计算聚类中心，（e）图重新计算样本与聚类中心的距离并重新分配每个簇的样本，重复上述操作，直到聚类中心不发生改变，（f）为最后的聚类结果。

2.k值的选择

2.1 轮廓系数

轮廓系数是聚类算法用来判定聚类结果好坏的评估指标，完全依赖于簇内的稠密程度和簇间的离散程度来评估聚类的效果，即簇内差异小，簇外差异大。单个样本的轮廓系数计算如下所示：
在这里插入图片描述
其中a为样本与同一个簇中所有其他点之间的平均距离，b为样本与下一个最近的簇中的所有样本之间的平均距离。我们希望的是b永远大于a，且大的越多越好，总的轮廓系数越高，则聚类效果越好。

2.2 Calinski-Harabasz

在这里插入图片描述

缺点

k-means是局部最优的，容易受到初始质心的影响，初始质心的不同会导致不同的聚类效果
k值的选取也会直接影响聚类的好坏，k值的选择应该和样本数据本身的结构信息相吻合，但是这种信息很难掌握，所以k值的选取很困难。

ideas-workstyle

关注

2
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
K-means原理介绍

1.原理k-means的原理很简单，首先在数据当中随机生成k个聚类中心，后计算数据当中每个样本到这k个聚类中心的距离，并将对应的样本分到距离最小的聚类中心所对应的簇当中，将所有样本归类之后，对于每一个k个簇重新计算每个簇的聚类中心，也就是每个簇中的所有样本的质心，重复上述操作，直到聚类中心不发生改变为止。具体操作如下图所示:上述（a）为样本，（b）中随机生成两个聚类中心，（c）中计算每个样本...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。