K-means算法（知识点梳理）

努力的地球人

已于 2022-04-01 16:18:18 修改

阅读量1.5w

点赞数 25

文章标签： k-means kmeans

于 2022-03-31 19:37:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46336091/article/details/123874584

版权

目录

一.K-means算法的原理和工作流程

二.K-means中常用的距离度量方法

1.欧几里得距离（欧氏距离）

2.曼哈顿距离

3.切比雪夫距离

三.K-means算法中K值的选择

2. 轮廓系数

手肘法和轮廓系数的实现

四.初始点的选择

3.层次聚类或canopy预处理

五.陷入质心的循环停不下来怎么办

六.K-means算法与KNN算法的共同点与区别

七.K-means算法的优缺点

1.K-means算法的优点

2.K-means算法的缺点

八.根据K-means算法的缺点，有哪些改进的算法

3.Kernel K-means

九.如何对K-means进行算法调优

十.K-means算法实现

一.K-means算法的原理和工作流程

1.算法原理

K-means算法是基于原型的，根据距离划分组的无监督聚类算法，对于给定的样本集，按照样本间的距离大小，将样本划分为K个簇，使得簇内的点尽量紧密相连，而簇间的点距离尽量大。

2.工作流程

step1：随机选取K个点作为聚类中心，即k个类中心向量

step2：分别计算其他样本点到各个类中心向量的距离，并将其划分到距离最近的类

step3：更新各个类的中心向量

step4：判断新的类中心向量是否发生改变，若发生改变则转到step2，若类中心向量不再发生变化，停止并输出聚类结果

二.K-means中常用的距离度量方法

1.欧几里得距离（欧氏距离）

衡量多维空间中的两点间距离，也是最常用的距离度量方法。

2.曼哈顿距离

曼哈顿距离也叫出租车距离，用来标明两个点在标准坐标系上的绝对轴距总和。

3.切比雪夫距离

三.K-means算法中K值的选择

思考：如果我们的数据是关于色彩RGB数据，我们可以直接设置K为3对图片的参数进行聚类分析，这是在我们已知数据基本信息的前提下采取的策略。但是，如果我们并不知道数据的基本信息，怎么分类，分成几类就是我们不得不思考的问题，这时，我们更希望能够从数据的角度出发，判断这一组数据希望自己分成几类，即K为几时分类效果最好。

1.手肘法

1.简单描述手肘法

手肘法是最常用的确定K-means算法K值的方法，所用到的衡量标准是SSE（sum of the squared errors，误差平方和）

主要思想：当k小于真实聚类数时，随着k的增大，会大幅提高类间聚合程度，SSE会大幅下降，当k达到真实聚类数时，随着k的增加，类间的聚合程度不会大幅提高，SSE的下降幅度也不会很大，所以k/SSE的折线图看起

最低0.47元/天解锁文章

努力的地球人

关注

25
点赞
踩
234

收藏

觉得还不错? 一键收藏
2
评论
K-means算法（知识点梳理）

目录一.K-means算法的原理和工作流程1.算法原理2.工作流程二.K-means中常用的距离度量方法1.欧几里得距离（欧氏距离）2.曼哈顿距离3.切比雪夫距离三.K-means算法中K值的选择1.手肘法手肘法的实践2. 轮廓系数轮廓系数的实现四.初始点的选择1.随机选择2.最远距离 3.层次聚类或canopy预处理五.陷入质心的循环停不下来怎么办1.原因2.怎么办六.K-me...
复制链接

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。