使用KMeans对iris数据集聚类

最新推荐文章于 2024-04-29 06:00:00 发布

G_瑞琴

最新推荐文章于 2024-04-29 06:00:00 发布

阅读量7.4k

点赞数 6

文章标签： kmeans 聚类机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_50197893/article/details/122464886

版权

本文介绍了聚类分析的基本概念，重点讨论了K-Means聚类算法的工作原理，包括如何选择合适的K值。通过肘部法则确定了iris数据集的最佳K值，并进行了实际的聚类操作，最后展示了聚类结果的可视化，揭示了聚类的准确性。

摘要由CSDN通过智能技术生成

一、聚类分析的基本知识

聚类分析也称聚类，它与分类是不同的，分类的目标变量是已知的，每个样本都存在类标签，而聚类的目标变量是事先不知道的，聚类的样本类别没有被预先定义出来。聚类是根据聚类算法或样本对象划分成两个以上的子集，每个子集称为一个簇，簇中对象因特征属性值接近而彼此相似，不同簇对象之间则彼此存在差异，簇内的对象越相似，聚类的效果就越好。

聚类分析是将相似的对象归为同一簇，将不相似的对象归为不同簇，这就需要一种计算方法来度量相似程度，常用的相似度计算方法有欧式距离、余弦距离、曼哈顿距离以及闵可夫斯基距离。

二、K-Means聚类算法

K-means算法中的K表示的是聚类为K个簇，means代表取每一个聚类中数据值的均值作为该簇的中心，也可称为质心，用质心对该簇进行描述。

K-means算法在P个样本中随机选取K个样本作为初始聚类中心点，而对于剩余的其他样本，根据与所选的各聚类中心点的相似度或者距离，将它们分别分配给相似度最高或者距离最近的类，然后计算每一类中样本数据的平均值，更新聚类中心点（质点），并不断重复这个过程，直到各个质心不再变化。

K-means算法中的关键步骤是计算样本与所有聚类中心的距离，生成新的聚类中心。

三、K-means聚类中K值的选择

K-means算法通常使用肘部法则来选择K值。肘部法则考察聚类后全体样本的误差平方和SSE，将SSE随K值的变化由快速下降转变为缓慢变化的拐点处的K值，作为最佳聚类簇数。

肘部法则选择K值的依据：随着聚类数K的增大，样本划分会更加精细，每个簇的聚合程度会逐渐提高，那么误差平方和SSE自然会逐渐变小。且当K小于真实聚类数时&

最低0.47元/天解锁文章

关注

6
点赞
踩
83

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。