数据挖掘算法和实践（八）：K-means 聚类(西瓜数据集)

最新推荐文章于 2022-11-23 15:46:24 发布

置顶 A叶子叶

最新推荐文章于 2022-11-23 15:46:24 发布

阅读量8.1k

点赞数 3

分类专栏： # 数据挖掘算法与实践文章标签：自然语言处理数据挖掘机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yezonggang/article/details/106094616

版权

数据挖掘算法与实践专栏收录该内容

38 篇文章 83 订阅 ¥9.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了无监督学习中的K-Means聚类算法，阐述了其工作原理、特点及适用场景。通过西瓜数据集展示了K-Means的运用，详细解析了算法流程，并对KMeans函数的参数进行了说明。

摘要由CSDN通过智能技术生成

之前章节讲到的算法都是有监督学习方法，在建模之前需要训练（样本）数据集，模型根据样本数据集的结果，训练得到某些参数，形成分类器。无监督学习没有训练数据集，在数据集上根据某种规则完成模型建立；

所谓物以类聚-人以群分，“类”指的是具有相似性的集合，聚类是指将数据集划分为若干类，使得各个类之内的数据最为相似，而各个类之间的数据相似度差别尽可能的大。聚类分析就是以相似性为基础，在一个聚类中的模式之间比不在同一个聚类中的模式之间具有更多的相似性。对数据集进行聚类划分，属于无监督学习。

K-Means是最常用且简单的聚类算法，最大特点是好理解，运算速度快，时间复杂度近于线性，适合挖掘大规模数据集。但是只能应用于连续型的数据，并且一定要在聚类前需要手工指定要分成几类；

K-Means采用距离作为相似性指标，从而发现给定数据集中的K个类，且每个类的中心是根据类中所有数值的均值得到的，每个类的中心用聚类中心来描述。对于给定的一个（包含n个一维以及一维以上的数据点的）数据集X以及要得到的类别数量K，选取欧式距离作为相似度指标ÿ

了解本专栏

超级会员免费看

关注

3
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

A叶子叶 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。