讲解机器学习中的 K-均值聚类算法及其有缺点

最新推荐文章于 2023-09-18 17:38:33 发布

weixin_45906460

最新推荐文章于 2023-09-18 17:38:33 发布

阅读量172

点赞数

文章标签： k-近邻算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45906460/article/details/132575989

版权

K-均值聚类（K-means clustering）是一种无监督学习算法，用于将数据集划分为K个不同的群类。其基本思想是将数据点分为K个簇，使得每个簇内部的点越相似，不同簇之间的差异越大。该算法主要分为两个步骤：初始化K个聚类中心和迭代调整聚类中心。

K-均值聚类算法的优点：

1.简单易懂：K-均值算法易于理解和实现，是入门级的聚类算法。

2.计算速度较快：K-均值算法的计算时间复杂度为O(tkn)，其中t代表迭代次数，k代表簇数，n代表数据集中的点数。由于这个算法仅涉及简单的数学运算，因此在处理大型数据集时可以快速地进行计算。

3.可扩展性：K-均值算法可以轻松地通过增加或减少簇数来扩展或压缩聚类模型。

K-均值聚类算法的缺点：

1.对初始值敏感：簇的初始中心的选择会影响聚类结果，如果初始值不好，将可能得到一个较差的聚类结果，因此需要采用一些特殊的方法来选择初始簇中心，比如随机选择多个点，多次执行算法，选取最优结果等。

2.对数据分布敏感：该算法需要指定簇的数量，但当数据分布中存在噪声或簇之间的边界模糊时，可能无法确定最佳簇数，也可能将相似的点分到不同的簇中。

3.不适用于处理大量的高维数据：当数据集有很多特征时，K-均值算法可能会失效，因为高维数据往往呈现出稀疏性（即大部分特征值为0），导致两个数据点看起来很相似，但实际上它们之间的距离很远。

weixin_45906460

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
讲解机器学习中的 K-均值聚类算法及其有缺点

2.计算速度较快：K-均值算法的计算时间复杂度为O(tkn)，其中t代表迭代次数，k代表簇数，n代表数据集中的点数。1.对初始值敏感：簇的初始中心的选择会影响聚类结果，如果初始值不好，将可能得到一个较差的聚类结果，因此需要采用一些特殊的方法来选择初始簇中心，比如随机选择多个点，多次执行算法，选取最优结果等。3.不适用于处理大量的高维数据：当数据集有很多特征时，K-均值算法可能会失效，因为高维数据往往呈现出稀疏性（即大部分特征值为0），导致两个数据点看起来很相似，但实际上它们之间的距离很远。
复制链接

扫一扫

weixin_45906460 CSDN认证博客专家 CSDN认证企业博客

码龄5年

1: 原创

179万+: 周排名

32万+: 总排名

172: 访问

: 等级

10: 积分

0: 粉丝

0: 获赞

0: 评论

0: 收藏

私信

关注

热门文章

讲解机器学习中的 K-均值聚类算法及其有缺点 171

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。