K-means

最新推荐文章于 2023-04-26 23:57:53 发布

丁叔叔

最新推荐文章于 2023-04-26 23:57:53 发布

阅读量278

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43758551/article/details/87966738

版权

机器学习专栏收录该内容

46 篇文章 5 订阅

订阅专栏

算法原理

kmeans的计算方法如下：

1 随机选取k个中心点

2 遍历所有数据，将每个数据划分到最近的中心点中

3 计算每个聚类的平均值，并作为新的中心点

4 重复2-3，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代

时间复杂度：O(Ink*m)

空间复杂度：O(n*m)

其中m为每个元素字段个数，n为数据量，I为迭代个数。一般I,k,m均可认为是常量，所以时间和空间复杂度可以简化为O(n)，即线性的。

判停标准：

kmeans算法的迭代优化过程一直持续直到满足某个判停标准，如果在这一轮迭代中：

1、训练样本所属类别不再发生改变或者只有很少几个训练样本改变；
2、目标函数变化很小或者聚类中心向量变化很小；
3、达到最大迭代次数。

满足其中一个条件，即可停止训练。如果满足条件1或2，说明算法已经收敛。

K值的选取：

随着聚类数K的增大，目标函数呈减小趋势。但是另一方面K值的增大会导致存储空间和计算量的增加。那么如何选择合适的K值呢？
1.经验法：根据问题的性质和先验知识，人为指定聚类的数目。
2.爬山法：但当聚类数目到达一定值以后，聚类数目的增加目标函数的变化很小，这个拐点可以认为是最优聚类数目。
在这里插入图片描述

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

丁叔叔 CSDN认证博客专家 CSDN认证企业博客

码龄6年

322: 原创

23万+: 周排名

222万+: 总排名

32万+: 访问

: 等级

4310: 积分

59: 粉丝

191: 获赞

25: 评论

795: 收藏

私信

关注

热门文章

分类专栏

产品经理 47篇
问答系统
听书 1篇
neo4j 1篇
测试 5篇
postman 1篇
数据挖掘 2篇
前端 5篇
JAVA
linux 2篇
Git教程 4篇
SPARQL 1篇
protege学习 2篇
PRD撰写
Pytroch 12篇
NLP 49篇
深度学习 34篇
机器学习 46篇
sk-learn 11篇
tf 10篇
爬虫 7篇
爬虫实例 7篇
numpy 3篇
pandas 1篇
matplotlib 6篇
python基础 12篇
opencv 1篇
目标检测 2篇
知识图谱 29篇

最新评论

pyltp
小白顶呱呱: 把语义角色标注结果的解释写清楚了👍
利用tf-idf计算文本相似度
我不是大佬zvj: 在代码里面写绝对路径，你是有点逆天，我复制下来都不好使，还要一个一个改，浪费时间
利用tf-idf计算文本相似度
Domices: 假如所有的文章都不包含这个词，那这个词为什么会被拿来计算呢
matplotlib取消边框
Acowardintheworld: 谢啦就是这个看到好几篇文章，全都是基于子图的
Hmm 和CRF区别
fishguy2022: crf也可以分词啊，词性标注不就是分词吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。