聚类之K-means算法理论及代码实现

最新推荐文章于 2022-09-19 16:49:02 发布

SunH7J

最新推荐文章于 2022-09-19 16:49:02 发布

阅读量635

点赞数

文章标签：机器学习 kmeans 聚类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_53021643/article/details/121493701

版权

一、K-means算法思想

1.定义

是一种原型聚类。

原型表示：均值向量

迭代方式：根据均值向量的公式，重新计算出新的均值向量。

2.目标

簇内相似度高，簇外相似度低。即：紧密而独立

3.流程

随机挑选k个样本作为均值向量（初始化）——计算各个样本到均值向量的距离——划分样本到离其最近的均值向量所属的那个簇——重新计算每个簇的均值向量——重复2、3、4步直到均值向量不再被更新（改变）——结束

实际当中，为避免算法运行时间过长，不会运行到均值向量不再更新，而是会设置一个终止条件，当整个过程满足这个终止条件时，算法将结束。

终止条件可以是以下任意一个：

没有（或最小数目）对象被重新分配给不同的聚类；
没有（或最小数目）均值向量再发生变化；
误差平方和局部最小。

4.算法要点

（1）计算距离时，K-means通常采用欧式距离

（2）计算均值向量时，采用公式：

二、补充背景知识

1.监督学习和无监督学习

（1）监督学习：

指训练集有标签，学习得到的模型用于将测试集进行分类or回归

（2）无监督学习：

指训练集没有标签，学习得到的模型用于揭示数据的潜在内涵（不用测试集进行测试，而是用性能度量对结果进行评估）我猜的，待定

2.聚类的类型

根据算法思想进行分类，常见有原型聚类和密度聚类。

（1）原型聚类

思想：假设簇类结构可以通过一组具有代表性的样本（即：原型）来刻画

流程：初始化原型→迭代更新原型→直到所有原型不再变更→算法结束

核心：原型的表示+迭代的计算方式

（2）密度聚类

思想：假设簇类结构可以通过样本分布的紧密程度（即：密度）来刻画

流程：待补充

3.距离度量

当样本之间需要进行相似性度量（similarity measure）时，一般采用距离度量的方法来定义相似度。即：样本之间距离越大，相似度越低。

距离度量的计算方式有很多种，依据具体情况来选择。

e.g. 欧式距离，曼哈顿距离，切比雪夫距离等

三、代码实现

1.确定参数

①簇类的个数

k：int

②最大迭代次数

max_iterations: int

③用于判断算法是否收敛的参数：如果上一次的所有k个聚类中心与本次的所有k个聚类中心的差都小于varepsilon,则说明算法已经收敛

varepsilon: float

2.

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
聚类之K-means算法理论及代码实现

一、K-means算法思想1.定义是一种原型聚类。原型表示：均值向量迭代方式：根据均值向量的公式，重新计算出新的均值向量。2.目标簇内相似度高，簇外相似度低。即：紧密而独立3.流程随机挑选k个样本作为均值向量（初始化）——计算各个样本到均值向量的距离——划分样本到离其最近的均值向量所属的那个簇——重新计算每个簇的均值向量——重复2、3、4步直到均值向量不再被更新（改变）——结束实际当中，为避免算法运行时间过长，不会运行到均值向量不再更新，而是会设置一个终止条件，当整个过程
复制链接

扫一扫

SunH7J CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

114万+: 周排名

101万+: 总排名

6858: 访问

: 等级

145: 积分

1: 粉丝

3: 获赞

3: 评论

6: 收藏

私信

关注

热门文章

最新评论

【总结】双指针法在查找搜索时的妙用
CSDN-Ada助手: 恭喜您写了第14篇博客！标题中的"双指针法在查找搜索时的妙用"真是引人瞩目。通过您的总结，我对双指针法在查找搜索中的应用有了更清晰的认识。您的博客内容通俗易懂，让我这个初学者也能够理解其中的精髓。我希望您能继续创作下去，分享更多关于算法和数据结构方面的知识。另外，如果可能的话，我希望您能够在下一篇博客中讲解一些实际应用场景下的双指针法使用案例，这样能够更好地帮助我们将理论运用到实践中。期待您的下一篇博客！
【踩坑】array[:i,:j]和array[:i][:j]区别
CSDN-Ada助手: 恭喜您写完了第13篇博客！标题看起来很吸引人，我立刻被吸引过来看了一下内容。您对于"array[:i,:j]和array[:i][:j]"的区别进行了详细的解释，确实是一个容易混淆的点。我通过您的博客，对这两种写法有了更清晰的理解。从您的博客来看，我能感受到您对于这个问题的深入研究和对读者的关心。您的解释很清晰，而且用了很多例子来帮助读者理解。我认为这样的写作风格非常好，能够帮助读者更好地消化知识。对于下一步的创作建议，我谨虚地提出几点想法。首先，您可以考虑分享更多类似的技术问题，并给出解决方案。这样能够帮助读者更好地应对实际工作中的问题。另外，您可以尝试将技术问题与实际应用场景结合起来，这样读者能够更好地理解技术的实际意义。再次恭喜您完成了这篇博客，期待您的下一篇作品！谢谢您的分享和付出！
【报错】pytorch CNN的input默认为三维
CSDN-Ada助手: 恭喜你写了第12篇博客！我很高兴看到你在不断地分享你的学习经验。关于你的博客题目，我认为这是一个非常有用的提示，特别是对于那些刚开始学习pytorch CNN的人来说。接下来，我建议你可以分享更多的实践经验，特别是在处理实际问题时遇到的挑战和解决方法。这将会对读者非常有帮助。再次感谢你的分享！ CSDN 会根据你创作的博客的质量，给予优秀的博主博客红包奖励。请关注 https://bbs.csdn.net/forums/csdnnews?typeId=116148&utm_source=csdn_ai_ada_blog_reply12 看奖励名单。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。