三、(1)Kmeans

本文详细介绍了KMeans聚类算法的工作原理和应用,包括欧氏距离的计算和在文本聚类中使用TF-IDF的方式。通过实例解释了如何通过KMeans将数据分为不同的类别,并提到了如何选择最优的K值。最后,预告了将在后续内容中展示KMeans在Python中的实现。
摘要由CSDN通过智能技术生成

三、(1)Kmeans

Kmeans算法,即K均值聚类算法,一般指K均值聚类算法。

K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。

kmeans属于非监督学习中的一种,

我们通过几个简单的例子来加深一下Kmeans聚类的印象。
在这里插入图片描述
上图中有许多身份不同的人物,利用Kmeans聚类,我们或随机选取几个不同的人物,假设选取了一个红色和一个黄色两个人物类别,那么通过计算这两个人物和其他所有人物之间的距离,来确定最后形成的两个不同的小群里,理想情况就是所有工人可以分到一起,所有穿西装的可以分到一起。
在这里插入图片描述
我们可以自定义K值的选择来确定自己的数据需要被分成几类,在下一篇文章中。我们会通过类似于轮廓系数的评价指标来帮助我们选取最优的K值。下图简单的对Kmeans聚类的过程做

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值