聚类中心部分

K均值聚类算法是通过迭代寻找数据的最佳划分,初始聚类中心的选择对结果有很大影响。常见的选取方法包括随机选择、最远距离选择以及使用层次聚类或Canopy算法。该文探讨了不同初始中心点选取策略,强调其对算法性能和聚类准确度的影响,并提出改进的初始中心选择算法,以避免局部最优解并提高聚类效果。
摘要由CSDN通过智能技术生成

1. 最简单的确定初始类簇中心点的方法是随机选择K个点作为初始的类簇中心点,但是该方法在有些情况下的效果较差。

2. 首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。

3. 选用层次聚类或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为KMeans算法初始类簇中心点.

K均值聚类算法(K-Means)
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类,使得同一个类内的数据对象的相似性尽可能大,同时使不在同一个类中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同类的数据尽量分离。
K均值聚类算法是由Mac Que提出的。K均值聚类算法是一种经典的划分聚类算法,K均值聚类算法是一种迭代的聚类算法,在迭代的过程中不断移动聚类中心,直到聚类准则函数收敛为止。
K均值聚类篡法的基本思想
K均值聚类算法属于一种动态聚类算法,也称逐步聚类法,在聚类算法迭代之前,算法首先随机的从数据集中依次选取k个数据对象作为k个初始聚类中也,根据类中对象的均值,即聚类中也,依次将其他的数据对象划分到与其最近的聚类中也所在的类中,数据对象划分完毕,然后计算每个聚类的中心,更新聚类中心作为新的聚类中心点,迭代上述聚类过程。直到聚类中也不再发生变化,即聚类准则画数值收敛为止或者聚类准则函数连续值相差小于给定阀值。通常采用的目标函数即聚类准则函数为误差平方和准则函数。在每次迭代中都要考察样本的分类是否正确是K均值聚类算法的一个的特点。
在数据挖掘中࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值