1. 最简单的确定初始类簇中心点的方法是随机选择K个点作为初始的类簇中心点,但是该方法在有些情况下的效果较差。
2. 首先随机选择一个点作为第一个初始类簇中心点,然后选择距离该点最远的那个点作为第二个初始类簇中心点,然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点,以此类推,直至选出K个初始类簇中心点。
3. 选用层次聚类或者Canopy算法进行初始聚类,然后利用这些类簇的中心点作为KMeans算法初始类簇中心点.
K均值聚类算法(K-Means)
聚类就是按照某个特定标准(如距离准则)把一个数据集分割成不同的类,使得同一个类内的数据对象的相似性尽可能大,同时使不在同一个类中的数据对象的差异性也尽可能地大。即聚类后同一类的数据尽可能聚集到一起,不同类的数据尽量分离。
K均值聚类算法是由Mac Que提出的。K均值聚类算法是一种经典的划分聚类算法,K均值聚类算法是一种迭代的聚类算法,在迭代的过程中不断移动聚类中心,直到聚类准则函数收敛为止。
K均值聚类篡法的基本思想
K均值聚类算法属于一种动态聚类算法,也称逐步聚类法,在聚类算法迭代之前,算法首先随机的从数据集中依次选取k个数据对象作为k个初始聚类中也,根据类中对象的均值,即聚类中也,依次将其他的数据对象划分到与其最近的聚类中也所在的类中,数据对象划分完毕,然后计算每个聚类的中心,更新聚类中心作为新的聚类中心点,迭代上述聚类过程。直到聚类中也不再发生变化,即聚类准则画数值收敛为止或者聚类准则函数连续值相差小于给定阀值。通常采用的目标函数即聚类准则函数为误差平方和准则函数。在每次迭代中都要考察样本的分类是否正确是K均值聚类算法的一个的特点。
在数据挖掘中