一种基于划分的算法,它属于基于距离的聚类算法。(采用距离作为相似性量度的评价指标)
算法思想:
(1)首先指定需要划分的簇的个数K值;
(2)然后随机地选择K个初始数据对象点作为初始的聚类中心;
(3)再次计算其余的各个对象划归到距离它最近的那个中心所处的簇类中;
(4)最后调整新类并且重新计算出新类的中心,如果两次计算出来的聚类中心未曾发生任何变化,就可以说明数据对象的调整已经结束。(聚类采用的准则函数是收敛的,一般采用误差平方和的准则函数)
K-means聚类是一种动态聚类算法,也称逐步算法,其显著特点就是迭代过程,每次要考察对每个样本数据的分类正确与否,如果不正确就要进行调整,调整完全部数据对象后再来修改中心,再进入下一次的迭代过程。当所有的数据对象都已经被正确分类,就不会有调整,聚类中心也不会改变,聚类准则函数也已经收敛,算法结束。