三、(1)Kmeans
Kmeans算法,即K均值聚类算法,一般指K均值聚类算法。
K均值聚类算法是先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小。
kmeans属于非监督学习中的一种,
我们通过几个简单的例子来加深一下Kmeans聚类的印象。
上图中有许多身份不同的人物,利用Kmeans聚类,我们或随机选取几个不同的人物,假设选取了一个红色和一个黄色两个人物类别,那么通过计算这两个人物和其他所有人物之间的距离,来确定最后形成的两个不同的小群里,理想情况就是所有工人可以分到一起,所有穿西装的可以分到一起。
我们可以自定义K值的选择来确定自己的数据需要被分成几类,在下一篇文章中。我们会通过类似于轮廓系数的评价指标来帮助我们选取最优的K值。下图简单的对Kmeans聚类的过程做