聚类的定义
- 聚类就是按数据的相似性,将其划分为多个类别,从而使内别内的相似度大,内别间的相似度小。
- 它是一种无监督学习方式,即不需要先给定样本进行学习。
相似度的度量方式
聚类的目的就是为了将相似样本的样本分到同一个类别里。那么,首先要考虑的便是如何度量这个相似。下面给出几种常见的度量方式:
闵可夫斯基距离里,当p=2时,便是我们熟知的欧氏距离,可见,它的适用范围属于能在坐标轴里描绘的点的样本集。
关于各种相似性的度量,可参考下面这篇博客的详细解释:
http://www.cnblogs.com/heaad/archive/2011/03/08/1977733.html
K-means算法
算法首先随机地选择K个对象,每个对象初始地代表了一个簇的平均值或中心。对剩余的每个对象根据其与各个簇中心的距离,将其赋给最近的簇。然后重新计算出每个簇的中心,然后继续将每个点赋给最近的簇。这个过程不断重复,直到准则函数收敛。
其中,准则函数常常使用最小平方误差函数MSE,其定义如下: