聚类任务
聚类属于无监督学习,即训练样本的标记信息是未知的。
性能度量
聚类性能度量也称为聚类有效性指标。
簇内相似度和簇间相似度
内部指标和外部指标。内部指标指的聚类参考内部模型。外部指标指的是参考外部指标。
Jaccard系数;FM指数;Rand指数
DB指数;Dunn指数;
距离计算
距离也是一种度量标准,称之为距离度量。
闵可夫斯基距离
当p=2 时,即是欧式距离(Euclidean Distance)
当p= 1时,即是曼哈顿距离(Manhattan Distance)
数据之间的距离计算,需要根据数据的属性进行采取不同的方法,属性分为连续属性和离散属性。或者被分为有序属性和无序属性。
对于无序属性可以采取VDM(Value Difference Metric)测量方式。
另外也可以采取将闵可夫斯基距离和VDM结合的方式。这是一种混合度量距离的方式。
对于重要性不同的属性,可以采取加权距离的方式
原型聚类
k均值算法
k均值算法通过采取最小化数据和聚类中心的平方误差。算法原理如下图所示: