聚类方法
聚类:
聚类是针对给定的样本,依据它们特征的相似度或距离,将其归并到若干个“类”或“簇”的数据分析问题。其结果满足,类内部相似,类之间不相似。在机器学习中聚类属于无监督学习,常用的算法很多,书中介绍了两种:层次聚类(hierarchical clustering)和 k均值聚类(k-means clustering).
相似度和距离:
如何定义样本之间的相似度或关系,这就需要一些度量指标。在聚类中,比较常见地就是相似度或距离。
在样本空间中, 样本集合可以用一个矩阵来表示, X = [ x i j ] m × n X=[x_{ij}]_{m\times n} X=[xij]m×n, 每个样本可以由n个特征表示,记作 1 × n {1\times n} 1×n, 总共有m个样本。
-
闵可夫斯基距离
闵可夫斯基距离越大相似度越低,距离越小相似度越高。定义如下
d i j = ( ∑ k = 1 m ∣ x k i − x k j ∣ p ) 1 p d_{ij} = ({\sum^{m}_{k=1}|x_{ki}-x_{kj}|^p})^{\frac{1}{p}} dij=(∑k=1m∣xki−xkj∣p)p1
当 p = 1 p=1 p=1 时,闵可夫斯基距离就是曼哈顿距离
当 p = 2 p=2 p=2 时,闵可夫斯基距离就是欧式距离
当 p = ∞ p=\infty p=∞ 时,闵可夫斯基距离就是切比雪夫距离
-
马哈拉诺比斯距离
马哈拉诺比斯距离简称马氏距离,考虑各个分量(特征)之间的相关性并与各个分量的尺度无关。 同样地马氏距离越大相似度越低,距离越小相似度越高。定义如下
d i j = [ ( x i − x j ) T S − 1 ( x i − x j ) ] 1 2 d_{ij} = [(x_i-x_j)^TS^{-1}(x_i-x_j)]^{\frac{1}{2}} dij=[(xi−xj)TS−1(xi−xj)]21
S S S 作为样本聚合的协方差矩阵
-
相关系数
样本之间的相似度也可以用相关系数(correlation coefficient)来表示。 相关系数越接近1, 表示样本越相似; 越接近0,表示样本越不相似。 定义如下
r i j = ∑ k = 1 m ( x k i − x − i ) ( x k j − x − j