摘要
系统聚类分为Q型聚类与R型聚类。前者对样品进行聚类,后者对变量进行聚类。在本文中,我们探讨对样品的分类。
主要思想
聚类,在样品没有给定历史分类信息的前提下,仅依靠样品之间的相似性进行分类。对于“相似”的样品,将其分为一类。而这种相似性,将要依靠“距离”进行度量。
相似性的度量
正如上述所说,根据样品间的相似性(靠近程度)进行聚类,样品间的靠近程度就利用距离进行衡量。
每个拥有p个变量观测值的样品可以看作p维空间中的一个点,若存在n个样品,即该空间就存在n个点。
利用距离来定义n个点中两两之间的距离,设有两点 x = ( x 1 , x 2 , . . . , x p ) T x=(x_1,x_2,...,x_p)^T x=(x1,x2,...,xp)T与 y = ( y 1 , y 2 , . . . , y p ) T y=(y_1,y_2,...,y_p)^T y=(y1,y2,...,yp)T
下面介绍几种距离:
- 欧氏距离
d 2 ( x , y ) = ∑ i = 1 p ( x i − y i ) 2 = ( x − y ) T ( x − y ) d^2(x,y)=\sum_{i=1}^p(x_i-y_i)^2=(x-y)^T(x-y) d2(x,y)=i=1∑p(xi−yi)2=(x−y)T(x