【统计分析数学模型】聚类分析: 系统聚类法
一、聚类分析
1. 基本原理
聚类分析(Cluster Analysis) 是研究“物以类聚”的一种方法,有时称为群分析、点群分析、簇类分析等。
聚类分析是根据研究对象的特征对研究对象进行分类的多元分析技术的总称。聚类分析是应用最广泛的分类技术,它把性质相近的个体归为一类,使同一类的个体具有高度的同质性。
聚类分析大部分都属于探测性研究,最终结果是产生研究对象的分类,通过对数据的分类研究还能产生假设。聚类分析也可用于证实性目的,对于通过其他方法确定的数据分类,可以应用聚类分析进行检验。
- 聚类分析和判别归类有着不同的分类目的,彼此之间既有区别又有联系。
- 聚类分析分为Q型(分类对象为样品)和R型(分类对象为变量)两种。
2. 距离的度量
相似性度量包括:距离和相似系数.
样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系.
(1)变量的测量尺度
变量的测量尺度:间隔、有序和名义尺度.
- 间隔变量: 变量用连续的量来表示,如长度、重量、速度、温度等.
- 有序变量: 变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序关系.
- 名义变量: 变量用一些类表示,这些类之间既无等级关系也无数量关系,如性别、职业、产品的型号等.
(2)距离
常用的距离包括:
- 明考夫斯基(Minkowski)距离
- 兰氏(Lance和Williams)距离
- 马氏距离
- 斜交空间距离
(3)R语言计算距离
dist(x, method = "euclidean", diag = FALSE, upper = FALSE, p = 2)
其中参数含义:
参数 | 含义 |
---|---|
X | 数据矩阵 |
method | 距离计算方法包括"euclidean", "maximum“, “manhattan”, “canberra”, “binary” or “minkowski” |
diag | 是否包含对角线元素 |
upper | 是否需要矩阵上三角 |
p | Minkowski距离的幂次 |
示例:
X=c(1,2,6,8,11)
dist(X,diag=1,upper=1)
运行结果如下:
1 2 3 4 5
1 0 1 5 7 10
2 1 0 4 6 9
3 5 4 0 2 5
4 7 <