聚类分析在SPSS中的应用

上一篇:因子分析在SPSS中的应用

聚类分析

1、 方法概述

聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法,所谓类,通俗地说,就是指相似元素的集合。

2、 根据分类对象的不同聚类分析可以分为

样品聚类(又称Q型聚类):就是对事件进行聚类,或是说对观测量进行聚类,是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类。

变量聚类(又称R型聚类):反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。

3、 距离和相似系数

为了将样品(或指标)进行分类,就需要研究样品之间关系。目前用得最多的方法有两个:一种方法是用相似系数,性质越接近的样品,它们的相似系数的绝对值越接近1,而彼此无关的样品,它们的相似系数的绝对值越接近于零。比较相似的样品归为一类,不怎么相似的样品归为不同的类。另一种方法是将一个样品看作P维空间的一个点,并在空间定义距离,距离越近的点归为一类,距离较远的点归为不同的类。但相似系数和距离有各种各样的定义。

快速聚类法

K均值聚类法又称为快速聚类法,可以用于大量数据进行聚类分析的情形。他是一种非分层的聚类方法。这种方法占用内存少、计算量、处理速度快,特别适合大样本的聚类分析。它的基本操作步骤如下:

1、指定聚类数目k,应由用户指定需要聚成多少类,最终也只能输出关于它的唯一解。这点不同于层次聚类。在实际分析中,往往需要研究者根据问题,反复尝试把数据分成不同的类别数,并进行比较,从而找出最优方案。

2、确定k个初始类中心。两种方式:一种是用户指定,二是根据数据本身结构的中心初步确定.每个类别的原始中心点。

3、根据距离最近原则进行分类。逐一-计算每一纪录到各个中心点的距离,把各个记录按照距离最近的原则归入各个类别,并计算新形成类别的中心点(用平均数表示,这也就是K均值中均值的含义)。

4、按照新的中心位置,重新计算每一纪录距离新的类别中心点的距离,并重新进行归类。

5、重复步骤4,直到达到一定的收敛标准,或者达到分析者事先指定的迭代步数为止。

6、这种方法也常称为逐步聚类分析,即先把被聚类对象进行初始分类,然后逐步调整,得到最优方案。

系统聚类法

系统聚类法常称为层次聚类法、分层聚类法,也是聚类分析中使用广泛的一种方法。它有两种类型,一是对研究对象本身进行分类,称为Q型聚类;另一是对研究对象的观察指标进行分类,称为R型聚类。同时根据聚类过程不同,又分为分解法和凝聚法。

分解法:开始把所有个体(观测量或变量)都视为同属一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。

凝聚法:开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。

SPSS中的系统聚类法采用的凝聚法,它的算法步骤具体如下:

1、首先将数据各自作为一类(这时有n类),按照所定义的距离计算各数据点之间的距离,形成一个距离阵;

2、将距离最近的两条数据并为一个类别,从而成为n-1个类别,计算新产生的类别与其他各个类别之间的距离或相似度,形成新的距离阵;

3、按照和第二步相同的原则,再将距离最接近的两个类别合并,这时如果类的个数仍然大于1,则继续重复这一步骤,直到所有的数据都被合并成一个类别为止。

系统聚类的优点:可以对变量或样品进行聚类,变量可以为连续或分类变量。但是由于它要反复计算距离,当样本量太大或变量较多时,采用系统聚类运算速度明显较慢。

在系统聚类中,当每个类别有多于一个的数据点构成时,就会涉及如何定义两个类间的距离问题。根据距离公式不同,可能会得到不同的结果,这也就进一步构成了不同的系统聚类方法。常用的方法有如下几种:

Between-groups linkage(组间平均距离法):又称为类平均法,是用两个类别间各个数据点两两之间的距离的平均来表示两个类别之间的距离,这是SPSS默认的方法。(大量实践表明,该方法是一种非常优秀和稳健的方法,在多数情况下表现最为优异。)

Nearestneighbor(最短距离法):用两个类别中各数据点之间最短的那个距离来表示两个类别之间的距离。

Furthestneighbor(最远距离法):用两个类别中各数据点之间最远的那个距离来表示两个类别之间的距离.

Centroid clustering(重心法):用两个类别的重心之间的距离来表示两个类别之间的距离。

Ward’s method(离差平方和法):是要使得各类别中的离差平方和较小,而不同类别之间的离差平方和较大。使用该方法,将倾向于使得各个类别间的样本尽可能相近。

两步聚类法

其用于解决海量数据,复杂类别结构时的聚类分析问题
与K-均值聚类和系统聚类法相比,两步聚类有着鲜明的特点。首先,用于聚类的变量可以是连续变量也可以是离散变量;其次,两步聚类法占用内存资源少,对于大数据量,运算速度快;最后,它可以根据一定的统计标准来“自动地”建议甚至于确定最佳的类别数,结果的正确性更有保障。


在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值