聚类分析(K-means聚类、层次聚类、二步聚类)及SPSS实操

一、What is 聚类分析?

(一)概念与原理

概念:聚类分析是一种典型的无监督学习, 用于对未知类别的样本进行划分,将它们按照一定的规则划分成若干个类族,把相似的样本聚在同一个类簇中, 把不相似的样本分为不同类簇,从而揭示样本之间内在的性质以及相互之间的联系规律

特点:将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,但所要划分的类是未知的

(二)聚类原理与选择

在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个案分类,也可以对变量分类,但对于变量分类此时一般使用相似系数作为“距离”测量指标。

PS:在数据处理中,注意不要将性别、学历等二值变量或有序变量进行K-means聚类处理。

二、K-means均值聚类

(一)概念与原理

1. 原理

核心:选择聚类中心后根据距离确定分类,再次生成新的聚类中心多次迭代,最终完成分类。

2. 流程图

3. 示意图

4. 优势与不足

优势:

(1)原理比较简单,实现也很容易,收敛速度快。

(2)在对大规模数据集进行聚类分析时,算法聚类较高效且聚类效果较好。

(3)簇与簇之间区别明显时,它的聚类效果很好。

不足:

(1)分类数从初始分类开始就确定不变了,所以要求事先要对样本有足够的了解。不同的初始质心将收敛得到不同的目标函数,可能只能达到局部最优解。

(2)仅限于个案间的聚类,不能对变量进行聚类。

(3)个案间的距离的测量方法使用的是欧式距离的平方,因此只能对连续变量进行聚类。

(4)容易受到离群点的影响

(二)SPSS实操

1.SPSS设置(分析→分类→K均值聚类)

2.结果分析

PS:ANOVA表重点看显著性与F值(描述对聚类贡献率)

3.规范性描述(示例)

三、系统聚类(层次聚类)

(一)概念与原理

1. 原理

        首先将一定数量的样本或指标各自看成一类,然后根据样本的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。

        核心:合并相似项

2. 分类

• Q 型聚类是对样本进行聚类,它使具有相似特征的样本聚集在一起,使差异性大的样本分离开来;
 R 型聚类是对变量进行聚类,它使差异性大的变量分离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数、降低变量维度的目的。

3. 流程图

(二)SPSS实操

1. SPSS设置(分析→分类→系统聚类)

2. 结果分析

谱系图:

        SPSS运行出的谱系图,可根据自己的需求划分出要聚类的个数,方法是画竖线。如上图,将样本分为两类,一类是北京、上海、天津的发达直辖市,一类是其他省份和直辖市。(k的个数为竖线与谱系图的交点个数)。但k的选取主观性较大,因此我们一般通过应用肘部法则修正系统聚类。

3.肘部法则

(1)原理:

(2)作图:

第一步:将聚合系数(即SPSS集中计划框中的系数)放入到excel表格中。

第二步:对聚合系数进行降序排序

第三步:在插入的图表中选择散点图。

第四步:对图表进行美化。双击X轴的数据,对其最小值设置为1(最小样本数),最大值设置为30(最大样本数),因为有1-30个样本。

第五步:美化后的图表,加上横坐标和纵坐标的描述。

4. 描述性分析

(1)SPSS分类

        最后SPSS表内最后一行会有CLU3,即选定的聚类成员。

(2)描述性分析

        第一步:

        第二步:

        第三步:

四、二阶聚类

(一)原理与条件

1. 原理

分为两个阶段进行聚类,也叫作二步聚类,这两步分别是预聚类和正式聚类。

  •  预聚类:构建和修改聚类特征树(CF),将所有观察值事先分为许多小亚类。
  •  正式聚类:CF树构造完成后,程序会将第一步的亚类进行再聚类,即用凝聚聚类算法将CF树的全部叶子节点分组。SPSS二阶聚类法会根据AIC和BIC的大小,以及类间最短距离的变化情况来确定最优的聚类数。

 2. 适用条件

  • 模型中的变量独立。
  • 类别变量是多项式分布。
  • 连续变量符合正态分布。

 (二)SPSS实操

1.SPSS设置(分析→分类→二阶聚类)

案例:研究以下变量对雇员薪金是否有影响

2. 结果分析

 

        根据五个分类变量和聚类情况,进行描述性分析。但是可能存在分类过于粗糙,区分度一般的问题。

3. 可视化结果 

(1)模型概要

    模型概要显示了有6个变量,被聚成了3类。聚类质量为良好。

 (2) 可视化分析(单击模型概要即可显示)

        可通过查看选择预测变量重要性、聚类大小。

       单击单个单元格,可显示单元格分布情况。(分类变量为直方图,连续变量为波形图)

 

        用Ctrl选中“聚类”页面的三个聚类列,可得聚类比较图。分类变量用圆圈表示,显示3个聚类的众数值在类别中的比率。连续变量用方框表示,显示3个聚类的中位数与四分位数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值