一、实验目的
1.了解适合用聚类分析解决的问题;
2.理解对象之间的相似性是如何测量的;
3.区别不同的距离;
4.区分不同的聚类方法及其相应的应用;
5.理解如何选择类的个数;
6.简述聚类分析的局限。
城镇居民消费水平通常用食品、衣着、居住、生活用品及服务、交通通信、文教娱乐、医疗保健和其他用品及服务支出这八项指标来描述,八项指标间可能存在一定的线性关系。为研究城镇居民的消费结构,需将相关性强的指标归并到一起,这实际上就是对指标聚类。表3-15中列出了2016年我国分地区(不含港澳台)城镇居民的人均消费支出的原始数据,数据来源于2017年《中国统计年鉴》。
在SPSS中依次选择 Analyze→-Classify→K-Means Cluster,打开 K-均值聚类对话框,将8个指标变量选入Variables框中,并将表示地区的变量选人Label Cases by框。然后,将分类数设为3,点击对话框右侧的Options选项并打开对话框,读者可以根据实际情况选择输出初始类中心、方差分析表和每个样品的分类信息。点击Save按钮可以选择保存样本的聚类结果(Cluster membership)和各样本与各自中心点的距离(Distance from cluster center),点击Continue继续,点击OK运行,可得到如下输出结果(见输出结果3-2)。
|
Initial Cluster Centers | |||
|
Cluster | |||
|
1 |
2 |
3 | |
|
x1 |
10014.80 |
9421.60 |
3862.80 |
|
x2 |
1834.80 |
1583.40 |
1603.00 |
|
x3 |
13216.00 |
6410.40 |
3633.80 |
|
x4 |
1868.20 |
1721.90 |
951.60 |
|
x5 |
4447.50 |
4198.10 |
2401.00 |
|
x6 |
4533.50 |
3103.40 |
2439.00 |
|
x7 |
2839.90 |
1304.50 |
1651.60 |
|
x8 |
1102.10 |
870.10 |
450.10 |
|
Iteration Historya | |||
|
Iteration |
Change in Cluster Centers | ||
|
1 |
2 |
3 | |
|
1 |
1294.517 |
1505.337 |
2024.714 |
|
2 |
.000 |
856.642 |
174.823 |
|
3 |
.000 |
.000 |
.000 |
|
a. Convergence achieved due to no or small change in cluster centers. The maximum absolute coordinate change for any center is .000. The current iteration is 3. The minimum distance between initial centers is 6570.494. | |||
|
Final Cluster Centers | |||
|
Cluster | |||
|
1 |
2 |
3 | |
|
x1 |
9042.60 |
8451.46 |
5992.26 |
|
x2 |
2238.90 |
1770.86 |
1690.75 |
|
x3 |
12672.00 |
6530.84 |
3855.78 |
|
x4 |
2189.60 |
1563.20 |
1258.90 |
|
x5 |
4762.70 |
4089.80 |
2699.65 |
|
x6 |
4294.10 |
2964.94 |
2271.42 |
|
x7 |
2734.85 |
1594.32 |
1574.10 |
|
x8 |
1121.35 |
727.40 |
494.20 |
|
Number of Cases in each Cluster | ||
|
Cluster |
1 |
2.000 |
|
2 |
5.000 | |
|
3 |
24.000 | |
|
Valid |
31.000 | |
|
Missing |
.000 | |
输出结果3-2中的第一张表展示了3个类的初始类中心的情况,可以看出,第一类的各指标值总体上是最优的,其次是第二类。第二张表展示了3个类中心点每次迭代的偏移情况,由此可知第一次迭代3个类中心点的偏移量分别为1294.517,1505.337,2024.714,直到第三次迭代3个类中心点的偏移量均为0,达到指定的停止迭代标准。第三张表展示了3个类的最终类中心情况,第一类各指标值仍是最优的。最后一张表给出了各类所包含的样品数,其中第一类包含2个地区,第二类包含5个地区,第三类包含24个地区。如果在操作过程中选择了保存样本的聚类结果,可以返回数据表,看到名为QCL_1的变量,其各值表示对应地区所属的类别。
其中,北京和上海为第一类;天津、江苏、浙江、福建和广东为第二类;其余地区为第三类。由表3-17可知,当把所有样品分为三类时,类平均法和最长距离法所得到的结果一致,(北京,上海)为一类,这两个地区的居民平均消费水平最高;(天津,江苏,浙江,福建,广东)为一类,这些地区的居民平均消费水平居中;其余的地区为一类,居民的平均消费水平较低。但最短距离法将北京和上海分别聚为一类,其余为一类,相对不如类平均法和最长距离法得到的分类结果合理。
261

被折叠的 条评论
为什么被折叠?



