一、实验目的
1.掌握应该使用线性判别函数而不使用多元回归的情形;
2.理解判别分析用于实际问题时的基本假定;
3.掌握判别分析应用时的要点;
4.描述判别分析的计算方法及其应用场合;
5.掌握如何解释线性判别函数的性质,即用显著的判别力去判定被解释变量;
6.掌握如何通过SPSS软件实现判别分析。
7.回归模型普及性的基础在于用它去预测和解释度量(metric)变量。
根据系统聚类法的谱系图图3-18、图3-19和图3-20可知,若将2016年全国31个省、直辖市、自治区城镇居民的人均消费支出水平划分为2类,其中北京和上海为一类,其余地区为一类。现将广东和西藏作为待判样品,具体分类数据如表4-3所示。试建立费歇线性判别函数,并将广东和西藏两个待判省区归类。
实验内容:
DISCRIMINANT
/GROUPS=Group(1 2)
/VARIABLES=X1 X2 X3 X4 X5 X6 X7 X8
/ANALYSIS ALL
/SAVE=CLASS
/PRIORS EQUAL
/STATISTICS=MEAN STDDEV RAW
/CLASSIFY=NONMISSING POOLED.
|
Analysis Case Processing Summary | |||
|
Unweighted Cases |
N |
Percent | |
|
Valid |
29 |
93.5 | |
|
Excluded |
Missing or out-of-range group codes |
2 |
6.5 |
|
At least one missing discriminating variable |
0 |
.0 | |
|
Both missing or out-of-range group codes and at least one missing discriminating variable |
0 |
.0 | |
|
Total |
2 |
6.5 | |
|
Total |
31 |
100.0 | |
|
Group Statistics | |||||
|
Group |
Mean |
Std. Deviation |
Valid N (listwise) | ||
|
Unweighted |
Weighted | ||||
|
1 |
X1 |
9042.6000 |
1374.89843 |
2 |
2.000 |
|
X2 |
2238.9000 |
571.48370 |
2 |
2.000 | |
|
X3 |
12672.0000 |
769.33218 |
2 |
2.000 | |
|
X4 |
2189.6000 |
454.52824 |
2 |
2.000 | |
|
X5 |
4762.7000 |
445.76011 |
2 |
2.000 | |
|
X6 |
4294.1000 |
338.56273 |
2 |
2.000 | |
|
X7 |
2734.8500 |
148.56313 |
2 |
2.000 | |
|
X8 |
1121.3500 |
27.22361 |
2 |
2.000 | |
|
2 |
X1 |
6219.3370 |
1161.92606 |
27 |
27.000 |
|
X2 |
1705.0556 |
367.54290 |
27 |
27.000 | |
|
X3 |
4265.4852 |
1035.99501 |
27 |
27.000 | |
|
X4 |
1308.3222 |
212.29766 |
27 |
27.000 | |
|
X5 |
2920.1519 |
669.68013 |
27 |
27.000 | |
|
X6 |
2419.0000 |
414.39125 |
27 |
27.000 | |
|
X7 |
1624.4481 |
351.98210 |
27 |
27.000 | |
|
X8 |
519.6704 |
139.21624 |
27 |
27.000 | |
|
Total |
X1 |
6414.0448 |
1360.59896 |
29 |
29.000 |
|
X2 |
1741.8724 |
395.03828 |
29 |
29.000 | |
|
X3 |
4845.2448 |
2391.12022 |
29 |
29.000 | |
|
X4 |
1369.1000 |
317.61390 |
29 |
29.000 | |
|
X5 |
3047.2241 |
805.79717 |
29 |
29.000 | |
|
X6 |
2548.3172 |
630.37353 |
29 |
29.000 | |
|
X7 |
1701.0276 |
444.77780 |
29 |
29.000 | |
|
X8 |
561.1655 |
205.17889 |
29 |
29.000 | |
Summary of Canonical Discriminant Functions
|
Eigenvalues | ||||
|
Function |
Eigenvalue |
% of Variance |
Cumulative % |
Canonical Correlation |
|
1 |
10.981a |
100.0 |
100.0 |
.957 |
|
a. First 1 canonical discriminant functions were used in the analysis. | ||||
|
Wilks' Lambda | ||||
|
Test of Function(s) |
Wilks' Lambda |
Chi-square |
df |
Sig. |
|
1 |
.083 |
57.116 |
8 |
.000 |
|
Classification Processing Summary | ||
|
Processed |
31 | |
|
Excluded |
Missing or out-of-range group codes |
0 |
|
At least one missing discriminating variable |
0 | |
|
Used in Output |
31 | |
在SPSS中进行费歇判别分析是十分快捷的。首先按照表4-3把数据输入SPSS数据表中,然后依次点击 Analyze→-Classify→-Discriminant,打开 Discriminant Analysis对话框,将对话框左侧变量列表中的Group选入Grouping Variable框,并点击 Define Range,在弹出的Discriminant Analysis:Define Range 对话框中,定义判别原始数据的类别区间,本例为两类,故在Minimum 处输入1,在Maximum 处输入2,点击Continue 返回 Discriminant Analysis 对话框。再从对话框左侧的变量列表中将八个变量选人Independents框,作为判别分析的基础数据变量。点击 Statistics,弹出 Discriminant Analysis:Statistics 对话框,在Descriptives栏中选Means项,要求对各组的各变量做均值与标准差的描述;在Function Coefficients 栏中选Unstandardized 项(注意,不是Fisher's项),要求显示费歇判别法建立的非标准化系数。之后,点击Continue 返回Discriminant Analysis对话框。点击 Save,弹出 Discriminant Analysis:Save 对话框,选 Predicted group member ship 项要求将回判的结果存入原始数据库中。点击Continue 返回 Discriminant Analysis对话框,其他项目不变,点击 OK即完成分析。在输出结果中,可以看到各组均值、标准差、协方差阵等描述统计结果以及判别函数。返回数据表中,可以看到判别结果已经作为一个新的变量被保存,广东和西藏均被划分为第二类。受篇幅所限,各输出结果在此不再列示。
在SPSS中进行贝叶斯判别分析时,操作步骤与例4-3中的费歇判别相同,但是在Discriminant Analysis:Statistics 对话框的Function Coefficients 栏中要选Fisher's项而不是Unstandardized项(因为贝叶斯判别思想是由费歇提出来的,故SPSS以此命名)。Save 都分增加Probabilities of group membership 项,点击OK后得到分析结果。
逐步判别法也可以在SPSS中实现。操作步骤仍与例4-3类似,不同之处在于点击Analyze-Classify→-Discriminant,打开 Discriminant Analysis 对话框后,将 Independents栏下的 Enter independents together 项改选为Use stepwise method,此时窗口右侧的Method 按钮被激活,点击后进入 Discriminant Analysis:Stepwise Method 对话框,在Method 栏中选中Mahalanobis distance 项,即采用马氏距离,其他选项保持不变,返回主对话框后,其他操作仍与前面的例子类似。
实验总结
结果合理。根据系统聚类法的谱系图图3-18、图3-19和图3-20可知,若将2016年全国31个省、直辖市、自治区城镇居民的人均消费支出水平划分为2类,其中北京和上海为一类,其余地区为一类。现将广东和西藏作为待判样品,具体分类数据如表4-3所示。试建立费歇线性判别函数,并将广东和西藏两个待判省区归类。
536

被折叠的 条评论
为什么被折叠?



