SAS判别分析(Bayes准则和proc discrim过程)

我的思路很明确

已于 2022-05-28 21:57:01 修改

阅读量2k

点赞数 5

分类专栏： SAS 文章标签：数据分析统一建模语言

于 2022-05-28 18:51:26 首次发布

本文链接：https://blog.csdn.net/weixin_56115549/article/details/125021486

版权

SAS 专栏收录该内容

9 篇文章 8 订阅

订阅专栏

下表给出了两类公司的有关金融数据，一类是破产公司，表中数据是这些公司在破产前两年的四个年金融指标。一类是未破产公司和破产公司大约相同时期的四个相同的金融指标。这四个指标是

各公司的数据如下表（表中最后一列的“0”表示破产公司，“1”表示非破产公司）

number	x1	x2	x3	x4	group
1	-0.45	-0.41	1.09	0.45	0
2	-0.56	-0.31	1.51	0.16	0
3	0.06	0.02	1.01	0.4	0
4	-0.07	-0.09	1.45	0.26	0
5	-0.1	-0.09	1.56	0.67	0
6	-0.14	-0.07	0.71	0.28	0
7	0.04	0.01	1.5	0.71	0
8	-0.06	-0.06	1.37	0.4	0
9	0.07	-0.01	1.37	0.34	0
10	-0.13	-0.14	1.42	0.44	0
11	-0.23	-0.3	0.33	0.18	0
12	0.07	0.02	1.31	0.25	0
13	0.01	0	2.15	0.7	0
14	-0.28	-0.23	1.19	0.66	0
15	0.15	0.05	1.88	0.27	0
16	0.37	0.11	1.99	0.38	0
17	-0.08	-0.08	1.51	0.42	0
18	0.05	0.03	1.68	0.95	0
19	0.01	0	1.26	0.6	0
20	0.12	0.11	1.14	0.17	0
21	-0.28	-0.27	1.27	0.51	0
1	0.51	0.1	2.49	0.54	1
2	0.08	0.02	2.01	0.53	1
3	0.38	0.11	3.27	0.35	1
4	0.19	0.05	2.25	0.33	1
5	0.32	0.07	4.24	0.63	1
6	0.31	0.05	4.45	0.69	1
7	0.12	0.05	2.52	0.69	1
8	-0.02	0.02	2.05	0.35	1
9	0.22	0.08	2.35	0.4	1
10	0.17	0.07	1.8	0.52	1
11	0.15	0.05	2.17	0.55	1
12	-0.1	-0.01	2.5	0.58	1
13	0.14	-0.03	0.46	0.26	1
14	0.14	0.07	2.61	0.52	1
15	0.15	0.06	2.23	0.56	1
16	0.16	0.05	2.31	0.2	1
17	0.29	0.06	1.84	0.38	1
18	0.54	0.11	2.33	0.48	1
19	-0.33	-0.09	3.01	0.47	1
20	0.48	0.09	1.24	0.18	1
21	0.56	0.11	4.29	0.45	1
22	0.2	0.08	1.99	0.3	1
23	0.47	0.16	2.92	0.45	1
24	0.17	0.04	2.45	0.14	1
25	0.58	0.04	5.06	0.13	1

实验代码：

proc import out=temp1                                                                                                                   
datafile="C:\Users\86166\Desktop\IT\SAS实验\实验9\1.xls"                                                                                
DBMS=EXCEL2000 replace;                                                                                                                 
run;   

/*1、2、3*/ 
proc discrim data=temp1  wcov simple pool=no manova method=normal crosslisterr listerr;
class group;
var x1-x2;
priors equal;
run;
/*4*/
proc discrim data=temp1  pool=no manova method=normal crosslisterr listerr;
class group;
var x1-x2;
priors '0'=0.05 '1'=0.95;
run;
/*5*/ 
proc discrim data=temp1  pool=yes manova method=normal crosslisterr listerr;
class group;
var x1-x2;
priors equal;
run;
/*6*/
proc discrim data=temp1  wcov simple pool=no manova method=normal crosslisterr listerr;
class group;
var x1 x3;
priors equal;
run;
proc discrim data=temp1  pool=no manova method=normal crosslisterr listerr;
class group;
var x1 x3;
priors '0'=0.05 '1'=0.95;
run;

proc discrim data=temp1  wcov simple pool=no manova method=normal crosslisterr listerr;
class group;
var x1 x4;
priors equal;
run;
proc discrim data=temp1  pool=no manova method=normal crosslisterr listerr;
class group;
var x1 x4;
priors '0'=0.05 '1'=0.95;
run;
/*7*/ 
proc discrim data=temp1  wcov simple pool=no manova method=normal crosslisterr listerr;
class group;
var x1-x4;
priors equal;
run;
proc discrim data=temp1  pool=no manova method=normal crosslisterr listerr;
class group;
var x1-x4;
priors '0'=0.05 '1'=0.95;
run;

实验结果：——》判别分析代码图片结果和数据集

分析实验结果：

实验中存在的问题及解决的办法：

问题：怎么判定不同先验概率条件下得到的结果更可靠？

解决：目前直接用的是误判概率大小来比较

实验体会（结论、评价、感想与建议）

simple获取均值等简单统计量，wcov获取组内协方差，pool=yes/no/test分别对应使用联合协方差矩阵，组内协方差矩阵，组内协方差矩阵的齐性检验。manova得到4个统计量，Wilks'lambda用来衡量组内平方和与总平方和之比，Wilks'lambda值大，表示各个组的均值基本相等，在判别分析中，只有组均值不等时，判别分析才有意义。
crosslisterr listerr分别采用最大后验概率，刀切法求误判概率，method=normal指定了总体是正态分布的，priors equal指定先验概率是相等，也可以按分类的内容指定不同类的先验概率。
当总体属于正态分布时，若总体之间的协方差矩阵不相等，则采用组内协方差矩阵，pool=no，method=normal，priors可以相等，也可以按频数或者特殊值指定;若总体之间的协方差矩阵相等，则采用联合协方差矩阵，pool=yes，method=normal，priors可以相等，也可以按频数或者特殊值指定。一般小样本优先推荐用联合协方差矩阵，先验概率一般指定相等。当总体不属于正态分布时method=npar，采用非参数法进行判别。
总体和每个类的均值向量可以由simple得到
wcov得到组内协方差，也就是样本协方差
pcov得到合并协方差，这两种协方差的对应的使用条件与pool关联
pool为yes的时候采用合并协方差矩阵，意味着对应的总体协方差矩阵不相同
为no的时候采用组内协方差矩阵，意味着对应的总体均服从协方差矩阵相等的正态总体
为test的时候对组内协方差矩阵进行齐性的似然比检验修正，和slpool用来指定齐性检验水平，默认0.1
method为normal表示类服从多元正态分布，为npar即不服从该分布采用非参数方法
crosslisterr以交叉表的形式输出回判结果，用的是刀切法
listerr由后验概率产生的回判错误信息，要求按距离准则得到判别结果
priors为equal表示先验概率相等，为proportional表示先验概率等于样本频率，也可以指定分类标志的先验概率，但总和为1
比较判别准则的好坏，看误判结果的Total选项，一般来说谁更小则谁的准则更好

我的思路很明确

关注

5
点赞
踩
16

收藏

觉得还不错? 一键收藏
打赏
0
评论
SAS判别分析(Bayes准则和proc discrim过程)

下表给出了两类公司的有关金融数据，一类是破产公司，表中数据是这些公司在破产前两年的四个年金融指标。一类是未破产公司和破产公司大约相同时期的四个相同的金融指标。这四个指标是各公司的数据如下表（表中最后一列的“0”表示破产公司，“1”表示非破产公司）编号 x1 x2 x3 x4 总体 1 -0.45 -0.4.
复制链接

扫一扫