使用SAS建立不同的分析模型以及重要的proc 语句

最新推荐文章于 2024-06-27 17:57:07 发布

LH@313.com

最新推荐文章于 2024-06-27 17:57:07 发布

阅读量2.4k

点赞数 2

分类专栏： sas学习文章标签：人工智能机器学习 python

本文链接：https://blog.csdn.net/weixin_44642820/article/details/125533562

版权

本文介绍了如何使用SAS建立分析模型，包括proc means、proc summary、proc univariate获取统计量，proc cluster进行聚类分析，proc corr进行相关性分析，proc reg进行回归分析，proc lifetest进行生存分析，以及proc princomp进行主成分分析。同时，文章还讨论了异常值处理和P-value的基本概念，涉及t检验和卡方检验。

摘要由CSDN通过智能技术生成

分析模型

常用统计量获取方法

最基础的数据分析，获取各种统计量，需要通过获取统计量知道数据基本的统计量，包括平均值、中位数、方差、频数等

数值型统计量获取方法(proc means、proc summary、proc univariate)

proc means

指定变量和统计量可以轻松的输出各种统计量

proc means data=  clm alpha=选项 iclm uclm n nmiss p# std var css cv kurtosis mode range stderr sum sumwgt uss ;
by var1 var2.....;要求sort先排序/每一组都是一个单独的表
class var1......;输出的是一个整表所有变量在一起/不用sort先排序
freq var;(计算平均值)
id var;
output(output=sas data set)
types request(s);
var var(s);
ways list;
weight var;(设置权重变量)
run;
————————————————
版权声明：本文为CSDN博主「LH@313.com」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/weixin_44642820/article/details/125451494

proc mean 一句中比较重要的添加的统计量名称

置信区间，clm代表可以同时获取上下置信区间，iclm和uclm表示分别得到上下置信区间，alpha=#表示获得可信度为1-#%的置信区间
样本量，n可以获取某变量的样本数量，注意数量是非空值的数目，nmiss选项可以输出变量缺失值的数量
百分位-p# 输出特定点的百分位
离散程度，方差(var) 标准差(stdd/std) 变差系数四分位距
其他 css(调和平方数) cv(变异系数) kurtosis(峰度)mode(众数) range(范围) stderr(标准误差)sum(求和) sumwgt(加权求和)uss(未修正的平方和)

proc summary --用于对数值变量计算单个变量的基本统计量

proc summary data=dataname <选项><统计关键词>;
                        var variables;
                        by variables；
                        class variables;
                        freq variable;
                        weight variable;
                                 id variables;
                                 output<out=dataname><选项>；
                                 run;

选项, maxdec= 输出小数点位数 missing 要求遗漏数据为class变量的下一个分组变量 nway不对class变量中的统计量计算输出 print 指定打印输出到输出窗口
统计关键词：n 有效观察值个数，nmiss 遗漏数据个数 mean std min mac range sum var uss css stderr cv T(t检验h0)
proc summary需要print选项