分析模型
常用统计量获取方法
最基础的数据分析,获取各种统计量,需要通过获取统计量知道数据基本的统计量,包括平均值、中位数、方差、频数等
数值型统计量获取方法(proc means、proc summary、proc univariate)
proc means
指定变量和统计量可以轻松的输出各种统计量
proc means data= clm alpha=选项 iclm uclm n nmiss p# std var css cv kurtosis mode range stderr sum sumwgt uss ;
by var1 var2.....;要求sort先排序/每一组都是一个单独的表
class var1......;输出的是一个整表所有变量在一起/不用sort先排序
freq var;(计算平均值)
id var;
output(output=sas data set)
types request(s);
var var(s);
ways list;
weight var;(设置权重变量)
run;
————————————————
版权声明:本文为CSDN博主「LH@313.com」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_44642820/article/details/125451494
proc mean 一句中比较重要的添加的统计量名称
- 置信区间,clm代表可以同时获取上下置信区间,iclm和uclm表示分别得到上下置信区间,alpha=#表示获得可信度为1-#%的置信区间
- 样本量,n可以获取某变量的样本数量,注意数量是非空值的数目,nmiss选项可以输出变量缺失值的数量
- 百分位-p# 输出特定点的百分位
- 离散程度,方差(var) 标准差(stdd/std) 变差系数 四分位距
- 其他 css(调和平方数) cv(变异系数) kurtosis(峰度)mode(众数) range(范围) stderr(标准误差)sum(求和) sumwgt(加权求和)uss(未修正的平方和)
proc summary --用于对数值变量计算单个变量的基本统计量
proc summary data=dataname <选项><统计关键词>;
var variables;
by variables;
class variables;
freq variable;
weight variable;
id variables;
output<out=dataname><选项>;
run;
- 选项, maxdec= 输出小数点位数 missing 要求遗漏数据为class变量的下一个分组变量 nway不对class变量中的统计量计算输出 print 指定打印输出到输出窗口
- 统计关键词:n 有效观察值个数,nmiss 遗漏数据个数 mean std min mac range sum var uss css stderr cv T(t检验h0)
- proc summary需要print选项