例题:
实验目的:
(1)通过上机操作使学生掌握用proc import 语句将excel数据导入SAS,生成SAS数据集(2)掌握用proc reg过程对数据进行一元线性回归分析和可转化一元线性的回归分析(3)会正确阅读一元回归分析的运行结果,并写出回归方程。
实验程序:
代码1:
proc import out=test1
datafile="C:\Users\86166\Desktop\IT\SAS实验\实验3\1.xls"
DBMS=EXCEL2000 replace;
run;
/*建立回归方程,并得到预测值和置信水平为95%的置信区间*/
proc reg data=test1;
model y=x/cli;
run;
实验结果:
代码2:
proc import out=test1
datafile="C:\Users\86166\Desktop\IT\SAS实验\实验3\2.xls"
DBMS=EXCEL2000 replace;
run;
/*制作Y对X的散点图*/
proc gplot data=test1;
plot y*x;
symbol value=dot;
run;
/*用REG过程建立"双曲线"的回归方程*/
data test2;
set test1;
x=1/x;
y=1/y;
run;
proc reg data=test2;
model y=x;
plot y*x;
run;
/*用REG过程建立"幂函数"的回归方程*/
data test3;
set test1;
x=x**(1/2);
y=y;
run;
proc reg data=test3;
model y=x;
plot y*x;
run;
/*用REG过程建立"对数函数"的回归方程*/
data test4;
set test1;
x=log(x);
y=y;
run;
proc reg data=test4;
model y=x;
plot y*x;
run;
/*用REG过程建立"负指数函数"的回归方程*/
data test5;
set test1;
x=1/x;
y=log(y);
run;
proc reg data=test5;
model y=x;
plot y*x;
run;
实验结果:
分析实验结果:
- 对代码一的结果分析
- 回归方程:
由Parameter Estimates表中可得截距为5.92237,斜率为2.07680,所以回归方程为:y=5.92237+2.07680x
- 回归方程的显著性检验:
由Analysis of Variance表可知,F Value=140.99,Pr>F 的值(Probability概率)小于0.0001,远小于0.05,故拒绝原假设,接受备择假设,认为y与x之间具有显著的线性相关关系;
由R-Square的值为0.9592可知该方程的拟合度很高,样本观察值有95.92%的信息可以用回归方程进行解释,故拟合效果较好,认为y与x之间具有显著的线性相关关系.
(3)求x=20的预测值及置信水平的置信区间:
在xls中加入预测数据(20,.),由Output Statistic中第9行数据中知道,x=20时,y的预测值为47.4584,置信水平为0.95的置信区间为(21.4532,73.4636).
二、对代码二的结果分析
(1)从Y对X的散点图来看,点的分布没有明显规律,所以并不能看出Y与X的函数关系。
(2)从上述实验结果看,4张图中得到的f(x)即为对应的回归方程:
①双曲线:,回归方程为:y=0.009+0.0008x
②幂函数:,回归方程为:y=106.3+1.1947x
③对数函数:,回归方程为:y=106.31+1.714x
④负指数函数:,回归方程为:y=4.7141-0.0903x
(3)从上述回归分析结果得到的R-square值中,双曲线的为0.9736,幂函数的为0.7851,对数函数的为0.8773,负指数函数为0.9739,所以最佳的拟合曲线为负指数函数对应的回归方程曲线y=4.7141-0.0903x。
实验中存在的问题及解决的办法:
问题:
- 对一元回归分析的结果里面的名词所代表的含义不清楚。
- 对非线性到线性的转化不太熟练
解决:
- 查阅资料,名词进行熟悉和理解,掌握对具体问题的分析方法。
- 记住常见的一些非线性转化和技巧。
实验体会(结论、评价、感想与建议)
通过本次实验让我掌握了用proc import语句导入excel数据,以及用proc语句对数据进行一元回归分析。其中
- 回归方程的显著性检验看F value和Pr>F这一栏,若P<0.05则拒绝原假设,说明数据存在线性回归关系
- 其中R-quare的值表示回归方程和数据的拟合程度,其值越大,方程与数据的对应关系越强,线性关系越好。3
- 作散点图用plot或者proc gplot来表示,symbol来描述图中一些元素的特征,散点图中有线性回归方程的表达式,也可以从reg回归分析结果中的Parameter Estimates里得到斜率和截距。
- 95%的置信区用model y*x/cli来得到,要得到某个任意数据的预测值,可以在excel表中加入(x,.)这样cli可以得到对应的y的预测值。