6.1.7 计算实例
这里用Forbes数据为例,全面展示一元回归模型的计算过程。
例 6.5 Forbes数据
在十九世纪四、五十年代,苏格兰物理学家James D. Forbes,试图通过水的沸点来估计海拔高度。他知道通过气压计测得的大气压可用于得到海拔高度,高度越高,气压越低。在这里讨论的实验中,他研究了气压和沸点之间的关系。由于在当时,运输精密的气压计相当困难,这引起了他研究此问题的兴趣。测量沸点将给旅行者提供一个快速估计高度的方法。
Forbes在阿尔卑斯山及苏格兰收集数据。选定地点后,他组装仪器,测量气压及沸点。气压单位采用水银柱高度,并根据测量时周围气温与标准气温之间的差异校准气压。沸点用华氏温度表示。我们从他1857年的论文中选取了n=17个地方的数据,见表6.2所示。在研究这些数据时,有若干可能引起兴趣的问题,气压及沸点是如何联系的?这种关系是强是弱?我们能否根据气温预测气压?如果能,有效性如何?
分析过程
Forbes的理论认为,在观测值范围内,沸点和气压值的对数成一条直线。由此,取10作为对数的底数。事实上,统计分析与对数的底是没有关系的。由于气压的对数值变化不大,最小值为1.318,而最大值为1.478,因此将所有气压的对数值乘以100,如表6.2中第5列所示。这将不改变分析的主要性质的同时,避免研究非常小的数字。
求解过程
着手进行回复分析的一个有效途径是,画一个变量对另一个变量的散点图,它既能用于提示某种关系,也能用于说明这种关系可能是不适当的。在散点图中,X轴为自变量,这里是Forbes数据中的沸点,Y轴为响应变量,这里为100xlog(气压)。
输入数据,画出散点图(程序exam0804.R)
Forbes数据的散点图的总体印象是:这些点基本上,但不精确地,落在一条直线上。做回归分析:
由计算结果得到:
两个系数的显著性检验是非常显著的。
关于方程的检验,残差的标准差Residual standard error:0.3789。相关系数的平方,Multiple R-squared:0.995,也是非常显著的。
该模型能通过t检验和F检验。因此,回归方程为:
y = –42.13087 + 0.89546x
我们将得到的直线方程画在散点图上,如下:
下面我们分析残差,使用residuals()计算回归方程的残差。计算残差并画出关于残差的散点图,如下:
其中:text(12, y.res[12], labels = 12, adj=1.2)是将第12号残差点标出。
从上图中可以看到,第12个样本点可以会有问题,他比其他的样本点的残差大的多,因为其他点的残差的绝对值都小于0.35,而此点残差的绝对值约为1.3,因此,这个点可能不正确,或者模型的差假设不正确,或者是不是常数,等等。总之,需要对这个问题进行分析(在后面的回归诊断中会详细介绍分析的方法),这里做简单处理,在数据中,去掉第12号样本点。
在去掉第12号样本后,回归方程的系数没有太大的变化,但系数的标准差和残差的标准差有很大的变化,减少了越3倍左右,相关系数R2也有提高。