数据分析统计学原理第十四章:简单线性回归 | 我的统计学原理复习日记

因变量( dependent variable):被预测的变量
自变量( independent variable):用来预测因变量值的一个或多个变量
简单线性回归( simple linear regression):包括一个自变量和一个因变量,二者之间的关系可以用一条直线近似表示。

回归模型( regression model):描述y如何依赖于x和误差项的方程

在这里插入图片描述在这里插入图片描述
描述y的期望值E(y)如何依赖于x的方程称为回归方程(regression equation)

在这里插入图片描述在这里插入图片描述
在这里插入图片描述
估计的回归方程
在这里插入图片描述在这里插入图片描述
我们不能把回归分析看作在变量之间建立一个因果关系的过程。回归分析只能表明,变量是如何或者是以怎样的程度彼此联系在一起的。

最小二乘法(least squares method)
利用样本数据建立估计的回归方程的一种方法

例子:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
判定系数
判定系数( coefficient of determination)为估计的回归方程提供了一个拟合优度的度量。

误差平方和
在这里插入图片描述在上一个例子中:
在这里插入图片描述
总平方和
在这里插入图片描述在这里插入图片描述回归平方和
在这里插入图片描述在这里插入图片描述判定系数的计算
在这里插入图片描述在这里插入图片描述在用估计的回归方程去预测季度销售收入时,我们能断定总平方和的90.27%能被估计的回归方程所解释。换句话说,季度销售收入变异性的90.27%能被学生人数和季度销售收入之间的线性关系所解释。对于估计的回归方程,我们应该对得到一个这样好的拟合效果而感到满意。

相关系数
在这里插入图片描述对于 Armand比萨饼连锁店的例子,对应于估计的回归方程的判定系数的数值是0.9027。因为估计的回归方程的斜率是正的,所以我们得到的样本相关系数是+√0.9027=+0.9501。所以我们可以得出结论,x和y之间存在一个强的正向线性关系。

模型的假定
我们已经知道,判定系数r2的值是估计的回归方程拟合优度的度量。然而,尽管r2有一个较大的数值,但是在对假定模型的合理性做出进一步的分析完成之前,我们还不能应用这个估计的回归方程。确定假定的模型是否合理的一个重要步骤,是要对变量之间关系的显著性进行检验。回归分析中的显著性检验是以对误差项ε的下列假定为依据进行的。
在这里插入图片描述在这里插入图片描述显著性检验

在这里插入图片描述在这里插入图片描述
在上述披萨店的例子中
在这里插入图片描述估计的标准误差
在这里插入图片描述在这里插入图片描述t检验
在这里插入图片描述先让我们考虑一下,如果在同样的回归研究中,我们使用了不同的随机样本将会出现什么情况。例如,在Armand比萨饼连锁店的例子中,假设我们使用了由另外10家连锁店组成的样本得到的季度销售收入数据。对这新的样本进行回归分析,得到的估计的回归方程可能与我们前面得到的估计的回归方程y=60+5x相类似,但是不可能得到完全相同的回归方程(截距恰好是60,斜率恰好是5).实际上,最小二乘估计量b和b1是样本统计量,它们有着自己的抽样分布
在这里插入图片描述在这里插入图片描述在这里插入图片描述t检验总结
在这里插入图片描述β1的置信区间
在这里插入图片描述F检验
建立在F概率分布基础上的F检验,也可以用来对回归方程进行显著性检验。在仅有一个自变量的情况下,检验将得出与t检验同样的结论。即如果t检验表明β1≠0,因此变量之间存在一个显著的关系,那么F检验也将表明变量之间存在一个显著的关系。但是,如果回归方程有两个或两个以上自变量,F检验仅仅能被用来检验回归方程总体的显著关系。
在这里插入图片描述ANOVA表
在这里插入图片描述利用估计的回归方程进行估计和预测
当我们使用估计的回归方程来估计y的平均值或者来预测y的一个个别值时,显然估计或预测都依赖于x的一个给定值。因此,当我们更深入地讨论有关估计和预测的问题时,下面的符号将有助于问题的阐述。
在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述y的一个个别值的预测区间
在这里插入图片描述位于Talbot大学校园附近的这家新 Armand比萨饼连锁店的预测区间,与位于有10000名学生的校园附近的所有Armand比萨饼连锁店的平均季度销售收入的置信区间(98585美元,121415美元)相比要宽一些。二者的区别说明了这样一个事实,我们能比预测y的一个个别值更精确地估计y的平均值。
在这里插入图片描述残差分析:实证模型假定
在这里插入图片描述残差提供了有关误差项的最重要的信息。

关于x的残差图
在这里插入图片描述
这些残差看来好像与图14-12a中水平型的图形很相似。因此,我们的结论是残差图并没有提供足够的证据,使我们对 Armand比萨饼连锁店回归模型所做的假定表示怀疑。这时,我们有信心得出结论, Armand比萨饼连锁店的简单线性回归模型是合理的。
在这里插入图片描述y的预测值的残差图
在这里插入图片描述对于多元回归分析,因为有一个以上的自变量,所以关于y的预测值的残差图有着更广泛的应用。

标准化残差
许多由计算机软件包生成的残差图都利用了残差的标准化形式。就像我们在前面几章中看到的那样,一个随机变量减去它的平均值,然后再除以它的标准差,就得到了一个标准化的随机变量。由于最小二乘法的性质,残差的平均值是零。于是,每个残差只要简单地除以它的标准差,就得到了标准化残差( standardized residual)。
在这里插入图片描述在这里插入图片描述在这里插入图片描述标准化残差图能对随机误差项服从正态分布的假定提供一种直观的认识。如果这一假定被满足,那么标准化残差的分布看起来也应该服从一个标准正态概率分布。
在这里插入图片描述正态概率图
确定误差项ε服从正态分布的假定成立的另一个方法是正态概率图( normal probability plot)。
假设我们从一个平均值为0,标准差为1的标准正态概率分布中随机地抽取10个数值,并将这一抽样过程反复进行,然后把每个样本中的10个数值按从小到大的顺序排列。现在我们仅考虑每个样本中最小的数值。在反复进行的抽样过程中得到的最小值是一个随机变量,被称为一阶顺序统计量。
统计学家已经证明,来自标准正态概率分布的容量为10的样本,一阶顺序统计量的期望值为-1.55.这个期望值被称为正态分数。对于样本容量n=10的情形,有10个顺序统计量和10个正态分数.一般地,如果我们有一个由n个观测值组成的数据集,那么就有n个顺序统计量和n个正态分数。

在这里插入图片描述在这里插入图片描述残差分析:异常值和有影响的观测值
在这里插入图片描述在这里插入图片描述在图中,估计的回归线有一个负斜率。但是,如果我们将有影响的观测值从数据集中删除,那么估计的回归线的斜率将从负值改变为正值,y轴截距将会变得比较小。

自变量是极端值的观测值被称为高杠杆率点( high leverage point)。我们可以根据自变量的值与它们的平均值距离的远近确定一个观测值的杠杆率。

在这里插入图片描述

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值