《统计学基于R》:第九章 一元线性回归


在这里插入图片描述

9.1 确定变量间的关系

分析变量之间的关系需要解决下面的问题:

  • 变量之间是否存在关系
  • 如果存在,它们之间是什么样的关系
  • 变量之间的关系强度
  • 如何样本所反映的变量之间的关系能否代表总体变量之间的关系

9.1.1 变量间的关系

1、函数关系:一一对应的确定关系。

2、相关关系:一个变量的取值不能由另一个变量唯一确定。当x固定时,y取值对应一个分布。

9.1.2 相关关系的描述

散点图:可以判断两个变量之间有无相关关系,对关系形态做出大致描述。

example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
library(car)
windows()
scatter(销售收入~广告支出,data=example9_1)

9.1.3 关系强度的度量

1、相关系数:度量变量之间线性关系强度的一个统计量。常用Pearson相关系数。

2、相关系数的性质

  • r 的取值范围是 [-1,1]
  • |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
  • |r|=1,为完全相关;r = 0,不存在线性相关关系
  • -1<=r<0,为负相关;0<r<=1,为正相关
  • 仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。
  • r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,可能有非线性关系。
  • r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。

3、相关系数的检验

​ 第一步,提出假设:H0:p=0;H1:p≠0

​ 第二步,计算检验的统计量

​ 第三步,计算P值,并于显著性水平 比较,并作出决策。若P<alpha ,拒绝H0,表示总体的两个变量之间线性关系显著。

library(psych)
# 计算相关系数
cor(example9_1$销售收入,example9_1$广告支出)
# 检验相关系数
cor.test(example9_1$销售收入,example9_1$广告支出)

9.2 模型估计和检验

9.2.1 回归模型与回归方程

1、回归模型:描述因变量 y 如何依赖于自变量 x 和误差项的方程。

  • y 是 x 的线性函数(部分)加上误差项
  • 线性部分反映了由于 x 的变化而引起的 y 的变化
  • 误差项是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的误差

2、误差项:满足正态性、方差齐性、独立性。

  • 由模型的假设可知,在x取某个给定值的情形下,y的变化由误差项的方差来决定。当方差较小时,y的观测值非常接近直线;当方差较大时,y的观测值将偏离直线。
  • 对任何一个给定的x值,y都服从期望值E(y) = β_0+β_1x,方差为2的正态分布,且对于不同的x具有相同方差。
example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
model<-lm(销售收入~广告指出,data=example9_1)
summary(model)
# 计算回归系数的置信区间
confint(model,level=0.95)
# 输出方差分析表
anova(model)

9.2.2 参数的最小二乘估计

1、最小二乘估计:通过使因变量的观测值与估计值之间的离差平方和达到最小来估计

2、方法:略

9.2.3 模型拟合优度

1、回归模型的拟合优度:回归直线与各观测点的接近程度。

2、评价拟合优度:决定系数(R²)、残差标准误。

误差计算
总平方和(SST)真实值-均值的平方和
回归平方和(SSR)预测值-均值的平方和
残差平方和(SSE)真实值-预测值的平方和

(1)决定系数R²

  • 取值范围在 [ 0 , 1 ] 之间
  • R²—>1,说明回归方程拟合的越好; R²—>0,说明回归方程拟合的越差
  • 决定系数平方根等于相关系数r
  • 决定系数=回归平方和占总平方和的比重;R²=SSR/SST

(2)残差标准误Se

  • 残差平方和的均方根:Se=sqrt(SSE/n-k-1)

  • 度量各观测值在直线周围分散程度的一个统计量,它反映了实际观测值与回归估计z之间的差异程度

  • 也是对误差项ε的标准差σ的估计,它可以看做在排除了x对y的线性影响后,y随机波动大小的一个估计量。

  • 各观测值越靠近直线,se就越小,预测也就越准确

9.2.4 模型显著性检验

1、线性关系的F检验步骤如下:

第一步:提出假设:H0:β0=0(线性关系不显著);H1:β1≠0(线性关系显著)

第二步:计算检验统计量F=(SSR/k)/(SSE/n-k-1)

第三步:做出决策。若p<alpha,拒绝H0。表明两个变量之间的线性关系显著。

2、回归系数的检验和推断的t检验步骤如下:

第一步:提出假设:H0:β0=0(自变量对因变量的影响不显著);H1:β1≠0 (自变量对因变量的影响显著)

第二步:计算检验统计量t

第三步:做出决策:若p<alpha,拒绝H0。表明x对y的影响显著。

9.3 利用回归方程进行预测

1、点估计:如果对于x的一个给定值x0,求出y的一个预测值。

2、均值的置信区间:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。

3、个别值的预测区间:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间

# x=500时的点预测
x0<-data.frame(广告支出=500)
predict(model,newdata=x0)
# x=500时的置信区间
predict(model,data.frame(广告支出=500),interval="confidence",level=0.95)
# x=500时的预测区间
predict(model,data.fram(广告支出=500),interval="prediction",level=0.95)

9.4 回归模型的模型诊断

1、检验线性关系:可用F检验、残差图、成分残差图进行检验;

2、检验正态性:可用QQ图、残差图进行检验;

3、检验方差齐性:可用残差图、散布水平图进行检验;

4、检验独立性:可以采用Durbin-Watson检验来检验序列是否存在自相关性。

# 检验线性关系:成分残差图
library(car)
windows()
crPlots(model)

# 检验正态性:模型诊断的图(4个图:残差图、QQ图、看残差、看离群点)
windows()
par(mfrow=c(2,2),cex=0.8,cex.main=0.7)
plot(model)

# 检验方差齐性
library(car)
ncvTest(model)
# 绘制散布-水平图
windows()
spreadLevelPlot(model)

# 检验残差独立性
library(car)
durbinWatsonTest(model)
  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
统计学基于R第四章的答案主要涉及以下几个方面: 1. 数据准备:数据准备是统计学中非常重要的一步,涉及到数据的收集、整理、清洗和转换等工作。R语言提供了许多函数和包,可以帮助我们方便地进行数据准备的工作,包括数据导入、变量选择、缺失值处理等。 2. 描述性统计:描述性统计是对数据进行总结和描述的一种方法,主要包括数据的中心趋势、离散程度和分布形状等方面的指标。R语言中的summary()函数可以方便地计算数据的均值、中位数、最大值、最小值等统计量,并且利用绘图函数可以将数据的分布情况可视化。 3. 推断统计:推断统计是基于样本数据对总体进行推断和假设检验的方法。R语言提供了许多函数和包,用于计算样本均值、方差以及进行假设检验等,例如t.test()函数可以进行单样本、双样本或配对样本的t检验。 4. 回归分析:回归分析是统计学中常用的一种方法,用于研究变量之间的关系和预测。R语言中的lm()函数可以进行线性回归分析,可以计算回归系数、拟合优度以及进行回归模型的诊断等。 总之,统计学基于R第四章的答案涵盖了数据准备、描述性统计、推断统计和回归分析等方面。R语言提供了丰富的函数和包,可以帮助我们进行各类统计分析的计算和可视化,并且具有灵活性和易用性,因此在统计学的学习和实践中得到了广泛的应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

努力不秃头的小仙主

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值