《统计学基于R》：第九章一元线性回归

最新推荐文章于 2023-03-07 20:28:35 发布

努力不秃头的小仙主

最新推荐文章于 2023-03-07 20:28:35 发布

阅读量1.9k

点赞数 2

分类专栏： R语言文章标签： r语言线性回归回归数据挖掘数据分析

本文链接：https://blog.csdn.net/xiaoxianzhu/article/details/125323229

版权

R语言专栏收录该内容

8 篇文章 8 订阅

订阅专栏

文章目录

9.1 确定变量间的关系

分析变量之间的关系需要解决下面的问题：

变量之间是否存在关系
如果存在，它们之间是什么样的关系
变量之间的关系强度
如何样本所反映的变量之间的关系能否代表总体变量之间的关系

9.1.1 变量间的关系

1、函数关系：一一对应的确定关系。

2、相关关系：一个变量的取值不能由另一个变量唯一确定。当x固定时，y取值对应一个分布。

9.1.2 相关关系的描述

散点图：可以判断两个变量之间有无相关关系，对关系形态做出大致描述。

example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
library(car)
windows()
scatter(销售收入~广告支出,data=example9_1)

9.1.3 关系强度的度量

1、相关系数：度量变量之间线性关系强度的一个统计量。常用Pearson相关系数。

2、相关系数的性质

r 的取值范围是 [-1,1]
|r|越趋于1表示关系越强；|r|越趋于0表示关系越弱
|r|=1，为完全相关；r = 0，不存在线性相关关系
-1<=r<0，为负相关；0<r<=1，为正相关
仅仅是x与y之间线性关系的一个度量，它不能用于描述非线性关系。
r=0只表示两个变量之间不存在线性相关关系，并不说明变量之间没有任何关系，可能有非线性关系。
r虽然是两个变量之间线性关系的一个度量，却不一定意味着x与y一定有因果关系。

3、相关系数的检验

第一步，提出假设：H0:p=0;H1:p≠0

第二步，计算检验的统计量

第三步，计算P值，并于显著性水平比较，并作出决策。若P<alpha ，拒绝H0，表示总体的两个变量之间线性关系显著。

library(psych)
# 计算相关系数
cor(example9_1$销售收入,example9_1$广告支出)
# 检验相关系数
cor.test(example9_1$销售收入,example9_1$广告支出)

9.2 模型估计和检验

9.2.1 回归模型与回归方程

1、回归模型：描述因变量 y 如何依赖于自变量 x 和误差项的方程。

y 是 x 的线性函数(部分)加上误差项
线性部分反映了由于 x 的变化而引起的 y 的变化
误差项是随机变量，反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响，是不能由 x 和 y 之间的线性关系所解释的误差

2、误差项：满足正态性、方差齐性、独立性。

由模型的假设可知，在x取某个给定值的情形下，y的变化由误差项的方差来决定。当方差较小时，y的观测值非常接近直线；当方差较大时，y的观测值将偏离直线。
对任何一个给定的x值，y都服从期望值E(y) = β_0+β_1x，方差为2的正态分布，且对于不同的x具有相同方差。

example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
model<-lm(销售收入~广告指出,data=example9_1)
summary(model)
# 计算回归系数的置信区间
confint(model,level=0.95)
# 输出方差分析表
anova(model)

9.2.2 参数的最小二乘估计

1、最小二乘估计：通过使因变量的观测值与估计值之间的离差平方和达到最小来估计

2、方法：略

9.2.3 模型拟合优度

1、回归模型的拟合优度：回归直线与各观测点的接近程度。

2、评价拟合优度：决定系数(R²)、残差标准误。

误差	计算
总平方和(SST)	真实值-均值的平方和
回归平方和(SSR)	预测值-均值的平方和
残差平方和(SSE)	真实值-预测值的平方和

（1）决定系数R²

取值范围在 [ 0 , 1 ] 之间
R²—>1，说明回归方程拟合的越好； R²—>0，说明回归方程拟合的越差
决定系数平方根等于相关系数r
决定系数=回归平方和占总平方和的比重；R²=SSR/SST

（2）残差标准误Se

残差平方和的均方根：Se=sqrt(SSE/n-k-1)
度量各观测值在直线周围分散程度的一个统计量，它反映了实际观测值与回归估计z之间的差异程度
也是对误差项ε的标准差σ的估计，它可以看做在排除了x对y的线性影响后，y随机波动大小的一个估计量。
各观测值越靠近直线，se就越小，预测也就越准确

9.2.4 模型显著性检验

1、线性关系的F检验步骤如下：

第一步：提出假设：H0:β0=0（线性关系不显著）;H1:β1≠0（线性关系显著）

第二步：计算检验统计量F=(SSR/k)/(SSE/n-k-1)

第三步：做出决策。若p<alpha，拒绝H0。表明两个变量之间的线性关系显著。

2、回归系数的检验和推断的t检验步骤如下：

第一步：提出假设：H0:β0=0（自变量对因变量的影响不显著）;H1:β1≠0 （自变量对因变量的影响显著）

第二步：计算检验统计量t

第三步：做出决策：若p<alpha，拒绝H0。表明x对y的影响显著。

9.3 利用回归方程进行预测

1、点估计：如果对于x的一个给定值x0，求出y的一个预测值。

2、均值的置信区间：利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的平均值的估计区间。

3、个别值的预测区间：利用估计的回归方程，对于自变量 x 的一个给定值 x0 ，求出因变量 y 的一个个别值的估计区间

# x=500时的点预测
x0<-data.frame(广告支出=500)
predict(model,newdata=x0)
# x=500时的置信区间
predict(model,data.frame(广告支出=500),interval="confidence",level=0.95)
# x=500时的预测区间
predict(model,data.fram(广告支出=500),interval="prediction",level=0.95)

9.4 回归模型的模型诊断

1、检验线性关系：可用F检验、残差图、成分残差图进行检验；

2、检验正态性：可用QQ图、残差图进行检验；

3、检验方差齐性：可用残差图、散布水平图进行检验；

4、检验独立性：可以采用Durbin-Watson检验来检验序列是否存在自相关性。

# 检验线性关系：成分残差图
library(car)
windows()
crPlots(model)

# 检验正态性：模型诊断的图（4个图：残差图、QQ图、看残差、看离群点）
windows()
par(mfrow=c(2,2),cex=0.8,cex.main=0.7)
plot(model)

# 检验方差齐性
library(car)
ncvTest(model)
# 绘制散布-水平图
windows()
spreadLevelPlot(model)

# 检验残差独立性
library(car)
durbinWatsonTest(model)

努力不秃头的小仙主

关注

2
点赞
踩
12

收藏

觉得还不错? 一键收藏
打赏
0
评论
《统计学基于R》：第九章一元线性回归

分析变量之间的关系需要解决下面的问题：1、函数关系：一一对应的确定关系。2、相关关系：一个变量的取值不能由另一个变量唯一确定。当x固定时，y取值对应一个分布。散点图：可以判断两个变量之间有无相关关系，对关系形态做出大致描述。9.1.3 关系强度的度量1、相关系数：度量变量之间线性关系强度的一个统计量。常用Pearson相关系数。2、相关系数的性质3、相关系数的检验第一步，提出假设：H0:p=0;H1:p≠0 第二步，计算检验的统计量第三步，计算P值，并于显著性水平
复制链接

扫一扫