文章目录
![在这里插入图片描述](https://img-blog.csdnimg.cn/78a3284b958d433bbc629b5c93f50d07.png#pic_center)
9.1 确定变量间的关系
分析变量之间的关系需要解决下面的问题:
- 变量之间是否存在关系
- 如果存在,它们之间是什么样的关系
- 变量之间的关系强度
- 如何样本所反映的变量之间的关系能否代表总体变量之间的关系
9.1.1 变量间的关系
1、函数关系:一一对应的确定关系。
2、相关关系:一个变量的取值不能由另一个变量唯一确定。当x固定时,y取值对应一个分布。
9.1.2 相关关系的描述
散点图:可以判断两个变量之间有无相关关系,对关系形态做出大致描述。
example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
library(car)
windows()
scatter(销售收入~广告支出,data=example9_1)
9.1.3 关系强度的度量
1、相关系数:度量变量之间线性关系强度的一个统计量。常用Pearson相关系数。
2、相关系数的性质
- r 的取值范围是 [-1,1]
- |r|越趋于1表示关系越强;|r|越趋于0表示关系越弱
- |r|=1,为完全相关;r = 0,不存在线性相关关系
- -1<=r<0,为负相关;0<r<=1,为正相关
- 仅仅是x与y之间线性关系的一个度量,它不能用于描述非线性关系。
- r=0只表示两个变量之间不存在线性相关关系,并不说明变量之间没有任何关系,可能有非线性关系。
- r虽然是两个变量之间线性关系的一个度量,却不一定意味着x与y一定有因果关系。
3、相关系数的检验
第一步,提出假设:H0:p=0;H1:p≠0
第二步,计算检验的统计量
第三步,计算P值,并于显著性水平 比较,并作出决策。若P<alpha ,拒绝H0,表示总体的两个变量之间线性关系显著。
library(psych)
# 计算相关系数
cor(example9_1$销售收入,example9_1$广告支出)
# 检验相关系数
cor.test(example9_1$销售收入,example9_1$广告支出)
9.2 模型估计和检验
9.2.1 回归模型与回归方程
1、回归模型:描述因变量 y 如何依赖于自变量 x 和误差项的方程。
- y 是 x 的线性函数(部分)加上误差项
- 线性部分反映了由于 x 的变化而引起的 y 的变化
- 误差项是随机变量,反映了除 x 和 y 之间的线性关系之外的随机因素对 y 的影响,是不能由 x 和 y 之间的线性关系所解释的误差
2、误差项:满足正态性、方差齐性、独立性。
- 由模型的假设可知,在x取某个给定值的情形下,y的变化由误差项的方差来决定。当方差较小时,y的观测值非常接近直线;当方差较大时,y的观测值将偏离直线。
- 对任何一个给定的x值,y都服从期望值E(y) = β_0+β_1x,方差为2的正态分布,且对于不同的x具有相同方差。
example9_1<-read.csv(".\\data\\example\\chap09\\example9_1.csv")
model<-lm(销售收入~广告指出,data=example9_1)
summary(model)
# 计算回归系数的置信区间
confint(model,level=0.95)
# 输出方差分析表
anova(model)
9.2.2 参数的最小二乘估计
1、最小二乘估计:通过使因变量的观测值与估计值之间的离差平方和达到最小来估计
2、方法:略
9.2.3 模型拟合优度
1、回归模型的拟合优度:回归直线与各观测点的接近程度。
2、评价拟合优度:决定系数(R²)、残差标准误。
误差 | 计算 |
---|---|
总平方和(SST) | 真实值-均值的平方和 |
回归平方和(SSR) | 预测值-均值的平方和 |
残差平方和(SSE) | 真实值-预测值的平方和 |
(1)决定系数R²
- 取值范围在 [ 0 , 1 ] 之间
- R²—>1,说明回归方程拟合的越好; R²—>0,说明回归方程拟合的越差
- 决定系数平方根等于相关系数r
- 决定系数=回归平方和占总平方和的比重;R²=SSR/SST
(2)残差标准误Se
-
残差平方和的均方根:Se=sqrt(SSE/n-k-1)
-
度量各观测值在直线周围分散程度的一个统计量,它反映了实际观测值与回归估计z之间的差异程度
-
也是对误差项ε的标准差σ的估计,它可以看做在排除了x对y的线性影响后,y随机波动大小的一个估计量。
-
各观测值越靠近直线,se就越小,预测也就越准确
9.2.4 模型显著性检验
1、线性关系的F检验步骤如下:
第一步:提出假设:H0:β0=0(线性关系不显著);H1:β1≠0(线性关系显著)
第二步:计算检验统计量F=(SSR/k)/(SSE/n-k-1)
第三步:做出决策。若p<alpha,拒绝H0。表明两个变量之间的线性关系显著。
2、回归系数的检验和推断的t检验步骤如下:
第一步:提出假设:H0:β0=0(自变量对因变量的影响不显著);H1:β1≠0 (自变量对因变量的影响显著)
第二步:计算检验统计量t
第三步:做出决策:若p<alpha,拒绝H0。表明x对y的影响显著。
9.3 利用回归方程进行预测
1、点估计:如果对于x的一个给定值x0,求出y的一个预测值。
2、均值的置信区间:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的平均值的估计区间。
3、个别值的预测区间:利用估计的回归方程,对于自变量 x 的一个给定值 x0 ,求出因变量 y 的一个个别值的估计区间
# x=500时的点预测
x0<-data.frame(广告支出=500)
predict(model,newdata=x0)
# x=500时的置信区间
predict(model,data.frame(广告支出=500),interval="confidence",level=0.95)
# x=500时的预测区间
predict(model,data.fram(广告支出=500),interval="prediction",level=0.95)
9.4 回归模型的模型诊断
1、检验线性关系:可用F检验、残差图、成分残差图进行检验;
2、检验正态性:可用QQ图、残差图进行检验;
3、检验方差齐性:可用残差图、散布水平图进行检验;
4、检验独立性:可以采用Durbin-Watson检验来检验序列是否存在自相关性。
# 检验线性关系:成分残差图
library(car)
windows()
crPlots(model)
# 检验正态性:模型诊断的图(4个图:残差图、QQ图、看残差、看离群点)
windows()
par(mfrow=c(2,2),cex=0.8,cex.main=0.7)
plot(model)
# 检验方差齐性
library(car)
ncvTest(model)
# 绘制散布-水平图
windows()
spreadLevelPlot(model)
# 检验残差独立性
library(car)
durbinWatsonTest(model)