回归分析(一)

回归分析(一)

变量间关系的度量

函数关系:变量之间存在一一对应的确定关系,可能是线性函数关系,也可能是非线性函数关系

相关关系:变量之间存在不确定的数量关系,不能用函数关系描述,此时变量还受其他因素的影响,结果不唯一,但大量数据显示变量之间存在一定的客观规律。回归分析是探索这种规律的统计方法。


相关分析:对两个随机变量之间线性关系的描述与度量

散点图来直观描述两个变量之间的关系形态,用相关系数来准确刻画变量之间的关系强度,用对相关系数的显著性检验来判断样本所反映的关系能否代表两个变量总体上的关系


Pearson相关系数
r = n ∑ x y − ∑ x ∑ y n ∑ x 2 − ( ∑ x ) 2 n ∑ y 2 − ( ∑ y ) 2 r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}} r=nx2(x)2 ny2(y)2 nxyxy

注:

(1) r r r是无量纲的,仅仅是 x x x y y y之间线性关系的度量,不能描述非线性关系

(2) r ∈ [ − 1 , 1 ] r\in[-1,1] r[1,1] r = 1 r=1 r=1:完全正相关; r = − 1 r=-1 r=1:完全负相关; ∣ r ∣ ≥ 0.8 |r|\ge0.8 r0.8:高度相关; 0.5 ≤ ∣ r ∣ ≤ 0.8 0.5\le|r|\le0.8 0.5r0.8:中度相 关; 0.3 ≤ ∣ r ∣ ≤ 0.5 0.3\le|r|\le0.5 0.3r0.5:低度相关; ∣ r ∣ ≤ 0.3 |r|\le0.3 r0.3:可视为不相关


r r r的显著性检验

一般情况下,总体相关系数 ρ \rho ρ是未知的,通常将样本相关系数 r r r作为 ρ \rho ρ的近似估计值。要根据样本相关系数来说明总体的相关程度,就需要考察样本相关系数的可靠性,即进行显著性检验。

我们采用t检验,它即可用于小样本,也可用于大样本。


t t t检验步骤

第一步:提出假设
H 0 : ρ = 0 ; H 1 : ρ ≠ 0 H_0:\rho=0;H_1:\rho\ne0 H0:ρ=0H1:ρ=0
第二步:计算检验统计量
t = ∣ r ∣ n − 2 1 − r 2 ∼ t ( n − 2 ) t=|r|\sqrt{\frac{n-2}{1-r^2}}\sim t(n-2) t=r1r2n2 t(n2)
第三步:进行决策

先查表得出 t α 2 ( n − 2 ) t_{\frac{\alpha}{2}}(n-2) t2α(n2)的值,若 ∣ t ∣ > t α 2 ( n − 2 ) |t|>t_{\frac{\alpha}{2}}(n-2) t>t2α(n2),拒绝 H 0 H_0 H0,表明存在显著线性关系

一元线性回归分析

数学模型
一元线性回归模型: y = β 0 + β 1 x + ϵ 一元线性回归模型:y=\beta_0+\beta_1x+\epsilon 一元线性回归模型:y=β0+β1x+ϵ
其中,位置参数 β 0 \beta_0 β0 β 1 \beta_1 β1称为回归系数, x x x称为自变量(回归变量), y y y称为因变量(被预测变量), ϵ \epsilon ϵ称为误差项,服从正态分布, E ( ϵ ) = 0 E(\epsilon)=0 E(ϵ)=0 D ( ϵ ) = σ 2 D(\epsilon)=\sigma^2 D(ϵ)=σ2


回归方程: E ( y ) = β 0 + β 1 x 回归方程:E(y)=\beta_0+\beta_1x 回归方程:E(y)=β0+β1x

上面的方程是对一元线性回归方程两边同时求期望得到的


估计的回归方程: y ^ = β 0 ^ + β 1 ^ x 估计的回归方程:\hat{y}=\hat{\beta_0}+\hat{\beta_1}x 估计的回归方程:y^=β0^+β1^x

其中 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^是未知参数 β 0 \beta_0 β0 β 1 \beta_1 β1的估计值

在这里插入图片描述


模型参数估计

(1)回归系数的最小二乘估计==(观测值与估计值的离差平方和最小)==

假设有 n n n组独立观测数据 ( x i , y i ) (x_i,y_i) (xi,yi) i = 1 , 2 , 3 , . . . , n i=1,2,3,...,n i=1,2,3,...,n,未知参数 β 0 \beta_0 β0 β 1 \beta_1 β1的估计值分别为 β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^,记:
y i ^ = β 0 ^ + β 1 ^ x i \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i\\ yi^=β0^+β1^xi
根据最小二乘法,使 Q = ∑ ( y i − y i ^ ) 2 = ∑ ( y i − β 0 ^ − β 1 ^ x i ) 2 Q=\sum{(y_i-\hat{y_i})^2}=\sum{(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2} Q=(yiyi^)2=(yiβ0^β1^xi)2达到最小,即真实数据到拟合直线的距离的平方和最小时,直线最佳。

在这里插入图片描述


由微积分极值的求法知,令 Q Q Q β 0 ^ \hat{\beta_0} β0^ β 1 ^ \hat{\beta_1} β1^的偏导数为0,解得:
β 1 ^ = n ∑ i = 1 n x i y i − ∑ i = 1 n x i ∑ i = 1 n y i n ∑ i = 1 n x i 2 − ( ∑ i = 1 n x i ) 2 β 0 ^ = y ˉ − β 1 ^ x ˉ \hat{\beta_1}=\frac{n\sum_{i=1}^{n}{x_iy_i}-\sum_{i=1}^{n}{x_i}\sum_{i=1}^{n}{y_i}}{n\sum_{i=1}^{n}{x_i^2}-(\sum_{i=1}^{n}{x_i})^2}\\ \hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x} β1^=ni=1nxi2(i=1nxi)2ni=1nxiyii=1nxii=1nyiβ0^=yˉβ1^xˉ
回归直线经过 y i ^ = β 0 ^ + β 1 ^ x i \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i yi^=β0^+β1^xi经过点 ( x ˉ , y ˉ ) (\bar{x},\bar{y}) (xˉ,yˉ).


回归直线的拟合优度判定

回归直线 y i ^ = β 0 ^ + β 1 ^ x i \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i yi^=β0^+β1^xi在一定程度上描述了变量 x x x y y y之间的数量关系,我们可以根据 x x x的取值来预测 y y y的取值。但预测的精度如何取决于回归直线对观测数据的接近程度,即拟合优度

所有观测值的离差平方和,即总平方和,记为 S S T SST SST
S S T = ∑ ( y i − y ˉ ) 2 SST=\sum{(y_i-\bar{y})^2}\\ SST=(yiyˉ)2
同时
S S T = ∑ ( y i − y ˉ ) 2 = ∑ ( y i − y i ^ + y i ^ − y ˉ ) 2 = ∑ ( y i ^ − y ˉ ) 2 + ∑ ( y i − y i ^ ) 2 = S S R + S S E SST=\sum{(y_i-\bar{y})^2}=\sum{(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2}=\sum{(\hat{y_i}-\bar{y})^2}+\sum{(y_i-\hat{y_i})^2}=SSR+SSE SST=(yiyˉ)2=(yiyi^+yi^yˉ)2=(yi^yˉ)2+(yiyi^)2=SSR+SSE
即: 总平方和 ( S S T ) = 回归平方和 ( S S R ) + 残差平方和 ( S S E ) 总平方和(SST)=回归平方和(SSR)+残差平方和(SSE) 总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)


判定系数 R 2 = S S R S S T ∈ [ 0 , 1 ] R^2=\frac{SSR}{SST}\in[0, 1] R2=SSTSSR[0,1],越接近1,拟合越好;越接近0,拟合越差。前面的相关系数 r r r实际就是判定系数 R 2 R^2 R2的平方根。

均方残差 M S E = S S E n − 2 MSE=\frac{SSE}{n-2} MSE=n2SSE,估计标准误差 s e = M S E = S S E n − 2 s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}} se=MSE =n2SSE 是误差项 ϵ \epsilon ϵ的标准差 σ \sigma σ的估计,估计标准差 s e s_e se越接近于0,回归直线对各观测点的代表性就越好


显著性检验

(1)线性关系的检验

第一步:提出假设
H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0
第二步:计算检验统计量
F = S S R / 1 S S E / ( n − 2 ) = M S R M S E ∼ F ( 1 , n − 2 ) F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}\sim F(1, n-2) F=SSE/(n2)SSR/1=MSEMSRF(1,n2)
第三步:进行决策

先查表得出 F α ( 1 , n − 2 ) F_\alpha(1,n-2) Fα(1,n2)的值,若 F > F α ( 1 , n − 2 ) F>F_\alpha(1,n-2) F>Fα(1,n2),拒绝 H 0 H_0 H0,表明存在显著线性关系


(2)回归系数的检验==(检验自变量对因变量的影响是否显著)==

第一步:提出假设
H 0 : β 1 = 0 H_0:\beta_1=0 H0:β1=0
第二步:计算检验统计量
t = β 1 ^ s β 1 ^ ∼ t ( n − 2 ) 其中: s β 1 ^ = s e ∑ x i 2 − 1 n ( ∑ x i ) 2 t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\sim t(n-2)\\ 其中:s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum{x_i^2}-\frac{1}{n}(\sum{x_i})^2}} t=sβ1^β1^t(n2)其中:sβ1^=xi2n1(xi)2 se
第三步:进行决策

先查表得出 t α 2 ( n − 2 ) t_{\frac{\alpha}{2}}(n-2) t2α(n2)的值,若 ∣ t ∣ > t α 2 ( n − 2 ) |t|>t_{\frac{\alpha}{2}}(n-2) t>t2α(n2),拒绝 H 0 H_0 H0,表明回归系数等于0的可能性小于 α \alpha α,自变量对因变量的影响是显著的


预测

(1)点估计

利用估计的回归方程 y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x,对于某个值 x 0 x_0 x0,求出一个估计值

(2)区间估计( x = x 0 x=x_0 x=x0时)

均值 E ( y 0 ) E(y_0) E(y0) 1 − α 1-\alpha 1α置信水平下的置信区间
y 0 ^ ± t α 2 ( n − 2 ) s e 1 n + ( x 0 − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 \hat{y_0}\pm t_{\frac{\alpha}{2}}(n-2)s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}} y0^±t2α(n2)sen1+i=1n(xixˉ)2(x0xˉ)2
个别值 y 0 y_0 y0 1 − α 1-\alpha 1α置信水平下的置信区间
y 0 ^ ± t α 2 ( n − 2 ) s e 1 + 1 n + ( x 0 − x ˉ ) 2 ∑ i = 1 n ( x i − x ˉ ) 2 \hat{y_0}\pm t_{\frac{\alpha}{2}}(n-2)s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}} y0^±t2α(n2)se1+n1+i=1n(xixˉ)2(x0xˉ)2


残差分析

残差 e i = y i − y i ^ e_i=y_i-\hat{y_i} ei=yiyi^,标准化残差 z e i = e i s e ∈ [ − 2 , 2 ] z_{e_i}=\frac{e_i}{s_e}\in[-2,2] zei=seei[2,2]

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 13
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值