回归分析(一)
变量间关系的度量
函数关系:变量之间存在一一对应的确定关系,可能是线性函数关系,也可能是非线性函数关系
相关关系:变量之间存在不确定的数量关系,不能用函数关系描述,此时变量还受其他因素的影响,结果不唯一,但大量数据显示变量之间存在一定的客观规律。回归分析是探索这种规律的统计方法。
相关分析:对两个随机变量之间线性关系的描述与度量
用散点图来直观描述两个变量之间的关系形态,用相关系数来准确刻画变量之间的关系强度,用对相关系数的显著性检验来判断样本所反映的关系能否代表两个变量总体上的关系
Pearson相关系数
r
=
n
∑
x
y
−
∑
x
∑
y
n
∑
x
2
−
(
∑
x
)
2
n
∑
y
2
−
(
∑
y
)
2
r=\frac{n\sum{xy}-\sum{x}\sum{y}}{\sqrt{n\sum{x^2}-(\sum{x})^2}\sqrt{n\sum{y^2}-(\sum{y})^2}}
r=n∑x2−(∑x)2n∑y2−(∑y)2n∑xy−∑x∑y
注:
(1) r r r是无量纲的,仅仅是 x x x与 y y y之间线性关系的度量,不能描述非线性关系;
(2) r ∈ [ − 1 , 1 ] r\in[-1,1] r∈[−1,1], r = 1 r=1 r=1:完全正相关; r = − 1 r=-1 r=−1:完全负相关; ∣ r ∣ ≥ 0.8 |r|\ge0.8 ∣r∣≥0.8:高度相关; 0.5 ≤ ∣ r ∣ ≤ 0.8 0.5\le|r|\le0.8 0.5≤∣r∣≤0.8:中度相 关; 0.3 ≤ ∣ r ∣ ≤ 0.5 0.3\le|r|\le0.5 0.3≤∣r∣≤0.5:低度相关; ∣ r ∣ ≤ 0.3 |r|\le0.3 ∣r∣≤0.3:可视为不相关
r r r的显著性检验
一般情况下,总体相关系数 ρ \rho ρ是未知的,通常将样本相关系数 r r r作为 ρ \rho ρ的近似估计值。要根据样本相关系数来说明总体的相关程度,就需要考察样本相关系数的可靠性,即进行显著性检验。
我们采用t检验,它即可用于小样本,也可用于大样本。
t t t检验步骤
第一步:提出假设
H
0
:
ρ
=
0
;
H
1
:
ρ
≠
0
H_0:\rho=0;H_1:\rho\ne0
H0:ρ=0;H1:ρ=0
第二步:计算检验统计量
t
=
∣
r
∣
n
−
2
1
−
r
2
∼
t
(
n
−
2
)
t=|r|\sqrt{\frac{n-2}{1-r^2}}\sim t(n-2)
t=∣r∣1−r2n−2∼t(n−2)
第三步:进行决策
先查表得出 t α 2 ( n − 2 ) t_{\frac{\alpha}{2}}(n-2) t2α(n−2)的值,若 ∣ t ∣ > t α 2 ( n − 2 ) |t|>t_{\frac{\alpha}{2}}(n-2) ∣t∣>t2α(n−2),拒绝 H 0 H_0 H0,表明存在显著线性关系
一元线性回归分析
数学模型
一元线性回归模型:
y
=
β
0
+
β
1
x
+
ϵ
一元线性回归模型:y=\beta_0+\beta_1x+\epsilon
一元线性回归模型:y=β0+β1x+ϵ
其中,位置参数
β
0
\beta_0
β0,
β
1
\beta_1
β1称为回归系数,
x
x
x称为自变量(回归变量),
y
y
y称为因变量(被预测变量),
ϵ
\epsilon
ϵ称为误差项,服从正态分布,
E
(
ϵ
)
=
0
E(\epsilon)=0
E(ϵ)=0,
D
(
ϵ
)
=
σ
2
D(\epsilon)=\sigma^2
D(ϵ)=σ2。
回归方程: E ( y ) = β 0 + β 1 x 回归方程:E(y)=\beta_0+\beta_1x 回归方程:E(y)=β0+β1x
上面的方程是对一元线性回归方程两边同时求期望得到的
估计的回归方程: y ^ = β 0 ^ + β 1 ^ x 估计的回归方程:\hat{y}=\hat{\beta_0}+\hat{\beta_1}x 估计的回归方程:y^=β0^+β1^x
其中 β 0 ^ \hat{\beta_0} β0^, β 1 ^ \hat{\beta_1} β1^是未知参数 β 0 \beta_0 β0, β 1 \beta_1 β1的估计值
模型参数估计
(1)回归系数的最小二乘估计==(观测值与估计值的离差平方和最小)==
假设有
n
n
n组独立观测数据
(
x
i
,
y
i
)
(x_i,y_i)
(xi,yi),
i
=
1
,
2
,
3
,
.
.
.
,
n
i=1,2,3,...,n
i=1,2,3,...,n,未知参数
β
0
\beta_0
β0,
β
1
\beta_1
β1的估计值分别为
β
0
^
\hat{\beta_0}
β0^,
β
1
^
\hat{\beta_1}
β1^,记:
y
i
^
=
β
0
^
+
β
1
^
x
i
\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i\\
yi^=β0^+β1^xi
根据最小二乘法,使
Q
=
∑
(
y
i
−
y
i
^
)
2
=
∑
(
y
i
−
β
0
^
−
β
1
^
x
i
)
2
Q=\sum{(y_i-\hat{y_i})^2}=\sum{(y_i-\hat{\beta_0}-\hat{\beta_1}x_i)^2}
Q=∑(yi−yi^)2=∑(yi−β0^−β1^xi)2达到最小,即真实数据到拟合直线的距离的平方和最小时,直线最佳。
由微积分极值的求法知,令
Q
Q
Q对
β
0
^
\hat{\beta_0}
β0^,
β
1
^
\hat{\beta_1}
β1^的偏导数为0,解得:
β
1
^
=
n
∑
i
=
1
n
x
i
y
i
−
∑
i
=
1
n
x
i
∑
i
=
1
n
y
i
n
∑
i
=
1
n
x
i
2
−
(
∑
i
=
1
n
x
i
)
2
β
0
^
=
y
ˉ
−
β
1
^
x
ˉ
\hat{\beta_1}=\frac{n\sum_{i=1}^{n}{x_iy_i}-\sum_{i=1}^{n}{x_i}\sum_{i=1}^{n}{y_i}}{n\sum_{i=1}^{n}{x_i^2}-(\sum_{i=1}^{n}{x_i})^2}\\ \hat{\beta_0}=\bar{y}-\hat{\beta_1}\bar{x}
β1^=n∑i=1nxi2−(∑i=1nxi)2n∑i=1nxiyi−∑i=1nxi∑i=1nyiβ0^=yˉ−β1^xˉ
回归直线经过
y
i
^
=
β
0
^
+
β
1
^
x
i
\hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i
yi^=β0^+β1^xi经过点
(
x
ˉ
,
y
ˉ
)
(\bar{x},\bar{y})
(xˉ,yˉ).
回归直线的拟合优度判定
回归直线 y i ^ = β 0 ^ + β 1 ^ x i \hat{y_i}=\hat{\beta_0}+\hat{\beta_1}x_i yi^=β0^+β1^xi在一定程度上描述了变量 x x x, y y y之间的数量关系,我们可以根据 x x x的取值来预测 y y y的取值。但预测的精度如何取决于回归直线对观测数据的接近程度,即拟合优度。
所有观测值的离差平方和,即总平方和,记为
S
S
T
SST
SST:
S
S
T
=
∑
(
y
i
−
y
ˉ
)
2
SST=\sum{(y_i-\bar{y})^2}\\
SST=∑(yi−yˉ)2
同时
S
S
T
=
∑
(
y
i
−
y
ˉ
)
2
=
∑
(
y
i
−
y
i
^
+
y
i
^
−
y
ˉ
)
2
=
∑
(
y
i
^
−
y
ˉ
)
2
+
∑
(
y
i
−
y
i
^
)
2
=
S
S
R
+
S
S
E
SST=\sum{(y_i-\bar{y})^2}=\sum{(y_i-\hat{y_i}+\hat{y_i}-\bar{y})^2}=\sum{(\hat{y_i}-\bar{y})^2}+\sum{(y_i-\hat{y_i})^2}=SSR+SSE
SST=∑(yi−yˉ)2=∑(yi−yi^+yi^−yˉ)2=∑(yi^−yˉ)2+∑(yi−yi^)2=SSR+SSE
即:
总平方和
(
S
S
T
)
=
回归平方和
(
S
S
R
)
+
残差平方和
(
S
S
E
)
总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
总平方和(SST)=回归平方和(SSR)+残差平方和(SSE)
判定系数 R 2 = S S R S S T ∈ [ 0 , 1 ] R^2=\frac{SSR}{SST}\in[0, 1] R2=SSTSSR∈[0,1],越接近1,拟合越好;越接近0,拟合越差。前面的相关系数 r r r实际就是判定系数 R 2 R^2 R2的平方根。
均方残差 M S E = S S E n − 2 MSE=\frac{SSE}{n-2} MSE=n−2SSE,估计标准误差 s e = M S E = S S E n − 2 s_e=\sqrt{MSE}=\sqrt{\frac{SSE}{n-2}} se=MSE=n−2SSE是误差项 ϵ \epsilon ϵ的标准差 σ \sigma σ的估计,估计标准差 s e s_e se越接近于0,回归直线对各观测点的代表性就越好
显著性检验
(1)线性关系的检验
第一步:提出假设
H
0
:
β
1
=
0
H_0:\beta_1=0
H0:β1=0
第二步:计算检验统计量
F
=
S
S
R
/
1
S
S
E
/
(
n
−
2
)
=
M
S
R
M
S
E
∼
F
(
1
,
n
−
2
)
F=\frac{SSR/1}{SSE/(n-2)}=\frac{MSR}{MSE}\sim F(1, n-2)
F=SSE/(n−2)SSR/1=MSEMSR∼F(1,n−2)
第三步:进行决策
先查表得出 F α ( 1 , n − 2 ) F_\alpha(1,n-2) Fα(1,n−2)的值,若 F > F α ( 1 , n − 2 ) F>F_\alpha(1,n-2) F>Fα(1,n−2),拒绝 H 0 H_0 H0,表明存在显著线性关系
(2)回归系数的检验==(检验自变量对因变量的影响是否显著)==
第一步:提出假设
H
0
:
β
1
=
0
H_0:\beta_1=0
H0:β1=0
第二步:计算检验统计量
t
=
β
1
^
s
β
1
^
∼
t
(
n
−
2
)
其中:
s
β
1
^
=
s
e
∑
x
i
2
−
1
n
(
∑
x
i
)
2
t=\frac{\hat{\beta_1}}{s_{\hat{\beta_1}}}\sim t(n-2)\\ 其中:s_{\hat{\beta_1}}=\frac{s_e}{\sqrt{\sum{x_i^2}-\frac{1}{n}(\sum{x_i})^2}}
t=sβ1^β1^∼t(n−2)其中:sβ1^=∑xi2−n1(∑xi)2se
第三步:进行决策
先查表得出 t α 2 ( n − 2 ) t_{\frac{\alpha}{2}}(n-2) t2α(n−2)的值,若 ∣ t ∣ > t α 2 ( n − 2 ) |t|>t_{\frac{\alpha}{2}}(n-2) ∣t∣>t2α(n−2),拒绝 H 0 H_0 H0,表明回归系数等于0的可能性小于 α \alpha α,自变量对因变量的影响是显著的
预测
(1)点估计
利用估计的回归方程: y ^ = β 0 ^ + β 1 ^ x \hat{y}=\hat{\beta_0}+\hat{\beta_1}x y^=β0^+β1^x,对于某个值 x 0 x_0 x0,求出一个估计值
(2)区间估计( x = x 0 x=x_0 x=x0时)
均值
E
(
y
0
)
E(y_0)
E(y0)在
1
−
α
1-\alpha
1−α置信水平下的置信区间:
y
0
^
±
t
α
2
(
n
−
2
)
s
e
1
n
+
(
x
0
−
x
ˉ
)
2
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
\hat{y_0}\pm t_{\frac{\alpha}{2}}(n-2)s_e\sqrt{\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}}
y0^±t2α(n−2)sen1+∑i=1n(xi−xˉ)2(x0−xˉ)2
个别值
y
0
y_0
y0在
1
−
α
1-\alpha
1−α置信水平下的置信区间:
y
0
^
±
t
α
2
(
n
−
2
)
s
e
1
+
1
n
+
(
x
0
−
x
ˉ
)
2
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
\hat{y_0}\pm t_{\frac{\alpha}{2}}(n-2)s_e\sqrt{1+\frac{1}{n}+\frac{(x_0-\bar{x})^2}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}}
y0^±t2α(n−2)se1+n1+∑i=1n(xi−xˉ)2(x0−xˉ)2
残差分析
残差 e i = y i − y i ^ e_i=y_i-\hat{y_i} ei=yi−yi^,标准化残差 z e i = e i s e ∈ [ − 2 , 2 ] z_{e_i}=\frac{e_i}{s_e}\in[-2,2] zei=seei∈[−2,2]