简单回归模型–潘登同学的计量经济学笔记
文章目录
方程及名称
-
简单形式:
y = β 0 + β 1 x + u y = \beta_0 + \beta_1 x + u y=β0+β1x+u -
基本术语:
y | x | u | β 0 \beta_0 β0 | β 1 \beta_1 β1 |
---|---|---|---|---|
因变量 | 自变量 | 误差项 | 截距参数 | 斜率参数 |
被解释变量 | 解释变量 | 干扰项 | ||
相应变量 | 控制变量 | |||
被预测变量 | 预测变量 | |||
回归子 | 回归元 |
由两条基本假设推导最小二乘法
-
假设1: E ( u ) = 0 E(u) = 0 E(u)=0
因为简单回归中的u表示的是随机干扰项,如果均值不为0,那起到的就不是一个随机干扰的作用,假若 E ( u ) ≠ 0 E(u)\neq0 E(u)=0,也可以通过截距项 β 0 \beta_0 β0来将 E ( u ) E(u) E(u)变为0
-
假设2: E ( u ∣ x ) = E ( u ) E(u|x)=E(u) E(u∣x)=E(u)
假设2其实想表达随机干扰项与解释变量x无关,因为是随机嘛,所以无关
将假设1、2合并,便得到零条件均值假定:
E
(
u
∣
x
)
=
0
E(u|x) = 0
E(u∣x)=0
现在改写方程
E
(
y
∣
x
)
=
β
0
+
β
1
x
E(y|x) = \beta_0 + \beta_1 x
E(y∣x)=β0+β1x
矩估计求得 β 0 \beta_0 β0与 β 1 \beta_1 β1
由
E
(
u
)
=
0
E(u)=0
E(u)=0,有
E
[
y
−
(
β
0
+
β
1
x
)
]
=
0
即
∑
i
=
1
n
(
y
i
−
β
0
^
−
β
1
^
x
)
n
=
0
y
ˉ
−
β
0
^
−
β
1
^
x
ˉ
=
0
β
0
^
=
y
ˉ
−
β
1
^
x
ˉ
.
.
.
.
.
.
(
1
)
E[y-(\beta_0 + \beta_1 x)] = 0\\ 即 \frac{\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1} x)}{n}=0\\ \bar{y}-\hat{\beta_0}-\hat{\beta_1}\bar{x}=0\\ \hat{\beta_0} = \bar{y}-\hat{\beta_1}\bar{x}......(1)
E[y−(β0+β1x)]=0即n∑i=1n(yi−β0^−β1^x)=0yˉ−β0^−β1^xˉ=0β0^=yˉ−β1^xˉ......(1)
由
E
(
u
x
)
=
0
E(ux)=0
E(ux)=0,有
E
(
x
(
y
−
(
β
0
+
β
1
x
)
)
)
=
0
即
∑
i
=
1
n
x
i
(
y
i
−
β
0
−
β
1
x
^
)
n
=
0
将
上
面
β
0
^
的
结
果
代
入
,
∑
i
=
1
n
x
i
(
y
i
−
y
ˉ
)
=
β
1
^
∑
i
=
1
n
x
i
(
x
i
−
x
ˉ
)
根
据
∑
i
=
1
n
x
i
(
y
i
−
y
ˉ
)
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
和
∑
i
=
1
n
x
i
(
x
i
−
x
ˉ
)
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
则
改
写
为
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
=
β
1
^
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
只
要
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
≠
0
β
1
^
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
=
C
O
V
(
x
,
y
)
D
(
x
)
=
ρ
x
y
^
(
σ
x
^
σ
y
^
)
.
.
.
.
.
.
(
2
)
E(x(y-(\beta_0 + \beta_1 x))) = 0\\ 即 \frac{\sum_{i=1}^nx_i(y_i-\hat{\beta_0-\beta_1 x})}{n}=0\\ 将上面\hat{\beta_0}的结果代入, \sum_{i=1}^nx_i(y_i-\bar{y})=\hat{\beta_1}\sum_{i=1}^nx_i(x_i-\bar{x})\\ 根据\sum_{i=1}^nx_i(y_i-\bar{y}) = \sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})和\sum_{i=1}^nx_i(x_i-\bar{x}) = \sum_{i=1}^n(x_i-\bar{x})^2\\ 则改写为\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) = \hat{\beta_1}\sum_{i=1}^n(x_i-\bar{x})^2\\ 只要\sum_{i=1}^n(x_i-\bar{x})^2 \neq 0\\ \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{COV(x,y)}{D(x)} = \hat{\rho_{xy}}(\frac{\hat{\sigma_x}}{\hat{\sigma_y}}) ......(2)
E(x(y−(β0+β1x)))=0即n∑i=1nxi(yi−β0−β1x^)=0将上面β0^的结果代入,i=1∑nxi(yi−yˉ)=β1^i=1∑nxi(xi−xˉ)根据i=1∑nxi(yi−yˉ)=i=1∑n(xi−xˉ)(yi−yˉ)和i=1∑nxi(xi−xˉ)=i=1∑n(xi−xˉ)2则改写为i=1∑n(xi−xˉ)(yi−yˉ)=β1^i=1∑n(xi−xˉ)2只要i=1∑n(xi−xˉ)2=0β1^=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=D(x)COV(x,y)=ρxy^(σy^σx^)......(2)
其中, ρ x y ^ \hat{\rho_{xy}} ρxy^是x与y的相关系数, σ x ^ σ y ^ \hat{\sigma_x} \hat{\sigma_y} σx^σy^表示样本方差
(1)与(2)给出的估计值叫做 β 0 与 β 1 \beta_0与\beta_1 β0与β1的普通最小二乘法(ordinary least squares, OLS)估计值。
为什么叫普通最小二乘法
定义残差:
u
i
^
=
y
i
−
y
i
^
=
y
i
−
(
β
0
+
β
1
x
)
\hat{u_i} = y_i - \hat{y_i} = y_i - (\beta_0 + \beta_1 x)
ui^=yi−yi^=yi−(β0+β1x)
注意
残差与误差不是同一个东西,可以理解为一个是事前模型理想的值,而另一个则是事后估计与观察的差值
我们想要估计与观测尽可能的小,让残差平方和(SSR)最小即可
min
β
0
,
β
1
∑
i
=
1
n
u
i
^
2
\min_{\beta_0 , \beta_1}\sum_{i=1}^n \hat{u_i}^2
β0,β1mini=1∑nui^2
- 问题:为什么是去优化残差平方和而不是绝对值或者4次方呢?
这个我们在多元线性回归MLR中,用极大似然估计推导过,可以看那个过程。
OLS统计量的代数性质
- 1.OLS残差和其样本均值都为0
∑ i = 1 n u i ^ = 0 \sum_{i=1}^n \hat{u_i} = 0 i=1∑nui^=0 - 2.解释变量与OLS残差的样本协方差为零
∑ i = 1 n x i u i ^ = 0 \sum_{i=1}^n x_i\hat{u_i} = 0 i=1∑nxiui^=0 - 3.点
(
x
ˉ
,
y
ˉ
)
(\bar{x},\bar{y})
(xˉ,yˉ)总在OLS回归线上
y ˉ = β 0 + β 1 x ˉ \bar{y} = \beta_0 + \beta_1 \bar{x} yˉ=β0+β1xˉ
SST、SSE、SSR
定义总平方和(Total sum of squares)、解释平方和(explained sum of squares)、残差平方和(residual sum of squares)
S
S
T
≡
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
S
S
E
≡
∑
i
=
1
n
(
y
i
^
−
y
ˉ
)
2
S
S
R
≡
∑
i
=
1
n
u
i
^
2
SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2
SST≡i=1∑n(yi−yˉ)2SSE≡i=1∑n(yi^−yˉ)2SSR≡i=1∑nui^2
- SST度量了 y i y_i yi中总样本的波动;这就是说,他度量了 y i y_i yi在样本中的分散程度,将其除以 n − 1 n-1 n−1,便得到y的样本方差。
- SSE度量了 y i ^ \hat{y_i} yi^的样本波动
- SSR度量了
u
i
^
\hat{u_i}
ui^的样本波动,
y
y
y的样本波动总能表示成解释了的波动和为解释的波动之和
S S T = S S E + S S R SST = SSE + SSR SST=SSE+SSR
推导
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
=
∑
i
=
1
n
[
(
y
i
−
y
i
^
)
+
(
y
i
^
−
y
ˉ
)
]
2
=
∑
i
=
1
n
[
u
i
^
+
(
y
i
^
−
y
i
ˉ
)
]
2
=
∑
i
=
1
n
u
i
^
2
+
2
∑
i
=
1
n
u
i
^
(
y
i
^
−
y
i
ˉ
)
+
∑
i
=
1
n
(
y
i
^
−
y
i
ˉ
)
2
=
S
S
R
+
2
∑
i
=
1
n
u
i
^
(
y
i
^
−
y
i
ˉ
)
+
S
S
E
\begin{aligned} \sum_{i=1}^n (y_i - \bar{y})^2 &= \sum_{i=1}^n[(y_i-\hat{y_i})+(\hat{y_i}-\bar{y})]^2\\ &= \sum_{i=1}^n[\hat{u_i}+(\hat{y_i}-\bar{y_i})]^2\\ &= \sum_{i=1}^n\hat{u_i}^2 + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + \sum_{i=1}^n(\hat{y_i}-\bar{y_i})^2\\ &= SSR + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + SSE \end{aligned}
i=1∑n(yi−yˉ)2=i=1∑n[(yi−yi^)+(yi^−yˉ)]2=i=1∑n[ui^+(yi^−yiˉ)]2=i=1∑nui^2+2i=1∑nui^(yi^−yiˉ)+i=1∑n(yi^−yiˉ)2=SSR+2i=1∑nui^(yi^−yiˉ)+SSE
对于上式,只要
∑
i
=
1
n
u
i
^
(
y
i
^
−
y
i
ˉ
)
=
0
\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i})=0
∑i=1nui^(yi^−yiˉ)=0就可以得证;
∑
i
=
1
n
u
i
^
(
y
i
^
−
y
i
ˉ
)
=
∑
i
=
1
n
u
i
^
y
i
^
−
u
i
^
y
i
ˉ
=
∑
i
=
1
n
u
i
^
y
i
^
=
∑
i
=
1
n
u
i
^
(
β
0
+
β
1
x
i
)
=
β
1
∑
i
=
1
n
u
i
^
x
i
由
性
质
2
,
上
式
为
0
\begin{aligned} \sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) &= \sum_{i=1}^n\hat{u_i}\hat{y_i} - \hat{u_i}\bar{y_i} \\ &= \sum_{i=1}^n\hat{u_i}\hat{y_i}\\ &= \sum_{i=1}^n\hat{u_i}(\beta_0 + \beta_1 {x_i})\\ &= \beta_1\sum_{i=1}^n\hat{u_i} {x_i}\\ 由性质2,上式为0 \end{aligned}
i=1∑nui^(yi^−yiˉ)由性质2,上式为0=i=1∑nui^yi^−ui^yiˉ=i=1∑nui^yi^=i=1∑nui^(β0+β1xi)=β1i=1∑nui^xi
拟合优度
当SST不为零时(只要y不全相等,SST就不为零)
R
2
≡
S
S
E
S
S
T
=
1
−
S
S
R
S
S
T
R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST}
R2≡SSTSSE=1−SSTSSR
R 2 R^2 R2是可解释波动与总波动之比, R 2 R^2 R2总是介于 [ 0 , 1 ] [0,1] [0,1]越大拟合效果越好
R 2 R^2 R2也可以用 y i 与 y i ^ y_i与\hat{y_i} yi与yi^的样本相关系数的平方来计算,这也是 R 2 R^2 R2的由来
注意
在社会科学中,
R
2
R^2
R2过低是很正常的,特别是对于横截面分析来说,一个很低的
R
2
R^2
R2不代表OLS回归方程没有用,所以不需要过多的在意
R
2
R^2
R2的大小
在简单回归中加入非线性因素
我们想研究,解释变量
x
x
x变化一个单位的时候被解释变量
y
y
y变化的百分数,可以构建这样一个模型
log
(
y
)
=
β
0
+
β
1
x
+
u
\log(y) = \beta_0 + \beta_1x + u
log(y)=β0+β1x+u
注意
log
\log
log表示的是自然对数,因为经济学家们都习惯用
log
\log
log表示而不是
ln
\ln
ln
- 问题:为什么 log ( y ) \log(y) log(y)能表示变化的百分比
百分数变化:
x
从
x
0
变
到
x
1
x从x_0变到x_1
x从x0变到x1的百分比变化是:
%
△
x
=
100
(
x
1
−
x
0
x
0
)
=
100
(
△
x
x
0
)
\%△x = 100(\frac{x_1-x_0}{x_0}) = 100(\frac{△x}{x_0})
%△x=100(x0x1−x0)=100(x0△x)
核心不等式:在高中时期,我们学过这样一个不等式
l
n
(
x
+
1
)
≤
x
(
当
且
仅
当
x
=
0
时
,
等
式
成
立
)
ln(x+1) \leq x (当且仅当x=0时,等式成立)
ln(x+1)≤x(当且仅当x=0时,等式成立)
令
y
0
与
y
1
y_0与y_1
y0与y1为两个正数,满足
y
1
−
y
0
≈
0
y_1-y_0 \approx 0
y1−y0≈0,则有
log
(
y
1
)
−
log
(
y
0
)
=
log
(
y
1
y
0
)
=
log
(
1
+
△
y
y
0
)
≈
△
y
y
0
\log(y_1) - \log(y_0) = \log(\frac{y_1}{y_0}) = \log(1+\frac{△y}{y_0}) \approx \frac{△y}{y_0}
log(y1)−log(y0)=log(y0y1)=log(1+y0△y)≈y0△y
故我们只需要给 △ l o g ( y ) △log(y) △log(y)加个百分号就能反映变化的百分比了
常弹性模型
有了上面的知识,我们也可以去研究解释变量变化百分之一时,被解释变量变化百分之几,这就是常弹性模型
log
(
y
)
=
β
0
+
β
1
log
(
x
)
\log(y) = \beta_0 + \beta_1\log(x)
log(y)=β0+β1log(x)
弹性:y对x的弹性就是,当x变化百分之一时,y变化百分之几
β
=
△
log
(
y
)
△
log
(
x
)
\beta = \frac{△\log(y)}{△\log(x)}
β=△log(x)△log(y)
这个
β
\beta
β就能表示y对x的弹性啦
OLS估计的统计性质
OLS的无偏性
有4个假定,因为简单线性模型也可以写作SLR,后面就用SLR来表示
- 假定
-
SLR.1 (线性于参数)
总 体 模 型 y = β 0 + β 1 x + u 总体模型\\ y = \beta_0 + \beta_1x + u 总体模型y=β0+β1x+u -
SLR.2 (随机抽样)
横截面数据的样本都是随机抽样的结果
-
SLR.3 (解释变量的样本有波动)
x是不完全相等的数值,因为一旦全都相等,那 β 1 ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} β1^=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)的分母就会为0
-
SLR.4 (零条件均值)
E ( u ∣ x ) = 0 E(u|x) = 0 E(u∣x)=0
-
前三个假定都是很自然而然的,假定4则是从开始一直沿用的。
定理
OLS估计量的无偏性
β
1
^
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
y
i
−
y
ˉ
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
y
i
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
=
∑
i
=
1
n
(
x
i
−
x
ˉ
)
(
β
0
+
β
1
x
i
+
u
i
)
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
=
β
0
∑
i
=
1
n
(
x
i
−
x
ˉ
)
+
β
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
x
i
+
∑
i
=
1
n
(
x
i
−
x
ˉ
)
u
i
S
S
T
x
=
β
1
S
S
T
x
+
∑
i
=
1
n
(
x
i
−
x
ˉ
)
u
i
S
S
T
x
=
β
1
+
1
S
S
T
x
∑
i
=
1
n
d
i
u
i
\begin{aligned} \hat{\beta_1} &= \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ &= \frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ &= \frac{\beta_0\sum_{i=1}^n(x_i-\bar{x}) + \beta_1\sum_{i=1}^n(x_i-\bar{x})x_i + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &= \frac{\beta_1SST_x + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x} = \beta_1 + \frac{1}{SST_x}\sum_{i=1}^nd_iu_i \end{aligned}
β1^=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(yi−yˉ)=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)yi=∑i=1n(xi−xˉ)2∑i=1n(xi−xˉ)(β0+β1xi+ui)=SSTxβ0∑i=1n(xi−xˉ)+β1∑i=1n(xi−xˉ)xi+∑i=1n(xi−xˉ)ui=SSTxβ1SSTx+∑i=1n(xi−xˉ)ui=β1+SSTx1i=1∑ndiui
其中, d i = x i − x ˉ d_i = x_i - \bar{x} di=xi−xˉ,则 β 1 ^ \hat{\beta_1} β1^的估计量等于总体斜率加上误差 { u 1 , u 2 , … , u n } \{u_1,u_2,\ldots,u_n\} {u1,u2,…,un}的一个线性组合,以 x i x_i xi为条件, β 1 ^ \hat{\beta_1} β1^的随机性完全来自于样本中的误差,这些误差一般都不为零的事实,正是 β 1 ^ 与 β 1 \hat{\beta_1}与\beta_1 β1^与β1有差异的原因;
利用SLR.1-SLR.4,对
β
0
与
β
1
\beta_0与\beta_1
β0与β1的任何值,我们都有
E
(
β
0
^
)
=
β
0
,
E
(
β
1
^
)
=
β
1
E(\hat{\beta_0}) = \beta_0,E(\hat{\beta_1}) = \beta_1
E(β0^)=β0,E(β1^)=β1
- 对于
β
1
\beta_1
β1
E ( β 1 ^ ) = β 1 + E ( 1 S S T x ∑ i = 1 n d i u i ) = β 1 + 1 S S T x ∑ i = 1 n E ( d i u i ) = β 1 + 1 S S T x ∑ i = 1 n d i E ( u i ) = β 1 \begin{aligned} E(\hat{\beta_1}) &= \beta_1+E(\frac{1}{SST_x}\sum_{i=1}^nd_iu_i)\\ &= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nE(d_iu_i)\\ &= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nd_iE(u_i)\\ &= \beta_1 \end{aligned} E(β1^)=β1+E(SSTx1i=1∑ndiui)=β1+SSTx1i=1∑nE(diui)=β1+SSTx1i=1∑ndiE(ui)=β1
注意
在上面的推到过程中,期望值都以张自变量的样本值为条件。因为 S S T x 和 d i SST_x和d_i SSTx和di都只是 x i x_i xi的函数,所以在它们在条件的作用下是非随机的。 - 对于
β
0
\beta_0
β0
β 0 ^ = y ˉ − β 1 ^ x ˉ = β 0 + β 1 x ˉ + u ˉ − β 1 ^ x ˉ E ( β 0 ^ ) = β 0 + E [ ( β 1 − β 1 ^ ) x ˉ ] = β 0 \begin{aligned} \hat{\beta_0} &= \bar{y}-\hat{\beta_1}\bar{x} \\ &= \beta_0 + \beta_1\bar{x}+\bar{u}-\hat{\beta_1}\bar{x}\\ E(\hat{\beta_0}) &= \beta_0 + E[(\beta_1-\hat{\beta_1})\bar{x}]\\ &= \beta_0 \end{aligned} β0^E(β0^)=yˉ−β1^xˉ=β0+β1xˉ+uˉ−β1^xˉ=β0+E[(β1−β1^)xˉ]=β0
OLS估计量的方差
在SLR.1-SLR.4的基础上再加入一个同方差假定
- SLR.5 (同方差性)
给定解释变量的任何值,误差都具有相同的方差
V a r ( u ∣ x ) = σ 2 Var(u|x) = \sigma^2 Var(u∣x)=σ2
因为 V a r ( u ∣ x ) = E ( u 2 ∣ x ) − [ E ( u ∣ x ) ] 2 Var(u|x) = E(u^2|x)-[E(u|x)]^2 Var(u∣x)=E(u2∣x)−[E(u∣x)]2且 E ( u ∣ x ) = 0 E(u|x)=0 E(u∣x)=0,这意味着 σ 2 \sigma^2 σ2也是 u 2 u^2 u2的无条件方差。
如果用y的条件均值和条件方差表示假定SLR.4和SLR.5:
E
(
y
∣
x
)
=
β
0
+
β
1
x
V
a
r
(
y
∣
x
)
=
σ
2
E(y|x) = \beta_0 + \beta_1x\\ Var(y|x)=\sigma^2
E(y∣x)=β0+β1xVar(y∣x)=σ2
注意
当
V
a
r
(
u
∣
x
)
Var(u|x)
Var(u∣x)取决于x时,便称误差项表现出异方差性,由于
V
a
r
(
u
∣
x
)
=
V
a
r
(
y
∣
x
)
Var(u|x)=Var(y|x)
Var(u∣x)=Var(y∣x),所以只要
V
a
r
(
u
∣
x
)
是
x
Var(u|x)是x
Var(u∣x)是x的函数,便出现了异方差性
定理
OLS估计量的抽样方差
V
a
r
(
β
1
^
)
=
(
1
S
S
T
x
)
2
V
a
r
(
∑
i
=
1
n
d
i
u
i
)
=
(
1
S
S
T
x
)
2
∑
i
=
1
n
d
i
2
V
a
r
(
u
i
)
=
σ
2
(
1
S
S
T
x
)
2
∑
i
=
1
n
d
i
2
=
σ
2
(
1
S
S
T
x
)
2
S
S
T
x
=
σ
2
S
S
T
x
V
a
r
(
β
0
^
)
=
V
a
r
(
y
ˉ
−
β
1
^
x
ˉ
)
=
V
a
r
(
β
0
+
(
β
1
−
β
1
^
)
x
ˉ
+
u
ˉ
)
=
V
a
r
(
u
ˉ
)
+
x
ˉ
2
V
a
r
(
β
1
−
β
1
^
)
=
σ
2
n
+
x
ˉ
2
σ
2
S
S
T
x
=
σ
2
n
S
S
T
x
+
x
ˉ
2
σ
2
S
S
T
x
=
σ
2
n
∑
i
=
1
n
(
(
x
i
−
x
ˉ
)
2
+
x
ˉ
2
)
S
S
T
x
=
σ
2
n
∑
i
=
1
n
(
x
i
2
−
2
x
i
x
ˉ
+
2
x
ˉ
2
)
S
S
T
x
=
σ
2
n
∑
i
=
1
n
x
i
2
S
S
T
x
\begin{aligned} Var(\hat{\beta_1}) &= (\frac{1}{SST_x})^2Var(\sum_{i=1}^nd_iu_i)\\ &= (\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2Var(u_i)\\ &= \sigma^2(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2\\ &= \sigma^2(\frac{1}{SST_x})^2SST_x\\ &= \frac{\sigma^2}{SST_x}\\ Var(\hat{\beta_0}) &= Var(\bar{y}-\hat{\beta_1}\bar{x})\\ &= Var(\beta_0+(\beta_1-\hat{\beta_1})\bar{x}+\bar{u})\\ &= Var(\bar{u}) + \bar{x}^2Var(\beta_1-\hat{\beta_1})\\ &= \frac{\sigma^2}{n} + \bar{x}^2\frac{\sigma^2}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}SST_x + \bar{x}^2\sigma^2}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n((x_i-\bar{x})^2 + \bar{x}^2)}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n(x_i^2-2x_i\bar{x} + 2\bar{x}^2)}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^nx_i^2}{SST_x}\\ \end{aligned}
Var(β1^)Var(β0^)=(SSTx1)2Var(i=1∑ndiui)=(SSTx1)2i=1∑ndi2Var(ui)=σ2(SSTx1)2i=1∑ndi2=σ2(SSTx1)2SSTx=SSTxσ2=Var(yˉ−β1^xˉ)=Var(β0+(β1−β1^)xˉ+uˉ)=Var(uˉ)+xˉ2Var(β1−β1^)=nσ2+xˉ2SSTxσ2=SSTxnσ2SSTx+xˉ2σ2=SSTxnσ2∑i=1n((xi−xˉ)2+xˉ2)=SSTxnσ2∑i=1n(xi2−2xixˉ+2xˉ2)=SSTxnσ2∑i=1nxi2
误差方差的估计
前面OLS估计量的抽样方差都要求在已知 σ 2 \sigma^2 σ2的情况下才能能计算出来,而大多数的情况 σ 2 \sigma^2 σ2是未知的,我们可以用观测数据去估计 σ 2 \sigma^2 σ2从而去估计出 V a r ( β 0 ^ ) 和 V a r ( β 1 ^ ) Var(\hat{\beta_0})和Var(\hat{\beta_1}) Var(β0^)和Var(β1^)
残差与误差的区别
- 误差
u i = y i − β 0 − β 1 x i u_i = y_i - \beta_0 - \beta_1x_i ui=yi−β0−β1xi - 残差
u i ^ = y i − β 0 ^ − β 1 ^ x i = ( β 0 + β 1 + u i ) − β 0 − β 1 x i \hat{u_i} = y_i - \hat{\beta_0} - \hat{\beta_1}x_i=(\beta_0 + \beta_1+u_i) - \beta_0 - \beta_1x_i ui^=yi−β0^−β1^xi=(β0+β1+ui)−β0−β1xi
结合一下,有
u i ^ = u i − ( β 0 ^ − β 0 ) − ( β 1 ^ − β 1 ) x i \hat{u_i} = u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i ui^=ui−(β0^−β0)−(β1^−β1)xi
虽然 E ( β 0 ^ ) = β 0 , E ( β 1 ^ ) = β 1 E(\hat{\beta_0})=\beta_0,E(\hat{\beta_1})=\beta_1 E(β0^)=β0,E(β1^)=β1但是对于任意一个样本 u i ^ ≠ u i \hat{u_i}\neq u_i ui^=ui,但是二者之差的期望确实为0.
回到 σ 2 \sigma^2 σ2的估计
因为
σ
2
=
E
(
u
2
)
\sigma^2 = E(u^2)
σ2=E(u2),那么
σ
2
\sigma^2
σ2的一个无偏估计量就是
∑
i
=
1
n
u
i
n
\frac{\sum_{i=1}^nu_i}{n}
n∑i=1nui
但是,
u
u
u其实是观测不到的误差,我们只能通过简单回归的估计值与观测值的差得到
u
u
u的估计值
u
i
^
\hat{u_i}
ui^,如果我们用
u
i
^
\hat{u_i}
ui^来代替
u
u
u,那么
σ
2
\sigma^2
σ2的一个无偏估计量就是
σ
2
^
=
∑
i
=
1
n
u
i
^
n
−
2
\hat{\sigma^2} = \frac{\sum_{i=1}^n\hat{u_i}}{n-2}
σ2^=n−2∑i=1nui^
之所以分母变成了
n
−
2
n-2
n−2是因为残差在之前有两个一阶条件:
∑
i
=
1
n
u
i
^
=
0
∑
i
=
1
n
x
i
u
i
^
=
0
\sum_{i=1}^n\hat{u_i}=0\\ \sum_{i=1}^nx_i\hat{u_i}=0
i=1∑nui^=0i=1∑nxiui^=0
所以自由度就变成了n-2
定理
σ
2
\sigma^2
σ2的无偏估计
E
(
σ
2
^
)
=
σ
2
E(\hat{\sigma^2}) = \sigma^2
E(σ2^)=σ2
推导:
(
利
用
残
差
均
值
为
0
)
对
u
i
^
=
u
i
−
(
β
0
^
−
β
0
)
−
(
β
1
^
−
β
1
)
x
i
两
边
取
均
值
0
=
u
i
ˉ
−
(
β
0
^
−
β
0
)
−
(
β
1
^
−
β
1
)
x
i
ˉ
上
减
下
u
i
^
=
(
u
i
−
u
i
ˉ
)
−
(
β
1
^
−
β
1
)
(
x
i
−
x
i
ˉ
)
两
边
平
方
u
i
^
2
=
(
u
i
−
u
i
ˉ
)
2
−
2
(
β
1
^
−
β
1
)
(
x
i
−
x
i
ˉ
)
(
u
i
−
u
i
ˉ
)
+
(
β
1
^
−
β
1
)
2
(
x
i
−
x
i
ˉ
)
2
对
所
有
i
求
和
∑
i
=
1
n
u
i
^
2
=
∑
i
=
1
n
(
u
i
−
u
i
ˉ
)
2
−
2
(
β
1
^
−
β
1
)
∑
i
=
1
n
(
x
i
−
x
i
ˉ
)
u
i
+
(
β
1
^
−
β
1
)
2
∑
i
=
1
n
(
x
i
−
x
i
ˉ
)
2
两
边
求
期
望
E
(
∑
i
=
1
n
u
i
^
2
)
=
(
n
−
1
)
σ
2
−
2
σ
2
+
σ
2
=
(
n
−
2
)
σ
2
∴
E
(
∑
i
=
1
n
u
i
^
2
n
−
2
)
=
σ
2
\begin{aligned} (利用残差均值为0)\\ 对\hat{u_i} &= u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i\\ 两边取均值\\ 0 &= \bar{u_i} - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)\bar{x_i}\\ 上减下\\ \hat{u_i} &= (u_i - \bar{u_i}) - (\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})\\ 两边平方\\ \hat{u_i}^2 &= (u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})(u_i - \bar{u_i}) + (\hat{\beta_1}-\beta_1)^2(x_i - \bar{x_i})^2\\ 对所有i求和\\ \sum_{i=1}^n\hat{u_i}^2 &= \sum_{i=1}^n(u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)\sum_{i=1}^n(x_i - \bar{x_i})u_i + (\hat{\beta_1}-\beta_1)^2\sum_{i=1}^n(x_i - \bar{x_i})^2\\ 两边求期望\\ E(\sum_{i=1}^n\hat{u_i}^2) &= (n-1)\sigma^2-2\sigma^2 + \sigma^2 = (n-2)\sigma^2\\ \therefore E(\frac{\sum_{i=1}^n\hat{u_i}^2}{n-2}) &= \sigma^2\\ \end{aligned}
(利用残差均值为0)对ui^两边取均值0上减下ui^两边平方ui^2对所有i求和i=1∑nui^2两边求期望E(i=1∑nui^2)∴E(n−2∑i=1nui^2)=ui−(β0^−β0)−(β1^−β1)xi=uiˉ−(β0^−β0)−(β1^−β1)xiˉ=(ui−uiˉ)−(β1^−β1)(xi−xiˉ)=(ui−uiˉ)2−2(β1^−β1)(xi−xiˉ)(ui−uiˉ)+(β1^−β1)2(xi−xiˉ)2=i=1∑n(ui−uiˉ)2−2(β1^−β1)i=1∑n(xi−xiˉ)ui+(β1^−β1)2i=1∑n(xi−xiˉ)2=(n−1)σ2−2σ2+σ2=(n−2)σ2=σ2
当有了
σ
2
^
\hat{\sigma^2}
σ2^就可以去估计
V
a
r
(
β
1
^
)
与
V
a
r
(
β
0
^
)
Var(\hat{\beta_1})与Var(\hat{\beta_0})
Var(β1^)与Var(β0^),值得一提的是,我们前面做的基本上都是点估计,在区间估计的时候,我们需要用
σ
^
\hat{\sigma}
σ^来估计标准差,因为
s
d
(
β
1
^
)
=
σ
S
S
T
x
sd(\hat{\beta_1}) = \frac{\sigma}{\sqrt{SST_x}}
sd(β1^)=SSTxσ
所以,
s
d
(
β
1
^
)
sd(\hat{\beta_1})
sd(β1^)的一个估计量为:
s
e
(
β
1
^
)
=
σ
^
S
S
T
x
se(\hat{\beta_1}) = \frac{\hat{\sigma}}{\sqrt{SST_x}}
se(β1^)=SSTxσ^
这个被称为 β 1 ^ \hat{\beta_1} β1^的标准误(standard error),与 β 1 ^ \hat{\beta_1} β1^相似这个也是关于样本的一个随机变量;
注意
σ
^
不
是
σ
\hat{\sigma}不是\sigma
σ^不是σ的无偏估计量,但是是一个一致估计量,在大样本的情况下还是可以放心使用的
过原点回归与对常数回归
在某些研究中,我们希望施加这样的约束,就是当
x
=
0
时
,
E
(
y
)
=
0
x=0时,E(y)=0
x=0时,E(y)=0,所以我们会构建这样一个模型
y
~
=
β
1
~
x
\tilde{y} = \tilde{\beta_1}x
y~=β1~x
需要注意的就是在计算
R
2
R^2
R2的时候可能会出现负数的情况
R
2
=
1
−
∑
i
=
1
n
(
y
i
−
β
1
~
x
i
)
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n(y_i-\bar{y})^2}
R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−β1~xi)
一旦出现负数,就表明用这个模型做的回归还不如直接用均值来拟合的效果好,其实本质上反映的问题就是:当
x
=
0
时
,
E
(
y
)
=
0
x=0时,E(y)=0
x=0时,E(y)=0这个假设严重不符合实际。
如果坚持要使用这个模型的话,
R
2
R^2
R2应该改为
R
2
=
1
−
∑
i
=
1
n
(
y
i
−
β
1
~
x
i
)
∑
i
=
1
n
y
i
2
R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2}
R2=1−∑i=1nyi2∑i=1n(yi−β1~xi)
而对常数回归就是上面提到的那个直接用均值拟合,预测值始终就是 y ˉ \bar{y} yˉ了,如果套用 R 2 R^2 R2的公式,那么得到的始终是0;
需要注意的就是在计算
R
2
R^2
R2的时候可能会出现负数的情况
R
2
=
1
−
∑
i
=
1
n
(
y
i
−
β
1
~
x
i
)
∑
i
=
1
n
(
y
i
−
y
ˉ
)
2
R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n(y_i-\bar{y})^2}
R2=1−∑i=1n(yi−yˉ)2∑i=1n(yi−β1~xi)
一旦出现负数,就表明用这个模型做的回归还不如直接用均值来拟合的效果好,其实本质上反映的问题就是:当
x
=
0
时
,
E
(
y
)
=
0
x=0时,E(y)=0
x=0时,E(y)=0这个假设严重不符合实际。
如果坚持要使用这个模型的话,
R
2
R^2
R2应该改为
R
2
=
1
−
∑
i
=
1
n
(
y
i
−
β
1
~
x
i
)
∑
i
=
1
n
y
i
2
R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2}
R2=1−∑i=1nyi2∑i=1n(yi−β1~xi)
而对常数回归就是上面提到的那个直接用均值拟合,预测值始终就是 y ˉ \bar{y} yˉ了,如果套用 R 2 R^2 R2的公式,那么得到的始终是0;