【计量经济学】简单回归模型

本文详细介绍了简单线性回归模型,包括其基本方程、术语、最小二乘法的推导和统计性质。通过OLS(普通最小二乘法)估计截距和斜率参数,探讨了残差平方和与拟合优度的概念,并分析了如何处理非线性因素。此外,还讨论了模型的无偏性和方差,以及误差项的估计。最后,提到了过原点回归与对常数回归的差异。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简单回归模型–潘登同学的计量经济学笔记

方程及名称

  • 简单形式:
    y = β 0 + β 1 x + u y = \beta_0 + \beta_1 x + u y=β0+β1x+u

  • 基本术语:

yxu β 0 \beta_0 β0 β 1 \beta_1 β1
因变量自变量误差项截距参数斜率参数
被解释变量解释变量干扰项
相应变量控制变量
被预测变量预测变量
回归子回归元

由两条基本假设推导最小二乘法

  • 假设1: E ( u ) = 0 E(u) = 0 E(u)=0

    因为简单回归中的u表示的是随机干扰项,如果均值不为0,那起到的就不是一个随机干扰的作用,假若 E ( u ) ≠ 0 E(u)\neq0 E(u)=0,也可以通过截距项 β 0 \beta_0 β0来将 E ( u ) E(u) E(u)变为0

  • 假设2: E ( u ∣ x ) = E ( u ) E(u|x)=E(u) E(ux)=E(u)

    假设2其实想表达随机干扰项与解释变量x无关,因为是随机嘛,所以无关

将假设1、2合并,便得到零条件均值假定:
E ( u ∣ x ) = 0 E(u|x) = 0 E(ux)=0

现在改写方程
E ( y ∣ x ) = β 0 + β 1 x E(y|x) = \beta_0 + \beta_1 x E(yx)=β0+β1x

矩估计求得 β 0 \beta_0 β0 β 1 \beta_1 β1

E ( u ) = 0 E(u)=0 E(u)=0,有
E [ y − ( β 0 + β 1 x ) ] = 0 即 ∑ i = 1 n ( y i − β 0 ^ − β 1 ^ x ) n = 0 y ˉ − β 0 ^ − β 1 ^ x ˉ = 0 β 0 ^ = y ˉ − β 1 ^ x ˉ . . . . . . ( 1 ) E[y-(\beta_0 + \beta_1 x)] = 0\\ 即 \frac{\sum_{i=1}^n(y_i-\hat{\beta_0}-\hat{\beta_1} x)}{n}=0\\ \bar{y}-\hat{\beta_0}-\hat{\beta_1}\bar{x}=0\\ \hat{\beta_0} = \bar{y}-\hat{\beta_1}\bar{x}......(1) E[y(β0+β1x)]=0ni=1n(yiβ0^β1^x)=0yˉβ0^β1^xˉ=0β0^=yˉβ1^xˉ......1
E ( u x ) = 0 E(ux)=0 E(ux)=0,有
E ( x ( y − ( β 0 + β 1 x ) ) ) = 0 即 ∑ i = 1 n x i ( y i − β 0 − β 1 x ^ ) n = 0 将 上 面 β 0 ^ 的 结 果 代 入 , ∑ i = 1 n x i ( y i − y ˉ ) = β 1 ^ ∑ i = 1 n x i ( x i − x ˉ ) 根 据 ∑ i = 1 n x i ( y i − y ˉ ) = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) 和 ∑ i = 1 n x i ( x i − x ˉ ) = ∑ i = 1 n ( x i − x ˉ ) 2 则 改 写 为 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) = β 1 ^ ∑ i = 1 n ( x i − x ˉ ) 2 只 要 ∑ i = 1 n ( x i − x ˉ ) 2 ≠ 0 β 1 ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = C O V ( x , y ) D ( x ) = ρ x y ^ ( σ x ^ σ y ^ ) . . . . . . ( 2 ) E(x(y-(\beta_0 + \beta_1 x))) = 0\\ 即 \frac{\sum_{i=1}^nx_i(y_i-\hat{\beta_0-\beta_1 x})}{n}=0\\ 将上面\hat{\beta_0}的结果代入, \sum_{i=1}^nx_i(y_i-\bar{y})=\hat{\beta_1}\sum_{i=1}^nx_i(x_i-\bar{x})\\ 根据\sum_{i=1}^nx_i(y_i-\bar{y}) = \sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})和\sum_{i=1}^nx_i(x_i-\bar{x}) = \sum_{i=1}^n(x_i-\bar{x})^2\\ 则改写为\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y}) = \hat{\beta_1}\sum_{i=1}^n(x_i-\bar{x})^2\\ 只要\sum_{i=1}^n(x_i-\bar{x})^2 \neq 0\\ \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{COV(x,y)}{D(x)} = \hat{\rho_{xy}}(\frac{\hat{\sigma_x}}{\hat{\sigma_y}}) ......(2) E(x(y(β0+β1x)))=0ni=1nxi(yiβ0β1x^)=0β0^i=1nxi(yiyˉ)=β1^i=1nxi(xixˉ)i=1nxi(yiyˉ)=i=1n(xixˉ)(yiyˉ)i=1nxi(xixˉ)=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)=β1^i=1n(xixˉ)2i=1n(xixˉ)2=0β1^=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)=D(x)COV(x,y)=ρxy^(σy^σx^)......2

其中, ρ x y ^ \hat{\rho_{xy}} ρxy^是x与y的相关系数, σ x ^ σ y ^ \hat{\sigma_x} \hat{\sigma_y} σx^σy^表示样本方差

(1)与(2)给出的估计值叫做 β 0 与 β 1 \beta_0与\beta_1 β0β1的普通最小二乘法(ordinary least squares, OLS)估计值。

为什么叫普通最小二乘法

定义残差:
u i ^ = y i − y i ^ = y i − ( β 0 + β 1 x ) \hat{u_i} = y_i - \hat{y_i} = y_i - (\beta_0 + \beta_1 x) ui^=yiyi^=yi(β0+β1x)

注意 残差与误差不是同一个东西,可以理解为一个是事前模型理想的值,而另一个则是事后估计与观察的差值

我们想要估计与观测尽可能的小,让残差平方和(SSR)最小即可
min ⁡ β 0 , β 1 ∑ i = 1 n u i ^ 2 \min_{\beta_0 , \beta_1}\sum_{i=1}^n \hat{u_i}^2 β0,β1mini=1nui^2

  • 问题:为什么是去优化残差平方和而不是绝对值或者4次方呢?

这个我们在多元线性回归MLR中,用极大似然估计推导过,可以看那个过程。

OLS统计量的代数性质

  • 1.OLS残差和其样本均值都为0
    ∑ i = 1 n u i ^ = 0 \sum_{i=1}^n \hat{u_i} = 0 i=1nui^=0
  • 2.解释变量与OLS残差的样本协方差为零
    ∑ i = 1 n x i u i ^ = 0 \sum_{i=1}^n x_i\hat{u_i} = 0 i=1nxiui^=0
  • 3.点 ( x ˉ , y ˉ ) (\bar{x},\bar{y}) (xˉ,yˉ)总在OLS回归线上
    y ˉ = β 0 + β 1 x ˉ \bar{y} = \beta_0 + \beta_1 \bar{x} yˉ=β0+β1xˉ

SST、SSE、SSR

定义总平方和(Total sum of squares)、解释平方和(explained sum of squares)、残差平方和(residual sum of squares)
S S T ≡ ∑ i = 1 n ( y i − y ˉ ) 2 S S E ≡ ∑ i = 1 n ( y i ^ − y ˉ ) 2 S S R ≡ ∑ i = 1 n u i ^ 2 SST \equiv \sum_{i=1}^n (y_i - \bar{y})^2\\ SSE \equiv \sum_{i=1}^n (\hat{y_i} - \bar{y})^2\\ SSR \equiv \sum_{i=1}^n \hat{u_i}^2 SSTi=1n(yiyˉ)2SSEi=1n(yi^yˉ)2SSRi=1nui^2

  • SST度量了 y i y_i yi中总样本的波动;这就是说,他度量了 y i y_i yi在样本中的分散程度,将其除以 n − 1 n-1 n1,便得到y的样本方差。
  • SSE度量了 y i ^ \hat{y_i} yi^的样本波动
  • SSR度量了 u i ^ \hat{u_i} ui^的样本波动, y y y的样本波动总能表示成解释了的波动和为解释的波动之和
    S S T = S S E + S S R SST = SSE + SSR SST=SSE+SSR

推导
∑ i = 1 n ( y i − y ˉ ) 2 = ∑ i = 1 n [ ( y i − y i ^ ) + ( y i ^ − y ˉ ) ] 2 = ∑ i = 1 n [ u i ^ + ( y i ^ − y i ˉ ) ] 2 = ∑ i = 1 n u i ^ 2 + 2 ∑ i = 1 n u i ^ ( y i ^ − y i ˉ ) + ∑ i = 1 n ( y i ^ − y i ˉ ) 2 = S S R + 2 ∑ i = 1 n u i ^ ( y i ^ − y i ˉ ) + S S E \begin{aligned} \sum_{i=1}^n (y_i - \bar{y})^2 &= \sum_{i=1}^n[(y_i-\hat{y_i})+(\hat{y_i}-\bar{y})]^2\\ &= \sum_{i=1}^n[\hat{u_i}+(\hat{y_i}-\bar{y_i})]^2\\ &= \sum_{i=1}^n\hat{u_i}^2 + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + \sum_{i=1}^n(\hat{y_i}-\bar{y_i})^2\\ &= SSR + 2\sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) + SSE \end{aligned} i=1n(yiyˉ)2=i=1n[(yiyi^)+(yi^yˉ)]2=i=1n[ui^+(yi^yiˉ)]2=i=1nui^2+2i=1nui^(yi^yiˉ)+i=1n(yi^yiˉ)2=SSR+2i=1nui^(yi^yiˉ)+SSE

对于上式,只要 ∑ i = 1 n u i ^ ( y i ^ − y i ˉ ) = 0 \sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i})=0 i=1nui^(yi^yiˉ)=0就可以得证;
∑ i = 1 n u i ^ ( y i ^ − y i ˉ ) = ∑ i = 1 n u i ^ y i ^ − u i ^ y i ˉ = ∑ i = 1 n u i ^ y i ^ = ∑ i = 1 n u i ^ ( β 0 + β 1 x i ) = β 1 ∑ i = 1 n u i ^ x i 由 性 质 2 , 上 式 为 0 \begin{aligned} \sum_{i=1}^n\hat{u_i}(\hat{y_i}-\bar{y_i}) &= \sum_{i=1}^n\hat{u_i}\hat{y_i} - \hat{u_i}\bar{y_i} \\ &= \sum_{i=1}^n\hat{u_i}\hat{y_i}\\ &= \sum_{i=1}^n\hat{u_i}(\beta_0 + \beta_1 {x_i})\\ &= \beta_1\sum_{i=1}^n\hat{u_i} {x_i}\\ 由性质2,上式为0 \end{aligned} i=1nui^(yi^yiˉ)20=i=1nui^yi^ui^yiˉ=i=1nui^yi^=i=1nui^(β0+β1xi)=β1i=1nui^xi

拟合优度

当SST不为零时(只要y不全相等,SST就不为零)
R 2 ≡ S S E S S T = 1 − S S R S S T R^2 \equiv \frac{SSE}{SST} = 1 - \frac{SSR}{SST} R2SSTSSE=1SSTSSR

R 2 R^2 R2是可解释波动与总波动之比, R 2 R^2 R2总是介于 [ 0 , 1 ] [0,1] [0,1]越大拟合效果越好

R 2 R^2 R2也可以用 y i 与 y i ^ y_i与\hat{y_i} yiyi^的样本相关系数的平方来计算,这也是 R 2 R^2 R2的由来

注意 在社会科学中, R 2 R^2 R2过低是很正常的,特别是对于横截面分析来说,一个很低的 R 2 R^2 R2不代表OLS回归方程没有用,所以不需要过多的在意 R 2 R^2 R2的大小

在简单回归中加入非线性因素

我们想研究,解释变量 x x x变化一个单位的时候被解释变量 y y y变化的百分数,可以构建这样一个模型
log ⁡ ( y ) = β 0 + β 1 x + u \log(y) = \beta_0 + \beta_1x + u log(y)=β0+β1x+u

注意 log ⁡ \log log表示的是自然对数,因为经济学家们都习惯用 log ⁡ \log log表示而不是 ln ⁡ \ln ln

  • 问题:为什么 log ⁡ ( y ) \log(y) log(y)能表示变化的百分比

百分数变化 x 从 x 0 变 到 x 1 x从x_0变到x_1 xx0x1的百分比变化是:
% △ x = 100 ( x 1 − x 0 x 0 ) = 100 ( △ x x 0 ) \%△x = 100(\frac{x_1-x_0}{x_0}) = 100(\frac{△x}{x_0}) %x=100(x0x1x0)=100(x0x)

核心不等式:在高中时期,我们学过这样一个不等式
l n ( x + 1 ) ≤ x ( 当 且 仅 当 x = 0 时 , 等 式 成 立 ) ln(x+1) \leq x (当且仅当x=0时,等式成立) ln(x+1)xx=0

y 0 与 y 1 y_0与y_1 y0y1为两个正数,满足 y 1 − y 0 ≈ 0 y_1-y_0 \approx 0 y1y00,则有
log ⁡ ( y 1 ) − log ⁡ ( y 0 ) = log ⁡ ( y 1 y 0 ) = log ⁡ ( 1 + △ y y 0 ) ≈ △ y y 0 \log(y_1) - \log(y_0) = \log(\frac{y_1}{y_0}) = \log(1+\frac{△y}{y_0}) \approx \frac{△y}{y_0} log(y1)log(y0)=log(y0y1)=log(1+y0y)y0y

故我们只需要给 △ l o g ( y ) △log(y) log(y)加个百分号就能反映变化的百分比了

常弹性模型

有了上面的知识,我们也可以去研究解释变量变化百分之一时,被解释变量变化百分之几,这就是常弹性模型
log ⁡ ( y ) = β 0 + β 1 log ⁡ ( x ) \log(y) = \beta_0 + \beta_1\log(x) log(y)=β0+β1log(x)

弹性:y对x的弹性就是,当x变化百分之一时,y变化百分之几
β = △ log ⁡ ( y ) △ log ⁡ ( x ) \beta = \frac{△\log(y)}{△\log(x)} β=log(x)log(y)
这个 β \beta β就能表示y对x的弹性啦

OLS估计的统计性质

OLS的无偏性

有4个假定,因为简单线性模型也可以写作SLR,后面就用SLR来表示

  • 假定
    • SLR.1 (线性于参数)
      总 体 模 型 y = β 0 + β 1 x + u 总体模型\\ y = \beta_0 + \beta_1x + u y=β0+β1x+u

    • SLR.2 (随机抽样)

      横截面数据的样本都是随机抽样的结果

    • SLR.3 (解释变量的样本有波动)

      x是不完全相等的数值,因为一旦全都相等,那 β 1 ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 \hat{\beta_1} = \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} β1^=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)的分母就会为0

    • SLR.4 (零条件均值)
      E ( u ∣ x ) = 0 E(u|x) = 0 E(ux)=0

前三个假定都是很自然而然的,假定4则是从开始一直沿用的。

定理 OLS估计量的无偏性
β 1 ^ = ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) ∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − x ˉ ) y i ∑ i = 1 n ( x i − x ˉ ) 2 = ∑ i = 1 n ( x i − x ˉ ) ( β 0 + β 1 x i + u i ) ∑ i = 1 n ( x i − x ˉ ) 2 = β 0 ∑ i = 1 n ( x i − x ˉ ) + β 1 ∑ i = 1 n ( x i − x ˉ ) x i + ∑ i = 1 n ( x i − x ˉ ) u i S S T x = β 1 S S T x + ∑ i = 1 n ( x i − x ˉ ) u i S S T x = β 1 + 1 S S T x ∑ i = 1 n d i u i \begin{aligned} \hat{\beta_1} &= \frac{\sum_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sum_{i=1}^n(x_i-\bar{x})^2} = \frac{\sum_{i=1}^n(x_i-\bar{x})y_i}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ &= \frac{\sum_{i=1}^n(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}{\sum_{i=1}^n(x_i-\bar{x})^2}\\ &= \frac{\beta_0\sum_{i=1}^n(x_i-\bar{x}) + \beta_1\sum_{i=1}^n(x_i-\bar{x})x_i + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x}\\ &= \frac{\beta_1SST_x + \sum_{i=1}^n(x_i-\bar{x})u_i}{SST_x} = \beta_1 + \frac{1}{SST_x}\sum_{i=1}^nd_iu_i \end{aligned} β1^=i=1n(xixˉ)2i=1n(xixˉ)(yiyˉ)=i=1n(xixˉ)2i=1n(xixˉ)yi=i=1n(xixˉ)2i=1n(xixˉ)(β0+β1xi+ui)=SSTxβ0i=1n(xixˉ)+β1i=1n(xixˉ)xi+i=1n(xixˉ)ui=SSTxβ1SSTx+i=1n(xixˉ)ui=β1+SSTx1i=1ndiui

其中, d i = x i − x ˉ d_i = x_i - \bar{x} di=xixˉ,则 β 1 ^ \hat{\beta_1} β1^的估计量等于总体斜率加上误差 { u 1 , u 2 , … , u n } \{u_1,u_2,\ldots,u_n\} {u1,u2,,un}的一个线性组合,以 x i x_i xi为条件, β 1 ^ \hat{\beta_1} β1^的随机性完全来自于样本中的误差,这些误差一般都不为零的事实,正是 β 1 ^ 与 β 1 \hat{\beta_1}与\beta_1 β1^β1有差异的原因;

利用SLR.1-SLR.4,对 β 0 与 β 1 \beta_0与\beta_1 β0β1的任何值,我们都有
E ( β 0 ^ ) = β 0 , E ( β 1 ^ ) = β 1 E(\hat{\beta_0}) = \beta_0,E(\hat{\beta_1}) = \beta_1 E(β0^)=β0,E(β1^)=β1

  • 对于 β 1 \beta_1 β1
    E ( β 1 ^ ) = β 1 + E ( 1 S S T x ∑ i = 1 n d i u i ) = β 1 + 1 S S T x ∑ i = 1 n E ( d i u i ) = β 1 + 1 S S T x ∑ i = 1 n d i E ( u i ) = β 1 \begin{aligned} E(\hat{\beta_1}) &= \beta_1+E(\frac{1}{SST_x}\sum_{i=1}^nd_iu_i)\\ &= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nE(d_iu_i)\\ &= \beta_1+\frac{1}{SST_x}\sum_{i=1}^nd_iE(u_i)\\ &= \beta_1 \end{aligned} E(β1^)=β1+E(SSTx1i=1ndiui)=β1+SSTx1i=1nE(diui)=β1+SSTx1i=1ndiE(ui)=β1
    注意 在上面的推到过程中,期望值都以张自变量的样本值为条件。因为 S S T x 和 d i SST_x和d_i SSTxdi都只是 x i x_i xi的函数,所以在它们在条件的作用下是非随机的。
  • 对于 β 0 \beta_0 β0
    β 0 ^ = y ˉ − β 1 ^ x ˉ = β 0 + β 1 x ˉ + u ˉ − β 1 ^ x ˉ E ( β 0 ^ ) = β 0 + E [ ( β 1 − β 1 ^ ) x ˉ ] = β 0 \begin{aligned} \hat{\beta_0} &= \bar{y}-\hat{\beta_1}\bar{x} \\ &= \beta_0 + \beta_1\bar{x}+\bar{u}-\hat{\beta_1}\bar{x}\\ E(\hat{\beta_0}) &= \beta_0 + E[(\beta_1-\hat{\beta_1})\bar{x}]\\ &= \beta_0 \end{aligned} β0^E(β0^)=yˉβ1^xˉ=β0+β1xˉ+uˉβ1^xˉ=β0+E[(β1β1^)xˉ]=β0

OLS估计量的方差

在SLR.1-SLR.4的基础上再加入一个同方差假定

  • SLR.5 (同方差性)
    给定解释变量的任何值,误差都具有相同的方差
    V a r ( u ∣ x ) = σ 2 Var(u|x) = \sigma^2 Var(ux)=σ2
    因为 V a r ( u ∣ x ) = E ( u 2 ∣ x ) − [ E ( u ∣ x ) ] 2 Var(u|x) = E(u^2|x)-[E(u|x)]^2 Var(ux)=E(u2x)[E(ux)]2 E ( u ∣ x ) = 0 E(u|x)=0 E(ux)=0,这意味着 σ 2 \sigma^2 σ2也是 u 2 u^2 u2的无条件方差。

如果用y的条件均值和条件方差表示假定SLR.4和SLR.5:
E ( y ∣ x ) = β 0 + β 1 x V a r ( y ∣ x ) = σ 2 E(y|x) = \beta_0 + \beta_1x\\ Var(y|x)=\sigma^2 E(yx)=β0+β1xVar(yx)=σ2
注意 V a r ( u ∣ x ) Var(u|x) Var(ux)取决于x时,便称误差项表现出异方差性,由于 V a r ( u ∣ x ) = V a r ( y ∣ x ) Var(u|x)=Var(y|x) Var(ux)=Var(yx),所以只要 V a r ( u ∣ x ) 是 x Var(u|x)是x Var(ux)x的函数,便出现了异方差性

定理 OLS估计量的抽样方差
V a r ( β 1 ^ ) = ( 1 S S T x ) 2 V a r ( ∑ i = 1 n d i u i ) = ( 1 S S T x ) 2 ∑ i = 1 n d i 2 V a r ( u i ) = σ 2 ( 1 S S T x ) 2 ∑ i = 1 n d i 2 = σ 2 ( 1 S S T x ) 2 S S T x = σ 2 S S T x V a r ( β 0 ^ ) = V a r ( y ˉ − β 1 ^ x ˉ ) = V a r ( β 0 + ( β 1 − β 1 ^ ) x ˉ + u ˉ ) = V a r ( u ˉ ) + x ˉ 2 V a r ( β 1 − β 1 ^ ) = σ 2 n + x ˉ 2 σ 2 S S T x = σ 2 n S S T x + x ˉ 2 σ 2 S S T x = σ 2 n ∑ i = 1 n ( ( x i − x ˉ ) 2 + x ˉ 2 ) S S T x = σ 2 n ∑ i = 1 n ( x i 2 − 2 x i x ˉ + 2 x ˉ 2 ) S S T x = σ 2 n ∑ i = 1 n x i 2 S S T x \begin{aligned} Var(\hat{\beta_1}) &= (\frac{1}{SST_x})^2Var(\sum_{i=1}^nd_iu_i)\\ &= (\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2Var(u_i)\\ &= \sigma^2(\frac{1}{SST_x})^2\sum_{i=1}^nd_i^2\\ &= \sigma^2(\frac{1}{SST_x})^2SST_x\\ &= \frac{\sigma^2}{SST_x}\\ Var(\hat{\beta_0}) &= Var(\bar{y}-\hat{\beta_1}\bar{x})\\ &= Var(\beta_0+(\beta_1-\hat{\beta_1})\bar{x}+\bar{u})\\ &= Var(\bar{u}) + \bar{x}^2Var(\beta_1-\hat{\beta_1})\\ &= \frac{\sigma^2}{n} + \bar{x}^2\frac{\sigma^2}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}SST_x + \bar{x}^2\sigma^2}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n((x_i-\bar{x})^2 + \bar{x}^2)}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^n(x_i^2-2x_i\bar{x} + 2\bar{x}^2)}{SST_x}\\ &= \frac{\frac{\sigma^2}{n}\sum_{i=1}^nx_i^2}{SST_x}\\ \end{aligned} Var(β1^)Var(β0^)=(SSTx1)2Var(i=1ndiui)=(SSTx1)2i=1ndi2Var(ui)=σ2(SSTx1)2i=1ndi2=σ2(SSTx1)2SSTx=SSTxσ2=Var(yˉβ1^xˉ)=Var(β0+(β1β1^)xˉ+uˉ)=Var(uˉ)+xˉ2Var(β1β1^)=nσ2+xˉ2SSTxσ2=SSTxnσ2SSTx+xˉ2σ2=SSTxnσ2i=1n((xixˉ)2+xˉ2)=SSTxnσ2i=1n(xi22xixˉ+2xˉ2)=SSTxnσ2i=1nxi2

误差方差的估计

前面OLS估计量的抽样方差都要求在已知 σ 2 \sigma^2 σ2的情况下才能能计算出来,而大多数的情况 σ 2 \sigma^2 σ2是未知的,我们可以用观测数据去估计 σ 2 \sigma^2 σ2从而去估计出 V a r ( β 0 ^ ) 和 V a r ( β 1 ^ ) Var(\hat{\beta_0})和Var(\hat{\beta_1}) Var(β0^)Var(β1^)

残差与误差的区别

  • 误差
    u i = y i − β 0 − β 1 x i u_i = y_i - \beta_0 - \beta_1x_i ui=yiβ0β1xi
  • 残差
    u i ^ = y i − β 0 ^ − β 1 ^ x i = ( β 0 + β 1 + u i ) − β 0 − β 1 x i \hat{u_i} = y_i - \hat{\beta_0} - \hat{\beta_1}x_i=(\beta_0 + \beta_1+u_i) - \beta_0 - \beta_1x_i ui^=yiβ0^β1^xi=(β0+β1+ui)β0β1xi
    结合一下,有
    u i ^ = u i − ( β 0 ^ − β 0 ) − ( β 1 ^ − β 1 ) x i \hat{u_i} = u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i ui^=ui(β0^β0)(β1^β1)xi

虽然 E ( β 0 ^ ) = β 0 , E ( β 1 ^ ) = β 1 E(\hat{\beta_0})=\beta_0,E(\hat{\beta_1})=\beta_1 E(β0^)=β0,E(β1^)=β1但是对于任意一个样本 u i ^ ≠ u i \hat{u_i}\neq u_i ui^=ui,但是二者之差的期望确实为0.

回到 σ 2 \sigma^2 σ2的估计

因为 σ 2 = E ( u 2 ) \sigma^2 = E(u^2) σ2=E(u2),那么 σ 2 \sigma^2 σ2的一个无偏估计量就是
∑ i = 1 n u i n \frac{\sum_{i=1}^nu_i}{n} ni=1nui
但是, u u u其实是观测不到的误差,我们只能通过简单回归的估计值与观测值的差得到 u u u的估计值 u i ^ \hat{u_i} ui^,如果我们用 u i ^ \hat{u_i} ui^来代替 u u u,那么 σ 2 \sigma^2 σ2的一个无偏估计量就是
σ 2 ^ = ∑ i = 1 n u i ^ n − 2 \hat{\sigma^2} = \frac{\sum_{i=1}^n\hat{u_i}}{n-2} σ2^=n2i=1nui^

之所以分母变成了 n − 2 n-2 n2是因为残差在之前有两个一阶条件:
∑ i = 1 n u i ^ = 0 ∑ i = 1 n x i u i ^ = 0 \sum_{i=1}^n\hat{u_i}=0\\ \sum_{i=1}^nx_i\hat{u_i}=0 i=1nui^=0i=1nxiui^=0
所以自由度就变成了n-2

定理 σ 2 \sigma^2 σ2的无偏估计
E ( σ 2 ^ ) = σ 2 E(\hat{\sigma^2}) = \sigma^2 E(σ2^)=σ2

推导:
( 利 用 残 差 均 值 为 0 ) 对 u i ^ = u i − ( β 0 ^ − β 0 ) − ( β 1 ^ − β 1 ) x i 两 边 取 均 值 0 = u i ˉ − ( β 0 ^ − β 0 ) − ( β 1 ^ − β 1 ) x i ˉ 上 减 下 u i ^ = ( u i − u i ˉ ) − ( β 1 ^ − β 1 ) ( x i − x i ˉ ) 两 边 平 方 u i ^ 2 = ( u i − u i ˉ ) 2 − 2 ( β 1 ^ − β 1 ) ( x i − x i ˉ ) ( u i − u i ˉ ) + ( β 1 ^ − β 1 ) 2 ( x i − x i ˉ ) 2 对 所 有 i 求 和 ∑ i = 1 n u i ^ 2 = ∑ i = 1 n ( u i − u i ˉ ) 2 − 2 ( β 1 ^ − β 1 ) ∑ i = 1 n ( x i − x i ˉ ) u i + ( β 1 ^ − β 1 ) 2 ∑ i = 1 n ( x i − x i ˉ ) 2 两 边 求 期 望 E ( ∑ i = 1 n u i ^ 2 ) = ( n − 1 ) σ 2 − 2 σ 2 + σ 2 = ( n − 2 ) σ 2 ∴ E ( ∑ i = 1 n u i ^ 2 n − 2 ) = σ 2 \begin{aligned} (利用残差均值为0)\\ 对\hat{u_i} &= u_i - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)x_i\\ 两边取均值\\ 0 &= \bar{u_i} - (\hat{\beta_0} - \beta_0) - (\hat{\beta_1}-\beta_1)\bar{x_i}\\ 上减下\\ \hat{u_i} &= (u_i - \bar{u_i}) - (\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})\\ 两边平方\\ \hat{u_i}^2 &= (u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)(x_i - \bar{x_i})(u_i - \bar{u_i}) + (\hat{\beta_1}-\beta_1)^2(x_i - \bar{x_i})^2\\ 对所有i求和\\ \sum_{i=1}^n\hat{u_i}^2 &= \sum_{i=1}^n(u_i - \bar{u_i})^2 - 2(\hat{\beta_1}-\beta_1)\sum_{i=1}^n(x_i - \bar{x_i})u_i + (\hat{\beta_1}-\beta_1)^2\sum_{i=1}^n(x_i - \bar{x_i})^2\\ 两边求期望\\ E(\sum_{i=1}^n\hat{u_i}^2) &= (n-1)\sigma^2-2\sigma^2 + \sigma^2 = (n-2)\sigma^2\\ \therefore E(\frac{\sum_{i=1}^n\hat{u_i}^2}{n-2}) &= \sigma^2\\ \end{aligned} (0)ui^0ui^ui^2ii=1nui^2E(i=1nui^2)E(n2i=1nui^2)=ui(β0^β0)(β1^β1)xi=uiˉ(β0^β0)(β1^β1)xiˉ=(uiuiˉ)(β1^β1)(xixiˉ)=(uiuiˉ)22(β1^β1)(xixiˉ)(uiuiˉ)+(β1^β1)2(xixiˉ)2=i=1n(uiuiˉ)22(β1^β1)i=1n(xixiˉ)ui+(β1^β1)2i=1n(xixiˉ)2=(n1)σ22σ2+σ2=(n2)σ2=σ2

当有了 σ 2 ^ \hat{\sigma^2} σ2^就可以去估计 V a r ( β 1 ^ ) 与 V a r ( β 0 ^ ) Var(\hat{\beta_1})与Var(\hat{\beta_0}) Var(β1^)Var(β0^),值得一提的是,我们前面做的基本上都是点估计,在区间估计的时候,我们需要用 σ ^ \hat{\sigma} σ^来估计标准差,因为
s d ( β 1 ^ ) = σ S S T x sd(\hat{\beta_1}) = \frac{\sigma}{\sqrt{SST_x}} sd(β1^)=SSTx σ
所以, s d ( β 1 ^ ) sd(\hat{\beta_1}) sd(β1^)的一个估计量为:
s e ( β 1 ^ ) = σ ^ S S T x se(\hat{\beta_1}) = \frac{\hat{\sigma}}{\sqrt{SST_x}} se(β1^)=SSTx σ^

这个被称为 β 1 ^ \hat{\beta_1} β1^的标准误(standard error),与 β 1 ^ \hat{\beta_1} β1^相似这个也是关于样本的一个随机变量;

注意 σ ^ 不 是 σ \hat{\sigma}不是\sigma σ^σ的无偏估计量,但是是一个一致估计量,在大样本的情况下还是可以放心使用的

过原点回归与对常数回归

在某些研究中,我们希望施加这样的约束,就是当 x = 0 时 , E ( y ) = 0 x=0时,E(y)=0 x=0E(y)=0,所以我们会构建这样一个模型
y ~ = β 1 ~ x \tilde{y} = \tilde{\beta_1}x y~=β1~x

需要注意的就是在计算 R 2 R^2 R2的时候可能会出现负数的情况
R 2 = 1 − ∑ i = 1 n ( y i − β 1 ~ x i ) ∑ i = 1 n ( y i − y ˉ ) 2 R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n(y_i-\bar{y})^2} R2=1i=1nyiyˉ)2i=1n(yiβ1~xi)
一旦出现负数,就表明用这个模型做的回归还不如直接用均值来拟合的效果好,其实本质上反映的问题就是:当 x = 0 时 , E ( y ) = 0 x=0时,E(y)=0 x=0E(y)=0这个假设严重不符合实际。

如果坚持要使用这个模型的话, R 2 R^2 R2应该改为
R 2 = 1 − ∑ i = 1 n ( y i − β 1 ~ x i ) ∑ i = 1 n y i 2 R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2} R2=1i=1nyi2i=1n(yiβ1~xi)

而对常数回归就是上面提到的那个直接用均值拟合,预测值始终就是 y ˉ \bar{y} yˉ了,如果套用 R 2 R^2 R2的公式,那么得到的始终是0;

需要注意的就是在计算 R 2 R^2 R2的时候可能会出现负数的情况
R 2 = 1 − ∑ i = 1 n ( y i − β 1 ~ x i ) ∑ i = 1 n ( y i − y ˉ ) 2 R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^n(y_i-\bar{y})^2} R2=1i=1nyiyˉ)2i=1n(yiβ1~xi)
一旦出现负数,就表明用这个模型做的回归还不如直接用均值来拟合的效果好,其实本质上反映的问题就是:当 x = 0 时 , E ( y ) = 0 x=0时,E(y)=0 x=0E(y)=0这个假设严重不符合实际。

如果坚持要使用这个模型的话, R 2 R^2 R2应该改为
R 2 = 1 − ∑ i = 1 n ( y i − β 1 ~ x i ) ∑ i = 1 n y i 2 R^2 = 1-\frac{\sum_{i=1}^n(y_i-\tilde{\beta_1}x_i)}{\sum_{i=1}^ny_i^2} R2=1i=1nyi2i=1n(yiβ1~xi)

而对常数回归就是上面提到的那个直接用均值拟合,预测值始终就是 y ˉ \bar{y} yˉ了,如果套用 R 2 R^2 R2的公式,那么得到的始终是0;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

PD我是你的真爱粉

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值