经典回归模型到底在干嘛?

回归(Regression)最早由高尔顿(1886)提出,他发现,子辈的平均身高是其父辈平均身高以及他们所处族群平均身高的加权平均和,即身高具有均值回归的倾向。这个均值本质上是条件均值(给定父辈和种群平均身高,子代身高的均值),经典回归模型事实上就是在估计条件均值

在经典回归模型中,我们希望用解释变量(regressand) X X X的函数 g ( X ) g(X) g(X)来预测被解释变量(regressor) Y Y Y。此时需要一个标准来测度 g ( X ) g(X) g(X) Y Y Y的接近程度,均方误(mean squared error, MSE)准则最常被使用,MSE是预测误差(预测值 g ( X ) g(X) g(X)与目标 Y Y Y之差)的平方的期望,表达式如下

MSE ⁡ ( g ) = E [ Y − g ( X ) ] 2 = ∫ ∫ [ y − g ( x ) ] 2 f X Y ( x , y ) d x d y \operatorname{MSE}(g)=E[Y-g(X)]^{2} = \int\int[y-g(x)]^2f_{XY}(x,y)\mathrm{d} x\mathrm{d} y MSE(g)=E[Yg(X)]2=[yg(x)]2fXY(x,y)dxdy

其中, f X Y ( x , y ) f_{XY}(x,y) fXY(x,y)是变量 X X X Y Y Y的联合概率分布。

显然,MSE越小, g ( X ) g(X) g(X) Y Y Y的预测能力越强。因此现在的问题转换为,求解使MSE最小的函数 g ( ⋅ ) g(·) g(),注意到MSE是函数 g ( ⋅ ) g(·) g()的函数。

事实上,条件均值 E ( Y ∣ X ) E(Y|X) E(YX)就是使MSE最小的函数 g 0 ( X ) g_0(X) g0(X),可以用求微分和方差分解两种方法证明(证明见文末附录)。

需要注意的是,条件均值 E ( Y ∣ X ) E(Y|X) E(YX) X X X而非 Y Y Y的函数,例如在高尔顿的例子中,子代身高的条件均值,取决于父辈和种群的平均身高,也即父辈和种群的平均身高的函数。

MSE是衡量 g ( X ) g(X) g(X) Y Y Y的预测能力的准则之一,但非唯一准则。例如,平均绝对误差(mean absolute error, MAE),

MAE ⁡ ( g ) = E ∣ Y − g ( X ) ∣ \operatorname{MAE}(g)=E|Y-g(X)| MAE(g)=EYg(X)

此时,使MAE最小的函数 g ( X ) g(X) g(X)是条件中位数,分位数回归采用的正是该准则。

相比MAE,MSE具有连续可导的优良性质。

此外,令 Y = E ( Y ∣ X ) + ε Y=E(Y | X)+\varepsilon Y=E(YX)+ε,其中 ε \varepsilon ε被称为回归扰动项,则有

E ( ε ∣ X ) = E { [ Y − E ( Y ∣ X ) ] ∣ X } = E ( Y ∣ X ) − E [ g o ( X ) ∣ X ] = E ( Y ∣ X ) − g o ( X ) = 0 \begin{aligned} E(\varepsilon | X) &=E\{[Y-E(Y | X)] | X\} \\ &=E(Y | X)-E\left[g_{o}(X) | X\right] \\ &=E(Y | X)-g_{o}(X) \\ &=0 \end{aligned} E(εX)=E{[YE(YX)]X}=E(YX)E[go(X)X]=E(YX)go(X)=0

E ( ε ∣ X ) = 0 E(\varepsilon|X) = 0 E(εX)=0意味着 ε \varepsilon ε不包含可用于预测 Y Y Y的期望值的任何有关 X X X的信息。换句话说,可用于预测 Y Y Y的所有 X X X的信息被包含在 E ( Y ∣ X ) E(Y|X) E(YX)

在很多经济问题中,一阶条件矩即条件均值也是关注的焦点。

基于以上诸多原因,回归等式被设定为 Y = E ( Y ∣ X ) + ε Y=E(Y | X)+\varepsilon Y=E(YX)+ε,经典回归模型就是在估计 E ( Y ∣ X ) E(Y|X) E(YX)。常用的建模方法就是将 E ( Y ∣ X ) E(Y|X) E(YX)设定为某种有已知的函数形式,但包含少数未知参数,然后估计未知参数即可。

例如,线性回归模型假定

E ( Y ∣ X ) = β 0 + ∑ j = 1 k β j X j , β j ∈ R E(Y|X)=\beta_{0}+\sum_{j=1}^{k} \beta_{j} X_{j}, \beta_{j} \in \mathbb{R} E(YX)=β0+j=1kβjXj,βjR

又如,Logistic回归模型假定
E ( Y ∣ X ) = 1 1 + exp ⁡ ( − β 0 − ∑ j = 1 k β j X j ) E(Y|X)=\frac{1}{1+\exp (-\beta_{0}-\sum_{j=1}^{k} \beta_{j} X_{j})} E(YX)=1+exp(β0j=1kβjXj)1

最终经典回归问题被转换为熟悉的参数估计。

参考文献

[1] Francis, Galton. Regression Towards Mediocrity in Hereditary Stature[J]. The Journal of the Anthropological Institute of Great Britain and Ireland, 1886.

[2] Hong Y. Advanced Econometrics, Higher Education Press, 2011:18-28.

附录

引理:重复期望法则(Law of Iterated Expectations, LIE),对给定可测函数 G ( X , Y ) G(X,Y) G(X,Y),假设期望 E [ G ( X , Y ) ] E[G(X,Y)] E[G(X,Y)]存在,则

E [ G ( X , Y ) ] = E { E [ G ( X , Y ) ∣ X ] } E[G(X, Y)]=E\{E[G(X, Y) | X]\} E[G(X,Y)]=E{E[G(X,Y)X]}

证明:仅考虑 ( Y , X ′ ) ′ \left(Y,X^{\prime}\right)^{\prime} (Y,X)是连续随机向量的情形,有

E [ G ( X , Y ) ] = ∬ − ∞ ∞ G ( x , y ) f X Y ( x , y ) d x d y = ∬ − ∞ ∞ G ( x , y ) f Y ∣ X ( y ∣ x ) f X ( x ) d x d y = ∫ [ ∫ − ∞ ∞ G ( x , y ) f Y ∣ X ( y ∣ x ) d y ] f X ( x ) d x = ∫ E [ G ( X , Y ) ∣ X = x ] f X ( x ) d x = E { E [ G ( X , Y ) ∣ X ] } \begin{aligned} E[G(X, Y)] &=\iint_{-\infty}^{\infty} G(x, y) f_{X Y}(x, y) \mathrm{d} x \mathrm{d} y \\ &=\iint_{-\infty}^{\infty} G(x, y) f_{Y | X}(y | x) f_{X}(x) \mathrm{d} x \mathrm{d} y \\ &=\int\left[\int_{-\infty}^{\infty} G(x, y) f_{Y | X}(y | x) \mathrm{d} y\right] f_{X}(x) \mathrm{d} x \\ &=\int E[G(X, Y) | X=x] f_{X}(x) \mathrm{d} x \\ &=E\{E[G(X, Y) | X]\} \end{aligned} E[G(X,Y)]=G(x,y)fXY(x,y)dxdy=G(x,y)fYX(yx)fX(x)dxdy=[G(x,y)fYX(yx)dy]fX(x)dx=E[G(X,Y)X=x]fX(x)dx=E{E[G(X,Y)X]}

定理:条件均值 E ( Y ∣ X ) E(Y|X) E(YX)是下列问题的最优解

E ( Y ∣ X ) = arg ⁡ min ⁡ g ∈ F M S E ( g ) = arg ⁡ min ⁡ g ∈ F E [ Y − g ( X ) ] 2 \begin{aligned} E(Y | X) &=\arg \min _{g \in \mathbb{F}} M S E(g) \\ &=\arg \min _{g \in \mathbb{F}} E[Y-g(X)]^{2} \end{aligned} E(YX)=arggFminMSE(g)=arggFminE[Yg(X)]2

其中 F \mathbb{F} F是所有可测和平方可积函数的集合,即

F = { g : R k + 1 → R ∣ ∫ g 2 ( x ) f X ( x ) d x < ∞ } \mathbb{F}=\left\{g: \mathbb{R}^{k+1} \rightarrow \mathbb{R} | \int g^{2}(x) f_{X}(x) \mathrm{d} x<\infty\right\} F={g:Rk+1Rg2(x)fX(x)dx<}

法一:方差分解

g 0 ( X ) = E ( Y ∣ X ) g_{0}(X) = E(Y | X) g0(X)=E(YX),则

MSE ⁡ ( g ) = E [ Y − g 0 ( X ) + g 0 ( X ) − g ( X ) ] 2 = E [ Y − g 0 ( X ) ] 2 + E [ g 0 ( X ) − g ( X ) ] 2 + 2 E { [ Y − g 0 ( X ) ] [ g 0 ( X ) − g ( X ) ] } \begin{aligned} \operatorname{MSE}(g) &=E\left[Y-g_{0}(X)+g_{0}(X)-g(X)\right]^{2} \\ &=E\left[Y-g_{0}(X)\right]^{2}+E\left[g_{0}(X)-g(X)\right]^{2}+2 E\left\{\left[Y-g_{0}(X)\right]\left[g_{0}(X)-g(X)\right]\right\} \end{aligned} MSE(g)=E[Yg0(X)+g0(X)g(X)]2=E[Yg0(X)]2+E[g0(X)g(X)]2+2E{[Yg0(X)][g0(X)g(X)]}

根据重复期望法则

E { [ Y − g 0 ( X ) ] [ g 0 ( X ) − g ( X ) ] } = E { E ( [ Y − g 0 ( X ) ] [ g 0 ( X ) − g ( X ) ] ∣ X ) } = E { [ g 0 ( X ) − g ( X ) ] E ( [ Y − g 0 ( X ) ] ∣ X ) } = E { [ g 0 ( X ) − g ( X ) ] [ E ( Y ∣ X ) − g 0 ( X ) ] } = E { [ g 0 ( X ) − g ( X ) ] ⋅ 0 } = 0 \begin{aligned} E\left\{\left[Y-g_{0}(X)\right]\left[g_{0}(X)-g(X)\right]\right\} &=E\left\{E\left(\left[Y-g_{0}(X)\right]\left[g_{0}(X)-g(X)\right]|X\right)\right\} \\ &=E\left\{\left[g_{0}(X)-g(X)\right]E\left(\left[Y-g_{0}(X)\right]|X\right)\right\} \\ &=E\left\{\left[g_{0}(X)-g(X)\right][E(Y|X)-g_{0}(X)]\right\} \\ &=E\left\{\left[g_{0}(X)-g(X)\right]·0\right\} \\ &=0 \end{aligned} E{[Yg0(X)][g0(X)g(X)]}=E{E([Yg0(X)][g0(X)g(X)]X)}=E{[g0(X)g(X)]E([Yg0(X)]X)}=E{[g0(X)g(X)][E(YX)g0(X)]}=E{[g0(X)g(X)]0}=0

   ⟹    M S E ( g ) = E [ Y − g 0 ( X ) ] 2 + E [ g 0 ( X ) − g ( X ) ] 2 \implies MSE(g) =E\left[Y-g_{0}(X)\right]^{2}+E\left[g_{0}(X)-g(X)\right]^{2} MSE(g)=E[Yg0(X)]2+E[g0(X)g(X)]2

   ⟹    arg ⁡ min ⁡ g ∈ F M S E ( g ) = g 0 ( X ) = E ( Y ∣ X ) \implies \arg \min _{g \in \mathbb{F}} M S E(g) = g_0(X) = E(Y|X) arggFminMSE(g)=g0(X)=E(YX)

法二:求微分法

MSE ⁡ ( g ) = E [ Y − g ( X ) ] 2 = ∫ ∫ [ y − g ( x ) ] 2 f X Y ( x , y ) d x d y \operatorname{MSE}(g)=E[Y-g(X)]^{2} = \int\int[y-g(x)]^2f_{XY}(x,y)\mathrm{d} x\mathrm{d} y MSE(g)=E[Yg(X)]2=[yg(x)]2fXY(x,y)dxdy

根据一阶条件,MSE对 g ( X ) g(X) g(X)的导数为0
δ M S E ( g ) δ g ( x ) = − 2 ∫ [ y − g ( x ) ] f X Y ( x , y ) d y = 0 \frac{\delta MSE(g)}{\delta g(x)}=-2\int[y-g(x)] f_{XY}(x,y) \mathrm{d} y=0 δg(x)δMSE(g)=2[yg(x)]fXY(x,y)dy=0

   ⟹    ∫ g ( x ) f X Y ( x , y ) d y = ∫ y f X Y ( x , y ) d y \implies \int g(x)f_{XY}(x,y) \mathrm{d}y = \int yf_{XY}(x,y) \mathrm{d}y g(x)fXY(x,y)dy=yfXY(x,y)dy

   ⟹    g ( x ) ∫ f X Y ( x , y ) d y = ∫ y f X Y ( x , y ) d y \implies g(x)\int f_{XY}(x,y) \mathrm{d}y = \int yf_{XY}(x,y) \mathrm{d}y g(x)fXY(x,y)dy=yfXY(x,y)dy

   ⟹    g ( x ) f X ( x ) = ∫ y f X Y ( x , y ) d y \implies g(x) f_X(x) = \int yf_{XY}(x,y) \mathrm{d}y g(x)fX(x)=yfXY(x,y)dy

   ⟹    g ( x ) = ∫ y f X Y ( x , y ) f X ( x ) d y \implies g(x) = \int y\frac{f_{XY}(x,y)}{f_X(x)} \mathrm{d}y g(x)=yfX(x)fXY(x,y)dy

   ⟹    g ( x ) = ∫ y f Y ∣ X ( y ∣ x ) d y = E ( Y ∣ X ) \implies g(x) = \int yf_{Y|X}(y|x) \mathrm{d}y=E(Y|X) g(x)=yfYX(yx)dy=E(YX)

以上是本篇的全部内容,欢迎关注我的知乎|简书|CSDN|微信公众号PurePlay , 会不定期分享量研究与学习干货。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值