文章目录
矩阵形式的线性回归模型
模型设定与最小二乘估计
利用矩阵形式推导多元线性回归模型的解,其思想主要来源于线性方程组和矩阵形式的相互转化。而线性方程组则来源于样本观测数据,首先我们假设总体模型的设定:
y = β 0 + β 1 x 1 + ⋯ + β k x k + u . y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u \ . y=β0+β1x1+⋯+βkxk+u .
用 n n n 表示样本容量,我们可以把来自总体的每一次观测样本写成一个方程:
{ y 1 = β 0 + β 1 x 11 + ⋯ + β k x 1 k + u 1 , y 2 = β 0 + β 1 x 21 + ⋯ + β k x 2 k + u 2 , ⋮ ⋮ y n = β 0 + β 1 x n 1 + ⋯ + β k x n k + u n , \left\{ \begin{array}{l} y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_kx_{1k}+u_1\ , \\ y_2=\beta_0+\beta_1x_{21}+\cdots+\beta_kx_{2k}+u_2\ , \\ \ \vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vdots \\ y_n=\beta_0+\beta_1x_{n1}+\cdots+\beta_kx_{nk}+u_n\ , \\ \end{array} \right. ⎩⎪⎪⎪⎨⎪⎪⎪⎧y1=β0+β1x11+⋯+βkx1k+u1 ,y2=β0+β1x21+⋯+βkx2k+u2 , ⋮ ⋮yn=β0+β1xn1+⋯+βkxnk+un ,
定义如下的数据向量和矩阵:
Y = [ y 1 y 2 ⋮ y n ] , X = [ 1 x 11 x 12 ⋯ x 1 k 1 x 21 x 22 ⋯ x 2 k ⋮ ⋮ ⋮ ⋮ 1 x n 1 x n 2 ⋯ x n k ] , β = [ β 1 β 2 ⋮ β k ] , μ = [ u 1 u 2 ⋮ u n ] . \boldsymbol{Y}=\left[ \begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol{X}=\left[ \begin{array}{ccccc} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \\ \end{array} \right] \ , \ \ \ \ \boldsymbol\beta=\left[ \begin{array}{c} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol\mu=\left[ \begin{array}{c} u_1 \\ u_2 \\ \vdots \\ u_n \\ \end{array} \right] \ . Y=⎣⎢⎢⎢⎡y1y2⋮yn⎦⎥⎥⎥⎤ , X=⎣⎢⎢⎢⎡11⋮1x11x21⋮xn1x12x22⋮xn2⋯⋯⋯x1kx2k⋮xnk⎦⎥⎥⎥⎤ , β=⎣⎢⎢⎢⎡β1β2⋮βk⎦⎥⎥⎥⎤ , μ=⎣⎢⎢⎢⎡u1u2⋮un⎦⎥⎥⎥⎤ .
其中 Y \boldsymbol{Y} Y 表示被解释变量的观测数据的 n × 1 n\times1 n×1 向量, X \boldsymbol{X} X 表示解释变量的观测数据的 n × ( k + 1 ) n\times(k+1) n×(k+1) 矩阵, β \boldsymbol\beta β 表示所有参数的 ( k + 1 ) × 1 (k+1)\times1 (k+1)×1 向量, μ \boldsymbol\mu μ 表示观测不到的误差项 n × 1 n\times1 n×1 向量。
于是,我们可以将带有 n n n 个观测样本的总体回归模型写成矩阵形式:
Y = X β + μ . \boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu} \ . Y=Xβ+μ .
和一元模型类似,想要求解 β \boldsymbol{\beta} β 的最小二乘估计,还是从最小化残差平方和开始。设 μ \boldsymbol\mu μ 的估计值(即残差向量)为 μ ^ = e \hat{\boldsymbol\mu}=\boldsymbol{e} μ^=e ,首先定义残差平方和:
S S R = ∑ i = 1 n e i 2 = e T e = ( Y − X β ^ ) T ( Y − X β ^ ) {\rm SSR}=\sum_{i=1}^n e_i^2=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) SSR=i=1∑nei2=eTe=(Y−Xβ^)T(Y−Xβ^)
满足最小化残差平方和的 β ^ \hat{\boldsymbol\beta} β^ 一定满足一阶条件:
∂ S S R ∂ β ^ = ∂ ∂ β ^ ( Y − X β ^ ) T ( Y − X β ^ ) = ∂ ∂ β ^ ( Y T Y − β ^ T X T Y − Y T X β ^ + β ^ T X T X β ^ ) = 2 ( X T X β ^ − X T Y ) = 0 , \begin{aligned} \frac{\partial{\rm SSR}}{\partial\hat{\boldsymbol\beta}} &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}^{\rm T}\boldsymbol{Y}-\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{Y}-\boldsymbol{Y}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}+\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}-\boldsymbol{X}^{\rm T}\boldsymbol{Y} \right)=0 \ , \end{aligned} ∂β^∂SSR=∂β^∂(Y−Xβ^)T(Y−Xβ^)=∂