【计量经济学导论】03. 矩阵形式的线性回归模型

最新推荐文章于 2021-09-19 14:44:06 发布

这个XD很懒

最新推荐文章于 2021-09-19 14:44:06 发布

阅读量5.3k

点赞数 9

分类专栏：【计量经济学导论】学习笔记

本文链接：https://blog.csdn.net/weixin_45449414/article/details/109367972

版权

文章目录

矩阵形式的线性回归模型

矩阵形式的线性回归模型

模型设定与最小二乘估计

利用矩阵形式推导多元线性回归模型的解，其思想主要来源于线性方程组和矩阵形式的相互转化。而线性方程组则来源于样本观测数据，首先我们假设总体模型的设定：
$y=\beta_0+\beta_1x_1+\cdots+\beta_kx_k+u \ .$
用 $n$ 表示样本容量，我们可以把来自总体的每一次观测样本写成一个方程：
$\left\{ \begin{array}{l} y_1=\beta_0+\beta_1x_{11}+\cdots+\beta_kx_{1k}+u_1\ , \\ y_2=\beta_0+\beta_1x_{21}+\cdots+\beta_kx_{2k}+u_2\ , \\ \ \vdots \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \vdots \\ y_n=\beta_0+\beta_1x_{n1}+\cdots+\beta_kx_{nk}+u_n\ , \\ \end{array} \right.$
定义如下的数据向量和矩阵：
$\boldsymbol{Y}=\left[ \begin{array}{c} y_1 \\ y_2 \\ \vdots \\ y_n \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol{X}=\left[ \begin{array}{ccccc} 1 & x_{11} & x_{12} & \cdots & x_{1k} \\ 1 & x_{21} & x_{22} & \cdots & x_{2k} \\ \vdots & \vdots & \vdots & & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{nk} \\ \end{array} \right] \ , \ \ \ \ \boldsymbol\beta=\left[ \begin{array}{c} \beta_1 \\ \beta_2 \\ \vdots \\ \beta_k \\ \end{array} \right] \ ,\ \ \ \ \boldsymbol\mu=\left[ \begin{array}{c} u_1 \\ u_2 \\ \vdots \\ u_n \\ \end{array} \right] \ .$

其中 $\boldsymbol{Y}$ 表示被解释变量的观测数据的 $n\times1$ 向量， $\boldsymbol{X}$ 表示解释变量的观测数据的 $n\times(k+1)$ 矩阵， $\boldsymbol\beta$ 表示所有参数的 $(k+1)\times1$ 向量， $\boldsymbol\mu$ 表示观测不到的误差项 $n\times1$ 向量。

于是，我们可以将带有 $n$ 个观测样本的总体回归模型写成矩阵形式：
$\boldsymbol{Y}=\boldsymbol{X\beta}+\boldsymbol{\mu} \ .$
和一元模型类似，想要求解 $\boldsymbol{\beta}$ 的最小二乘估计，还是从最小化残差平方和开始。设 $\boldsymbol\mu$ 的估计值（即残差向量）为 $\hat{\boldsymbol\mu}=\boldsymbol{e}$ ，首先定义残差平方和：
${\rm SSR}=\sum_{i=1}^n e_i^2=\boldsymbol{e}^{\rm T}\boldsymbol{e}=\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)$
满足最小化残差平方和的 $\hat{\boldsymbol\beta}$ 一定满足一阶条件：
$\begin{aligned} \frac{\partial{\rm SSR}}{\partial\hat{\boldsymbol\beta}} &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right)^{\rm T}\left(\boldsymbol{Y}-\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=\frac{\partial}{\partial\hat{\boldsymbol\beta}}\left(\boldsymbol{Y}^{\rm T}\boldsymbol{Y}-\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{Y}-\boldsymbol{Y}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}+\hat{\boldsymbol\beta}^{\rm T}\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}\right) \\ &=2\left(\boldsymbol{X}^{\rm T}\boldsymbol{X}\hat{\boldsymbol\beta}-\boldsymbol{X}^{\rm T}\boldsymbol{Y} \right)=0 \ , \end{aligned}$