202209-GitModel Task02-回归分析1_线性回归模型必知必会

最新推荐文章于 2022-11-17 01:39:48 发布

MickWang1942

最新推荐文章于 2022-11-17 01:39:48 发布

阅读量877

点赞数 1

分类专栏：数据建模文章标签：回归线性回归机器学习

本文链接：https://blog.csdn.net/wwb19422012/article/details/126916128

版权

数据建模专栏收录该内容

5 篇文章 0 订阅

订阅专栏

线性回归中最常用、最经典的系数估计方法——普通最小二乘估计法(Ordinary Least Squares, OLS)。
其衡量标准为：直线尽可能贴合样本点，即在所有直线当中，我们要选出一条离所有样本点距离的总和最小的直线。
不同的距离定义方法是不同估计法的一大区别，OLS对距离的定义是：残差的平方 $\hat{u}_i^2$ 。因此OLS估计的思想是：OLS估计求得的系数 $\hat{\beta}_0$ 、 $\hat{\beta}_1$ ，将使直线与所有样本的拟合残差的平方和最小，即
$\left(\hat{\beta}_{0}, \hat{\beta}_{1}\right)=\operatorname{argmin} \sum_{i=1}^{n}\left(y_{i}-\hat{\beta}_{0}-\hat{\beta}_{1} x_{i}\right)^{2}$
对于多元线性回归，OLS估计的思想也完全相同，只不过多元线性回归的模型不是一条直线，而是一个多维的超平面。对于多元线性回归的OLS估计目标函数，有
$\left( \hat{\beta}_0,\cdots ,\hat{\beta}_k \right) =\mathrm{arg}\min \sum_{i=1}^n{\left( y_i-\hat{\beta}_0-\hat{\beta}_1x_{1i}-\hat{\beta}_kx_{ki} \right) ^2}$

2. 参数估计求解

（1） OLS求解的矩阵表示

由于我们有 $n$ 个样本，因此根据模型有以下 $n$ 个等式成立:
$y_{i}=\beta_{0}+\beta_{1} x_{i 1}+\cdots+\beta_{k} x_{i k}+u_{i}, \quad i=1, \cdots, n$
将它们联立称方程组，并表示成矩阵形式：
$\boldsymbol{y}=\boldsymbol{X\beta }+\boldsymbol{u}$
实际拟合的模型及其残差，其矩阵形式则为：
$\boldsymbol{\hat{y}}=\boldsymbol{X\hat{\beta}},\quad \boldsymbol{\hat{u}}=\boldsymbol{y}-\boldsymbol{\hat{y}}$
运用向量求导的知识得：
$X^{\prime} X \hat{\beta}=X^{\prime} y \Rightarrow \hat{\beta}=\left(X^{\prime} X\right)^{-1} X^{\prime} y$

由此得到各系数估计向量 $\boldsymbol{\hat{\beta}}$ 的矩阵表达式。

这是一种近似逼近的求解方式，进一步地，还需要对其求解结果进行评价。

（2）模型评价：

拟合优度
一个很自然的问题是：这个模型对数据的拟合效果如何？这个问题可以进一步引申为：模型中的自变量 $x_i$ 在多大程度上解释了 $y$ 的变异？（ $y$ 的趋势变化可以理解为是一种带有规律性的变异）。
我们之所以想构建模型，是因为想找到造成 $y$ 值变化的因素，模型解释的变异占总变异的比例越多，这个模型的解释力度就越大，模型的拟合优度也就越好。
回归拟合优度——R方:
$R^{2}=\frac{E S S}{T S S}$
其中，TSS度量了因变量 $y$ 的总样本变异，而ESS度量了模型拟合值 $\hat{y}$ 的总变异，也就是解释了的变异。

三、OLS估计的代数性质

1. 代数性质

（1） OLS估计预测残差之和为0：

$\sum_{i=1}^n{\left( y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\cdots -\hat{\beta}_kx_{ik} \right)}=\sum_{i=1}^n{\hat{u}_i}=0$

（2） OLS估计最重要的代数性质，它意味着OLS估计的残差与参与回归的自变量不相关。

$\sum_{i=1}^n{\left( y_i-\hat{\beta}_0-\hat{\beta}_1x_{i1}-\cdots -\hat{\beta}_kx_{ij} \right)}x_{ij}=\sum_{i=1}^n{\hat{u}_i}x_{ij}=0, j=1,\cdots ,k$
即：
$\sum_{i=1}^n{x_{ik}}\hat{u}_i=\sum_{i=1}^n{x_{ik}}\left( \hat{u}_i-\bar{\hat{u}} \right) =\sum_{i=1}^n{\left( x_{ik}-\bar{x} \right)}\left( \hat{u}_i-\bar{\hat{u}} \right) =Cov\left( x_k,\hat{u} \right) =0, j=1,\cdots ,k$

这预示着：如果我们消除因变量 $y$ 与某些自变量 $x_j$ 之间的线性相关性，可以先进行线性回归然后取残差！

2. CLM假设：

经典线性模型假设-CLM假设：

MLR.1 总体模型假设。
MLR.2 随机误差条件均值零假设：所有非自变量的其他因素都与自变量线性无关。
MLR.3 随机抽样假设：等同于 i.i.d 。
MLR.4 非完全共线性假设。
MLR.5 同方差假设
随机误差 $u$ 的条件方差恒为一个常数，即：
$\operatorname{Var}\left(u \mid x_{1}, \cdots, x_{k}\right)=\sigma^{2}$
数据的波动程度不受自变量影响，不论 $x_i$ 如何变化，数据与样本条件均值的偏离程度都是恒定的。
MLR.6 正态性假设
该假设假定随机误差 $u$ 在任何自变量已知的条件下服从正态分布:
$\mid x \sim N\left(0, \sigma^{2}\right)$

3. OLS估计的性质

在CLM假设下，对OLS的性质做进一步说明：

（1） OLS系数估计的无偏性

定理1. 在CLM假设MLR.1-MLR.4下， $\hat\beta$ 是 $\beta$ 的无偏估计，即:

$E\left(\hat{\beta}_{j}\right)=\beta_{j}, \forall j=0,1, \cdots, k$

（2）OLS系数估计的方差——估计的稳定性

定理2. 在CLM假设MLR.1-MLR.5（增加了同方差假设MLR.5)下， $\hat\beta$ 的方差-协方差矩阵表达式为：
$\operatorname{Cov}(\hat{\beta})=\sigma^{2}\left(X^{\prime} X\right)^{-1}$
其中：
$\operatorname{Var}\left(\hat{\beta}_{j}\right)=\sigma^{2}\left(X^{\prime} X\right)_{j+1, j+1}^{-1}$
$\operatorname{sd}\left(\hat{\beta}_{j}\right)=\sigma \sqrt{\left(X^{\prime} X\right)_{j+1, j+1}^{-1}}$
估计系数的标准误(standard error)： $\operatorname{se}\left(\hat{\beta}_{j}\right)=\hat{\sigma} \sqrt{\left(X^{\prime} X\right)_{j+1, j+1}^{-1}}$

定理3. 在CLM假设MLR.1-MLR.5下， $\hat{\delta}^2$ 是 ${\delta}^2$ 的无偏估计，即：
$E\left(\hat{\sigma}^{2}\right)=\sigma^{2}$

（3）OLS系数估计的最优线性无偏性

Gauss-Markov定理. 在CLM假设MLR.1-MLR.5下，在 $\beta$ 的所有线性无偏估计类当中，OLS估计的方差最小。即假设另有无偏估计 $\tilde{\beta}_{j}$ ，若它可以表示为 $y_j$ 的线性组合，则必有：
$\operatorname{Var}\left(\hat{\beta}_{j}\right)<\operatorname{Var}\left(\tilde{\beta}_{j}\right)$

（4）OLS系数估计的抽样分布-t分布

定理4. 在CLM假设MLR.1-MLR.6下， $\hat{\beta}_{j}$ 服从正态分布：
$\hat{\beta}_{j} \sim N\left(\beta_{j}, \operatorname{Var}\left(\hat{\beta}_{j}\right)\right)$
进一步变形后：
$\frac{\hat{\beta}_{j}-\beta_{j}}{s d\left(\hat{\beta}_{j}\right)} \sim N(0,1)$
为了便于估计，将标准差转换为标准误：
$\frac{\hat{\beta}_{j}-\beta_{j}}{\operatorname{se}\left(\hat{\beta}_{j}\right)} \sim t_{n-k-1}$