线性回归法（Linear Regression）

howardSunJiahao

已于 2022-01-25 17:23:44 修改

阅读量905

点赞数 3

分类专栏：机器学习文章标签：线性回归算法回归

于 2022-01-25 17:21:57 首次发布

本文链接：https://blog.csdn.net/weixin_47524903/article/details/122689143

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

线性回归法（Linear Regression）

训练样本的表示： $S=\{x^{(i)},y^{(i)}\}^n_{i=1},x^{(i)}\in R^d,y^{(i)}\in R$

也就是说，假设我们有一个d维的数据，我们也就需要d个参数对其进行拟合，最后输出一个实数值y。

Structural Model：线性函数 $f(x)=\beta^Tx+b$ ，拥有参数集 $(\beta,b)$

这里的 $\beta$ 是一个d维的向量，也就是上面说的d个参数组成的。x是一个矢量，也就是我们希望预测的输入数据。

损失函数：RSS 残差平方和（Residual Sum of Square）

$RSS(\beta)=\sum\limits^n_{i=1}(y^{(i)}-f(x^{(i)}))^2\\ =\sum\limits^n_{i=1}(y^{(i)}-\beta^Tx^{(i)}-b )^2$
可以使用梯度下降法对损失函数求最优解，得到我们需要的 $\beta$ 。

上面的写法比较啰嗦，我们选择使用矩阵的表示法：

首先把上面的 $\beta$ 改写为 $[b;\beta]$ ，也就是变成了 $[b;\beta_1;\beta_2;\beta_3;...;\beta_d]$ 这样的一个列向量，在开始添加了一个1，实际上，也可以在末尾加，只要x的形式符合即可，西瓜书中是在末尾加的，这里需要注意一下。

然后我们改写一下数据的向量，变为 $1,x^{(i)}]$ 这样一个d+1维的行向量，其中 $x^{(i)}$ 是一个d维行向量。然后我们将数据集中的n个这样的行向量竖着排列，就变成了一个 $n\times (d+1)$ 维的矩阵 $\boldsymbol X$ 。
$X=\begin{bmatrix} x_1\\ x_2\\ \vdots\\ x_n \end{bmatrix} =\begin{bmatrix} x_{11} \space x_{12} \space x_{13} \dots \space x_{1d}\\ x_{21} \space x_{22} \space x_{23} \dots \space x_{2d} \\ \vdots \\ x_n \space x_{n2} \space x_{n3} \dots \space x_{nd} \end{bmatrix}$
其中 $x_{ij}$ 是第i个数据的第j个分量。

于是我们就可以使用矩阵的形式来改写RSS如下：
$RSS(\beta)=\sum\limits^n_{i=1}(y^{(i)}-f(x^{(i)}))^2\\ =\sum\limits^n_{i=1}(y^{(i)}-\beta^Tx^{(i)}-b )^2\\ =(\boldsymbol y-\boldsymbol X \boldsymbol \beta)^T(\boldsymbol y-\boldsymbol X \boldsymbol \beta)$
我们如果对其求最优解，也就是对 $\beta$ 求一阶导，然后使其等于0，就可以得到使RSS最优的 $\beta$ 。

求导的推导过程如下，参考南瓜书：

$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$
[推导]：将 $E_{\hat{\boldsymbol w}}=(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})^{\mathrm{T}}(\boldsymbol{y}-\mathbf{X}\hat{\boldsymbol w})$ 展开可得
$E_{\hat{\boldsymbol w}}= \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y}-\boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}-\hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+\hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}$
对 $\hat{\boldsymbol w}$ 求导可得
$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= \cfrac{\partial \boldsymbol{y}^{\mathrm{T}}\boldsymbol{y}}{\partial \hat{\boldsymbol w}}-\cfrac{\partial \boldsymbol{y}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}}{\partial \hat{\boldsymbol w}}-\cfrac{\partial \hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\boldsymbol{y}}{\partial \hat{\boldsymbol w}}+\cfrac{\partial \hat{\boldsymbol w}^{\mathrm{T}}\mathbf{X}^{\mathrm{T}}\mathbf{X}\hat{\boldsymbol w}}{\partial \hat{\boldsymbol w}}$
由矩阵微分公式 $\cfrac{\partial\boldsymbol{a}^{\mathrm{T}}\boldsymbol{x}}{\partial\boldsymbol{x}}=\cfrac{\partial\boldsymbol{x}^{\mathrm{T}}\boldsymbol{a}}{\partial\boldsymbol{x}}=\boldsymbol{a},\cfrac{\partial\boldsymbol{x}^{\mathrm{T}}\mathbf{A}\boldsymbol{x}}{\partial\boldsymbol{x}}=(\mathbf{A}+\mathbf{A}^{\mathrm{T}})\boldsymbol{x}$ 可得
$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}= 0-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}-\mathbf{X}^{\mathrm{T}}\boldsymbol{y}+(\mathbf{X}^{\mathrm{T}}\mathbf{X}+\mathbf{X}^{\mathrm{T}}\mathbf{X})\hat{\boldsymbol w}$
$\cfrac{\partial E_{\hat{\boldsymbol w}}}{\partial \hat{\boldsymbol w}}=2\mathbf{X}^{\mathrm{T}}(\mathbf{X}\hat{\boldsymbol w}-\boldsymbol{y})$

于是就令一阶导 $-2\boldsymbol X^T(\boldsymbol y-\boldsymbol X\boldsymbol\beta^*)=0$ ，可得：
$\boldsymbol \beta^*=(\boldsymbol X^T\boldsymbol X)^{-1}\boldsymbol X^T\boldsymbol y$
那么，我们给定输入 $\boldsymbol x$ ，通过线性回归器得到的结果即为 $[1,x]^T\boldsymbol\beta^*$

Ridge线性回归（岭回归）和Lasso线性回归

但是上面的求解可能存在一些问题，因为 $\boldsymbol X^T\boldsymbol X$ 不一定满秩，所以不一定有逆矩阵，比如当数据集中数据的个数比数据的维度还要低的时候。可以通过**正则化（Regularization）**来缓解这种情况，也就是在损失函数后再加一项 $\beta^2$ ：
$RSS(\beta) =(\boldsymbol y-\boldsymbol X \boldsymbol \beta)^T(\boldsymbol y-\boldsymbol X \boldsymbol \beta) + \lambda\boldsymbol\beta^T\boldsymbol\beta$
通常正则化可以用来防止过拟合，而这里加上正则化项之后，我们求得的解就变成了：
$\boldsymbol \beta^*=(\boldsymbol X^T\boldsymbol X + \lambda I)^{-1}\boldsymbol X^T\boldsymbol y$
由于在 $X^TX$ 的对角线上加上了比较小的数然后再求逆，而不是直接对 $X^TX$ 求逆，就可以缓解不满秩而无法求逆的情况。

这种线性回归法也被叫做 Ridge线性回归（岭回归），也就是在损失函数上加了一个欧式距离（L2范数），同时，还有一种叫做 Lasso线性回归，区别就在于Lasso加上的是L1范数，即：
$RSS(\beta) =(\boldsymbol y-\boldsymbol X \boldsymbol \beta)^T(\boldsymbol y-\boldsymbol X \boldsymbol \beta) + \lambda|\boldsymbol\beta|$
这种线性回归求解起来比较难，因为绝对值函数不可导，没有解析解，而优点就在于它可以获得一个稀疏解向量，也就是说，得到的 $\beta$ 中很多分量为0、少数为1，这可以起到一个筛选维度的作用，因为只有几个为1的分量是有用的，增加了可解释性，也有一些降噪的意思。

为什么Lasso线性回归会得到稀疏的解向量呢，我们来看两张图，其中左边的是Lasso，右边是ridge：

这是以二维的数据为例，即 $\boldsymbol x \in \boldsymbol R^2$ ，由于Lasso的限制是 $|\beta|\le t$ ，而Ridge的限制是 $\beta ^2\le t$ ，所以画出来限制域就是灰色的这部分，一个是正方形，一个是圆形，而坐标的两个维度就是 $\beta$ 的两个维度（图里是 $w$ ）。图中的椭圆表示了一个个等高线，在等高线上具有相同的 $R S S$ ：
$RSS(\beta)=\sum\limits^n_{i=1}(y^{(i)}-f(x^{(i)}))^2\\ =\sum\limits^n_{i=1}(y^{(i)}-\beta^Tx^{(i)}-b )^2\\$
我们期望的最优解也就是图中的 $w^*(\beta^*)$ ，但是由于我们需要满足限制条件，则一定需要和灰色区域相交，就无法达到这样的解，而越远离这个最优解，损失也就越大，所以我们能够达到的最优解就是和灰色区域相切的解，这样的RSS是最小的。从图中可以看出，如果是一个圆形区域，不易相切在轴上，而正方形区域则可以做到，这也就是为什么Lasso会更容易得到稀疏解的原因，而Ridge很多时候只能得到靠近0的解。