高数篇（三）-- 最小二乘法、正则化

长路漫漫2021

已于 2024-10-18 20:57:09 修改

阅读量1.3w

点赞数 9

分类专栏： Math 文章标签：最小二乘法回归机器学习正则化最大似然估计

于 2021-11-13 22:42:39 首次发布

本文链接：https://blog.csdn.net/xq151750111/article/details/121271257

版权

Math 专栏收录该内容

20 篇文章

订阅专栏

本文详细介绍了线性回归的推导过程，包括一元线性回归和一般化线性回归。从样本数据出发，通过最小化误差平方和来寻找最佳拟合直线，同时从统计理论的角度探讨了高斯噪声下的最大似然估计与最小二乘法的关系。此外，还讨论了正则化在处理过拟合问题上的作用，解释了L1和L2正则化的概率解释。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

下面先以一元线性回归为例推导出一元线性回归方程，然后再推导出更一般化的线性回归方程，在推导的过程中采取两种不同的方式：一是从样本数据出发，二是从统计理论着手。最后我们会发现，采用两种不同的方式最后推导出的线性回归模型的损失函数都会殊途同归。线性回归简单点讲就是对已知的样本数据进行最优拟合，然后通过拟合出的线性回归方程进行预测。

1 线性回归

1.1 一元线性回归

我们最早接触的一元线性回归方程，只包含两个参数 $\alpha$ 和 $\beta$ ，然后直接套公式即可进行预测，现在完整的推导出一元线性回归方程。设一元线性回归方程为 $\hat{y}=\alpha x+\beta$ ，数据集为( $x_1$ , $y_1$ )，( $x_2$ , $y_2$ )， $\dots$ ，( $x_n$ , $y_n$ )，要使得这 $n$ 个样本点落在在一元线性回归方程附近，不妨假设误差为 $\varepsilon$ ，使得每个样本点都落在一元线性回归方程上。因此有 $\hat{y_i}=y_i+\varepsilon_i$ 恒成立，所以，回归直线应满足的条件是：全部观测值与对应的回归估计值的误差平方和最小，即：

$\begin{aligned} \mathop{\arg\min}_{\alpha,\beta} \sum\limits_{i=1}^n\varepsilon_i^2 & = \mathop{\arg\min}_{\alpha,\beta} \sum\limits_{i=1}^n (y_i-\hat{y_i})^2 \\ & = \mathop{\arg\min}_{\alpha,\beta} \sum\limits_{i=1}^n (y_i-\alpha x_i -\beta)^2 \end{aligned} \tag{1-1}$
        令 $L(\alpha,\beta) = \sum\limits_{i=1}^n(y_i-\alpha x_i-\beta)^2$ 原问题就转化为求二元函数的极小值，由微积分相关知识可知
$\begin{aligned} \frac{\partial L(\alpha,\beta)}{\partial\alpha} &= -2\sum\limits_{i=1}^n(y_i-\alpha x_i-\beta)x_i \\ &=-2\sum\limits_{i=1}^n x_iy_i+2\alpha\sum\limits_{i=1}^n x_i^2+2\beta\sum\limits_{i=1}^n x_i\\ \frac{\partial L(\alpha,\beta)}{\partial\beta} &=-2\sum\limits_{i=1}^n (y_i-\alpha x_i-\beta) \\ &=-2\sum\limits_{i=1}^n y_i+2\alpha\sum\limits_{i=1}^n x_i+2n\beta \end{aligned} \tag{1-2}$
        然后令 $\frac{\partial L(\alpha,\beta)}{\partial\alpha}=0和 \frac{\partial J(\alpha,\beta)}{\partial\beta}=0$ 即可求出 $\alpha、\beta$ 的值
$\begin{aligned} \frac{\partial L(\alpha,\beta)}{\partial\beta}&=0 \\ \Rightarrow \sum\limits_{i=1}^n y_i&=\alpha\sum\limits_{i=1}^n x_i+n \beta \\ \Rightarrow \bar{y} &=\alpha \bar{x} +\beta \end{aligned} \tag{1-3}$
$\begin{aligned} \frac{\partial L(\alpha,\beta)}{\partial\alpha}&=0\\ \Rightarrow \sum\limits_{i=1}^n x_iy_i&=\alpha\sum\limits_{i=1}^n x_i^2+\beta\sum\limits_{i=1}^n x_i \\ \Rightarrow \alpha&=\frac{\sum\limits_{i=1}^n(x_iy_i-\bar{y}x_i)}{\sum\limits_{i=1}^n(x_i^2-\bar{x}x_i)}=\frac{\sum\limits_{i=1}^n x_iy_i-\frac{1}{n}(\sum\limits_{i=1}^n x_i)(\sum\limits_{i=1}^n y_i)}{\sum\limits_{i=1}^n x_i^2-\frac{1}{n}(\sum\limits_{i=1}^n x_i)(\sum\limits_{i=1}^n x_i)}\\ &=\frac{\sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})}{\sum\limits_{i=1}^n (x_i-\bar{x})^2}\\ \end{aligned} \tag{1-4}$
        根据：
$\begin{aligned} \sum\limits_{i=1}^n (x_i-\bar{x})(y_i-\bar{y})&=\sum\limits_{i=1}^n x_iy_i-\frac{1}{n}(\sum\limits_{i=1}^n x_i)(\sum\limits_{i=1}^n y_i)\\ \sum\limits_{i=1}^n (x_i-\bar{x})^2&=\sum\limits_{i=1}^n x_i^2-\frac{1}{n}(\sum\limits_{i=1}^n x_i)(\sum\limits_{i=1}^n x_i) \end{aligned} \tag{1-5}$
        至此，一元线性回归方程就拟合出来了，上面的这些公式推导看起来很复杂其实如果引入矩阵表示，最后的结果将会很简洁。

1.2 一般化的线性回归

此时，假设数据集为：
$Data：\{(\pmb{x}_1, y_1), (\pmb{x}_2, y_2), \cdots, (\pmb{x}_N, y_N)\} \quad \pmb{x}_{i}\in \mathbb{R}^{p},y_{i}\in \mathbb{R},i=1,2,\cdots ,N \tag{1-6}$
分别用矩阵表示：
$\pmb{X} = [\pmb{x}_{1},\pmb{x}_{2},\cdots ,\pmb{x}_{N}]^{T}_{N \times p}= \begin{bmatrix} \pmb{x}_{1}^{T}\\ \pmb{x}_{2}^{T}\\ \vdots \\ \pmb{x}_{N}^{T} \end{bmatrix}_{N \times p} = \begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1p} \\ x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots &\vdots \\ x_{N1} & x_{N2} & \cdots & x_{Np} \\ \end{bmatrix}_{N \times p} \tag{1-7}$

$\pmb{Y}=\begin{pmatrix} y_1\\y_2\\\vdots\\y_N \end{pmatrix}_{N\times 1}\tag{1-8}$

上面数据矩阵的解释：数据 $\pmb{X}$ 中有 $N$ 个样本，每个样本 $xi \pmb{x}_i$ 为 $p$ 维数据（含有 $p$ 个feature），数据 $\pmb{Y}$ 表示有 $N$ 个输出，即每个样本对应一个输出（可以理解为对每个样本的标签）

后面我们记：
$\pmb{X}=(\pmb{x}_1,\pmb{x}_2,\cdots,\pmb{x}_N)^T，\pmb{Y}=(\pmb{y}_1,\pmb{y}_2,\cdots,\pmb{y}_N)^T\tag{1-9}$

定义假设函数为 $f(\pmb{x}; \pmb{w})$ ，即 $f(\pmb{x}; \pmb{w})$ 为最终的拟合函数， $\pmb{w}$ 为待拟合参数也称作权重。则第 $i$ 个样本的输出模型为：

$\begin{aligned} f(\pmb{x}_i; \pmb{w}) &=w_0+w_1x_{i1}+\cdots+w_{p}x_{ip} \\ &=\begin{bmatrix} w_0, & w_1,& \cdots ,& w_p \end{bmatrix} \begin{bmatrix} 1\\x_{i1} \\ \vdots \\ x_{ip}\end{bmatrix}\\ &=\pmb{w}^T\pmb{x}_i \end{aligned} \tag{1-10}$

此时这里，为了书写方便，在 $xi \pmb{x}_i$ 中增加一个 $\pmb{x}_{i0}=1$ 。

在样本数据中 $y_{i}$ 是实际存在值而 $f(\pmb{x}_i; \pmb{w})$ 对应的是模型预测值，显然如果想要模型预测的效果好，那么对应的误差就要小，假设函数在任意样本点的误差为 $|f(\pmb{x}_i; \pmb{w})-y_{i}|$ ，则 $N$ 个样本点的误差和为 $\ \sum\limits_{i=1}^N|f(\pmb{x}_i; \pmb{w})-y_{i}|$ ，因此问题就转化为求解 $\ \begin{aligned}\mathop{\arg\min}_{\boldsymbol{w}}\ \sum\limits_{i=1}^N|f(\pmb{x}_i; \pmb{w})-y_{i}|\end{aligned}$ ，为了后续求解最优值(绝对值函数不好求导)，所以损失函数采用了误差平方和的形式 $\ \begin{aligned}\mathop{\arg\min}_{\boldsymbol{w}} \sum\limits_{i=1}^N(f(\pmb{x}_i; \pmb{w})-y_{i})^2\end{aligned}$ 。

1.3 最小二乘法的矩阵表达

令损失函数为 $L(\pmb{w})$ ，并写成二范数的形式，可以得到：
$\begin{aligned} L(\pmb{w}) &= \sum\limits_{i=1}^N(f(\pmb{x}_i; \pmb{w})-y_{i})^2 \\&= \sum\limits_{i=1}^N(\pmb{w}^T\pmb{x}_i-y_{i})^2 \\ &=\sum\limits_{i=1}^N||\pmb{w}^T\pmb{x}_i-y_i||^2_2 \end{aligned} \tag{1-11}$

展开可以得到：
$\begin{aligned} L(\pmb{w})&=\displaystyle\sum^{N}_{i=1}(\pmb{w}^T\pmb{x}_i-y_i)^2\\ &= \begin{pmatrix} \pmb{w}^T\pmb{x}_1-y_1 & \pmb{w}^T\pmb{x}_2-y_2&\cdots&\pmb{w}^T\pmb{x}_N-y_N \end{pmatrix} \begin{pmatrix} (\pmb{w}^T\pmb{x}_1-y_1)^T\\(\pmb{w}^T\pmb{x}_2-y_2)^T\\\vdots\\(\pmb{w}^T\pmb{x}_N-y_N)^T \end{pmatrix}\\ &=[\pmb{w}^T\begin{pmatrix} \pmb{x}_1&\pmb{x}_2&\cdots&\pmb{x}_N \end{pmatrix} -\begin{pmatrix} y_1&y_2&\cdots&y_N \end{pmatrix}] \begin{pmatrix} \pmb{x}_1^T\pmb{w}-y_1^T\\\pmb{x}_2^T\pmb{w}-y_2^T\\\vdots\\\pmb{x}_N^T\pmb{w}-y_N^T \end{pmatrix}\\ &=(\boldsymbol{w}^T\pmb{X}^T - \pmb{Y}^T)(\boldsymbol{Xw}-\pmb{Y})\\ &=\boldsymbol{w}^T\pmb{X}^T\boldsymbol{Xw}-\boldsymbol{w}^T\pmb{X}^T\pmb{Y}-\pmb{Y}^T\boldsymbol{Xw}+\pmb{Y}^T\pmb{Y}\\ &=\boldsymbol{w}^T\pmb{X}^T\boldsymbol{Xw}-2\boldsymbol{w}^T\pmb{X}^T\pmb{Y}+\pmb{Y}^T\pmb{Y} \end{aligned} \tag{1-12}$

上面的推导中，由于 $\pmb{w}^T\pmb{x}_1-y_1$ 和 $wTXTY \pmb{w}^T\pmb{X}^T\pmb{Y}$ 都是一个数，所以转置前后相等。

接下来通过对 $\pmb{w}$ 求导就可以解得参数 $\pmb{w}$ ：
$\frac{\partial L(\pmb{w})}{\partial \pmb{w}}=2X^{T}\boldsymbol{Xw}-2\pmb{X}^{T}\pmb{Y}=0\\ \pmb{w}=\underset{\boldsymbol{X}^{+}，伪逆}{\underbrace{(\pmb{X}^{T}\pmb{X})^{-1}\pmb{X}^{T}}}\pmb{Y} \tag{1-13}$

这个式子中 $(\pmb{X}^T\pmb{X})^{-1}\pmb{X}^T$ 又被称为伪逆。 对于行满秩或者列满秩的 $X$ ，可以直接求解，但是对于非满秩的样本集合，需要使用奇异值分解（SVD）的方法，对 $\pmb{X}$ 求奇异值分解，得到
$\pmb{X}=\pmb{U}\pmb{\Sigma} \pmb{V}^T \tag{1-14}$
于是：
$\pmb{X}^+=\pmb{V}\pmb{\Sigma}^{-1}\pmb{U}^T \tag{1-15}$

1.4 最小二乘法的几何意义

1. 每个样本点的误差的总和
使用最小二乘法可以看做损失函数是每个样本的误差的总和，即每一个点对应的 $y_{i}$ 与其在 $f(\pmb{x}_i; \pmb{w})$ 上所对应的点 $wTxi \pmb{w}^{T}\pmb{x}_{i}$ 之间的差值便是误差，如下图所示：

因此将所有点的误差求和 $\sum\limits_{i=1}^N||\pmb{w}^T\pmb{x}_i-y_i||^2_2$ ，使得其最小，便可求得最优的回归函数。

2. 几何角度
在几何上，最小二乘法相当于模型和试验值（这里就是向量 $\pmb{Y}$ ）的距离的平方求和，假设我们的试验样本张成一个 $p$ 维空间（满秩的情况），即：
$\begin{aligned} \pmb{X}_{N\times p}\pmb{w}_{p \times 1}&= \begin{pmatrix} x_{11}&x_{12} & \cdots& x_{1p}\\ x_{21}&x_{22}&\cdots&x_{2p}\\ \vdots&\vdots&\ddots&\vdots\\ x_{N1}&x_{N2}&\cdots &x_{NP} \end{pmatrix} \begin{pmatrix} w_1\\w_2\\\vdots\\w_p \end{pmatrix}\\ &=\begin{pmatrix} x_{11}w_1+x_{12}w_2+\cdots+x_{1p}w_p\\ x_{21}w_1+x_{22}w_2+\cdots+x_{2p}w_p\\ \vdots\\ x_{N1}w_1+x_{N2}w_2+\cdots+x_{Np}w_p \end{pmatrix}\\ &=\begin{pmatrix} w_1\begin{pmatrix}x_{11}\\x_{21}\\\vdots\\x_{N1}\end{pmatrix} +w_2\begin{pmatrix}x_{12}\\x_{22}\\\vdots\\x_{N2}\end{pmatrix} +\cdots+ w_p\begin{pmatrix}x_{1p}\\x_{2p}\\\vdots\\x_{Np}\end{pmatrix} \end{pmatrix} \end{aligned} \tag{1-16}$

而模型可以写成 $\hat{\pmb{Y}} = \boldsymbol{Xw}$ ，也就是 $\pmb{X}$ 中列向量的某种组合，而最小二乘法就是说希望 $\pmb{Y}$ 和这个模型距离越小越好，于是它们的差应该与这个张成的空间垂直：
$\pmb{X}^T\cdot(\pmb{Y}-\boldsymbol{Xw})=0\longrightarrow\pmb{w}=(\pmb{X}^T\pmb{X})^{-1}\pmb{X}^T\pmb{Y} \tag{1-17}$

一组向量的生成子空间（span）是原始向量线性组合后所能抵达的点的集合。确定方程 $\pmb{Ax}=\pmb{b}$ 是否有解，相当于确定向量 $\pmb{b}$ 是否在 $\pmb{A}$ 列向量的生成子空间中。这个特殊的生成子空间被称为 $\pmb{A}$ 的列空间（column space）或者 $\pmb{A}$ 的值域（range）。

1.5 概率视角-高斯噪声-最大似然估计法

从统计理论上进行解释，实际值与估计值总会存在误差，所以对于给定的 $y_{i}$ 总能找到 $\varepsilon_{i}$ 使得这个等式成立 $y_{i}=f(\pmb{x}_i; \pmb{w})+\varepsilon_{i}$ ， $\ \varepsilon_{i}$ 代表真实值和预测值之间的误差且 $\varepsilon_{i} \sim {N}(0,\sigma^2)$ ，由于这里在计算 $y_{i}$ 的时候，给定了 $xi \pmb{x}_{i}$ 和一组 $\pmb{w}$ ，因此 $wTxi \pmb{w}^{T}\pmb{x}_i$ 可以看做常数，则 $y_i|\pmb{x}_i;\pmb{w}\sim N(\pmb{w}^{T}\pmb{x}_i,\sigma ^{2})$ ，即 $p(y_i|\pmb{x}_i;\pmb{w})=\frac{1}{\sqrt{2\pi }\sigma }exp\left \{-\dfrac{(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}}{2\sigma ^{2}}\right \}$

这里的 $p(y_i|\pmb{x}_i;\pmb{w})$ 并不代表条件概率密度函数，只是一个记号它表示给定 $\pmb{x}_{i}, y_{i}$ 和一组 $\pmb{w}$ 后的概率密度函数。

可以使用最大似然估计法（MLE）来进行求解：

$\begin{aligned} L(\pmb{w})&=\prod\limits_{i=1}^Np(y_{i}|\pmb{x}_{i};\pmb{w})\\ &=\prod\limits_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma} exp\{-\dfrac{(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}}{2\sigma ^{2}}\} \end{aligned} \tag{1-18}$
对 $L(\theta)$ 取对数从而得到对数化最大似然估计函数
$\begin{aligned} L(\pmb{w}) &= \mathcal ln(L(\pmb{w})) \\ &=\mathcal ln \prod\limits_{i=1}^N\frac{1}{\sqrt{2\pi}\sigma} exp\{-\dfrac{(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}}{2\sigma ^{2}}\}\\ &=\sum\limits_{i=1}^N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma}exp\{-\dfrac{(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}}{2\sigma ^{2}}\}\\ &=N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{2\sigma^2}\sum\limits_{i=1}^m(y_i-\pmb{w}^{T}\pmb{x}_i)^{2} \end{aligned} \tag{1-19}$
求解最大化对数似然函数可得：
$\begin{aligned} \mathop{\arg\max}_{\boldsymbol{w}} L(\pmb{w}) & \Leftrightarrow \mathop{\arg\max}_{\boldsymbol{w}} L(\pmb{w})\\ & \Leftrightarrow \mathop{\arg\max}_{\boldsymbol{w}}\left\{{N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma} - \frac{1}{2\sigma^2}\sum\limits_{i=1}^ N(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}} \right\}\\ &\Leftrightarrow \mathop{\arg\max}_{\boldsymbol{w}}- \frac{1}{2\sigma^2}\sum\limits_{i=1}^ N(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}\\ &\Leftrightarrow \mathop{\arg\min}_{\boldsymbol{w}} \frac{1}{2\sigma^2}\sum\limits_{i=1}^ N(y_i-\pmb{w}^{T}\pmb{x}_i)^{2}\\ &\Leftrightarrow \mathop{\arg\min}_{\boldsymbol{w}} \sum\limits_{i=1}^ N (y_i-\pmb{w}^{T}\pmb{x}_i)^{2}\\ &\Leftrightarrow \mathop{\arg\min}_{\boldsymbol{w}} \sum\limits_{i=1}^ N (f(\pmb{x}_i; \pmb{w})-y_i)^2 \end{aligned}\tag{1-20}$

可以发现两种方法推导出的损失函数都是一样的，因此从概率角度用最大似然估计法MLE求解与用最小二乘法LSE的本质一样。也因此可以得出，最小二乘估计隐含了一个噪声服从正态分布的假设，即最小二乘法与噪声为高斯噪声时的最大似然估计法是等价的。

简单解释下为什么误差 $\varepsilon_{i}$ 会服从均值为零的正态分布，误差的产生有很多种因素的影响，误差可以看作是这些因素（随机变量）之和共同作用而产生的，由中心极限定理可知随机变量和的分布近似的服从正态分布；更通俗易懂的解释是，当你在选择 $f(\pmb{x}; \pmb{w})$ 时主观的会认定这个 $f(\pmb{x}; \pmb{w})$ 是比较符合样本数据的，比如对一些样本数据可视化后，发现样本数据明显是趋近于一条直线，而你在对 $f(\pmb{x}; \pmb{w})$ 的选择上肯定会选择直线方程作为 $f(\pmb{x}; \pmb{w})$ 而不会选择多项式函数作为 $f(\pmb{x}; \pmb{w})$ 。而这种 $f(\pmb{x}; \pmb{w})$ 一旦选定，可以认为大部分数据都在 $f(\pmb{x}; \pmb{w})$ 的附近，因此误差大部分集中在零值附近所以 ${N}(0,\sigma^2)$ 作为 $\varepsilon_{i}$ 的先验分布是比较合理的。

2 正则化

高维小样本问题
在实际应用时，当样本数 $N$ 远大于维度 $p$ 时，则 $XTX \pmb{X}^T\pmb{X}$ 可逆；而当出现高维小样本的情况，即维度 $p$ 大于样本数 $N$ 时， $XTX \pmb{X}^T\pmb{X}$ 就不可逆，导致不能求出 $\hat{\pmb{w}}$ 的解析解，这种时候也很容易出现过拟合的情况，因为少量样本去学习多个特征（假设1个数据点去做回归，有无数种回归方式，无论哪一种都会拟合）。
处理过拟合的方法

面对上述过拟合的现象有一些解决方案，主要有：

增加数据量
特征选择/特征提取：特征选择指的是根据某种规则去掉一些特征来实现降维；特征提取的方法例如主成分分析（PCA），也是实现降维；
正则化：指给损失函数添加惩罚项来避免过拟合。

正则化的方法
正则化一般是在损失函数（如上面介绍的最小二乘损失）上加入正则化项（表示模型的复杂度对模型的惩罚），下面我们介绍一般情况下的两种正则化框架。

$\begin{aligned} L1&:\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})+\lambda||\pmb{w}||_1,\lambda\gt0\\ L2&:\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})+\lambda||\pmb{w}||^2_2,\lambda \gt 0 \end{aligned} \tag{2-1}$
$L 1$ 正则化，即对参数 $\pmb{w}$ 加上 $L 1$ 范数约束； $L 2$ 正则化，即对参数 $\pmb{w}$ 加上 $L 2$ 范数的平方约束。

2.1 L1-Lasso

2.1.1 L1正则化求解参数

L1正则化（Lasso）可以引起稀疏解。从最小化损失的角度看，由于 L1 项求导在0附近的左右导数都不是0，因此更容易取到0解。

从另一个方面看，L1 正则化相当于：

$\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})\\ s.t. ||\pmb{w}||_1\lt C \tag{2-2}$
我们已经看到平方误差损失函数在 $\boldsymbol{w}$ 空间是一个椭球，因此上式求解就是椭球和 $||\boldsymbol{w}||_1=C$ 的切点，因此更容易相切在坐标轴上。

2.1.2 L1正则化的概率解释

贝叶斯学派认为参数 $\pmb{w}$ 也是服从某种概率分布的，即先给定 $\pmb{w}$ 的先验分布为 $p(\pmb{w})$ ，然后根据贝叶斯定理， $P(\pmb{w}|\pmb{Y})=\dfrac{P(\pmb{Y}|\pmb{w})P(\pmb{w})}{P(\pmb{Y})} \sim P(\pmb{Y}|\pmb{w})P(\pmb{w})$ (这里的 $\pmb{Y}$ 指 $Y∣X \pmb{Y}|\pmb{X}$ ，为书写简单而省略，代表给定的 $\pmb{X}$ 对应相关的 $\pmb{Y}$ 。)，因此通过最大似然估计可求参数 $\pmb{w}$ 。
$\mathop{\arg\max}\limits_{\boldsymbol{w}}\ J(\boldsymbol{w})=\prod_{i=1}^{N} \mathcal {\{p(y_i|\pmb{x}_i;\pmb{w})p(\pmb{w}) \}} \tag{2-3}$
等价于求解对数化最大似然函数 $\pmb{w}$
$\begin{aligned} \mathop{\arg\max}\limits_{\boldsymbol{w}}\ J(\boldsymbol{w})&=\mathcal ln (J(\boldsymbol{w}))\\ &=\sum\limits_{i=1}^N \mathcal ln (p(y_i|\pmb{x}_i;\pmb{w}))+\sum\limits_{i=1}^m\mathcal ln (p(\pmb{w}))\\ \\ \Leftrightarrow \mathop{\arg\min}\limits_{\boldsymbol{w}}\ - J(\boldsymbol{w})&=-\mathcal ln (J(\boldsymbol{w})) \\ &=-\sum\limits_{i=1}^N\mathcal ln (p(y_i|\pmb{x}_i;\pmb{w}))-\sum\limits_{i=1}^N\mathcal ln (p(\pmb{w}))\\ &=L(\boldsymbol{w}) -\sum\limits_{i=1}^N\mathcal ln (p(\pmb{w})) \end{aligned} \tag{2-4}$

假设 $\pmb{w}$ 服从的先验分布为均值为 $0$ 参数为 $\lambda$ 的拉普拉斯分布，即 $\pmb{w}\sim La(0, \lambda)$ 其中， $p(\pmb{w})= \frac{1}{2\lambda}e^{- \dfrac{\left \| \boldsymbol{w}\right \|_{1}}{\lambda}}$ 。因此，上述优化函数可转换为：
$\begin{aligned} &\mathop{\arg\min}\limits_{\boldsymbol{w}}\ L(\boldsymbol{w}) -\sum\limits_{i=1}^N\mathcal ln (p(\pmb{w}))\\ &=L(\boldsymbol{w})-\sum\limits_{i=1}^N\log \frac{1}{2\lambda}e^{-\dfrac{\left \| \boldsymbol{w}\right \|_{1}}{\lambda}}\\ &=L(\boldsymbol{w})-\sum\limits_{i=1}^N \log\frac{1}{2\lambda} + \frac{1}{\lambda}\sum\limits_{i=1}^N \left \| \boldsymbol{w}\right \|_{1}\\ &\Leftrightarrow \mathop{\arg\min}\limits_{\boldsymbol{w}}\ L(\boldsymbol{w}) + \lambda \left \| \boldsymbol{w}\right \|_{1} \end{aligned} \tag{2-5}$
从上面的数学推导可以看出， $\ L1\ $ 正则化可以看成是：通过假设权重参数 $\pmb{w}$ 的先验分布为拉普拉斯分布，由最大后验概率MAP估计导出。

2.2 L2-Ridge

2.2.1 L2正则化求解参数

L2正则化（也叫岭回归、权重衰减）

$\begin{aligned}J(\pmb{w}) &=L(\pmb{w})+\lambda||\pmb{w}||^2_2\\ &=(\pmb{w}^{T}\pmb{X}^{T}-\pmb{Y}^{T})(\pmb{X}\pmb{w}-\pmb{Y})+\lambda \pmb{w}^{T}\pmb{w}\\ &=\pmb{w}^{T}\pmb{X}^{T}\pmb{X}\pmb{w}-2\pmb{w}^{T}\pmb{X}^{T}\pmb{Y}+\pmb{Y}^{T}\pmb{Y}+\lambda \pmb{w}^{T}\pmb{w}\\ &=\pmb{w}^{T}(\pmb{X}^{T}\pmb{X}+\lambda I)\pmb{w}-2\pmb{w}^{T}\pmb{X}^{T}\pmb{Y}+\pmb{Y}^{T}\pmb{Y}\end{aligned} \tag{2-6}$
优化目标为：
$\hat{\pmb{w}}=\underset{\boldsymbol{w}}{\arg\min}J(\pmb{w}) \tag{2-7}$
求偏导：
$\frac{\partial J(\pmb{w})}{\partial \pmb{w}}=2(\pmb{X}^{T}\pmb{X}+\lambda \pmb{I})\pmb{w}-2\pmb{X}^{T}\pmb{Y}=0\\ \hat{\pmb{w}}=(\pmb{X}^{T}\pmb{X}+\lambda \pmb{I})^{-1}\pmb{X}^{T}\pmb{Y} \tag{2-8}$

半正定矩阵 $XTX \pmb{X}^{T}\pmb{X}$ 加上对角矩阵 $\lambda\pmb{I}$ 一定是可逆的，可以解决 $XTX \pmb{X}^{T}\pmb{X}$ 可能不可逆带来的问题。从数学角度上看，使得其可逆；从直观角度来看，抑制了过拟合的可能性。

2.2.2 L2正则化的概率解释

思路一：
假设 $\pmb{w}$ 服从的先验分布为均值为 $0$ 方差为 $\sigma_{0}^2$ 的正态分布，即 $\pmb{w}\sim N(0,\sigma _{0}^{2})$ 其中， $p(\pmb{w})=\frac{1}{\sqrt{2\pi }\sigma_{0}}exp\left \{-\dfrac{\left \| \boldsymbol{w}\right \|_{2}^{2}}{2\sigma _{0}^{2}}\right \}$ 。因此，上述优化函数可转换为：

$\begin{aligned} &\mathop{\arg\min}\limits_{\boldsymbol{w}}\ L(\pmb{w})-\sum\limits_{i=1}^N\mathcal ln (p(\pmb{w}))\\ &=L(\pmb{w})-\sum\limits_{i=1}^N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma_0}exp\left \{-\dfrac{\left \| \boldsymbol{w}\right \|_{2}^{2}}{2\sigma _{0}^{2}}\right \}\\ &=L(\pmb{w})-\sum\limits_{i=1}^N \mathcal ln \frac{1}{\sqrt{2\pi}\sigma_0} + \frac{1}{2\sigma_0^2}\sum\limits_{i=1}^N \left \| \boldsymbol{w}\right \|_{2}^{2}\\ &\Leftrightarrow\mathop{\arg\min}\limits_{\boldsymbol{w}}L(\pmb{w})+ \lambda \left \| \boldsymbol{w}\right \|_{2}^{2} \end{aligned} \tag{2-9}$

思路二：
由1.4小节的概率视角-高斯噪声-最大似然估计法可知，实际值与估计值之间的差是一个高斯噪声，即 $y$ 和 $f(\pmb{x}; \pmb{w})$ 满足关系：
$y=f(\pmb{x}; \pmb{w})+\varepsilon =\pmb{w}^{T}\pmb{x}+\varepsilon \\ 其中\varepsilon是高斯噪声，满足\varepsilon\sim N(0,\sigma ^{2})\tag{2-10}$
因此 $y|\pmb{x};\pmb{w}\sim N(\pmb{w}^{T}\pmb{x},\sigma ^{2})$ ，即 $p(y|\pmb{x};\pmb{w})=\dfrac{1}{\sqrt{2\pi }\sigma }exp\left \{-\dfrac{(y-\pmb{w}^{T}\pmb{x})^{2}}{2\sigma ^{2}}\right \}$

后验概率为 $P(\pmb{w}|\pmb{Y})=\dfrac{P(\pmb{Y}|\pmb{w})P(\pmb{w})}{P(\pmb{Y})} \sim P(\pmb{Y}|\pmb{w})P(\pmb{w})$ (这里的 $\pmb{Y}$ 指 $Y∣X \pmb{Y}|\pmb{X}$ ，为书写简单而省略，代表给定的 $\pmb{X}$ 对应相关的 $\pmb{Y}$ 。)

$\begin{aligned} \hat{\pmb{w}} &= arg\underset{\boldsymbol{w}}{max}\ \ {p(\pmb{Y}|\pmb{w})p(\pmb{w})\over p(\pmb{Y})}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ p(\pmb{Y}|\pmb{w})p(\pmb{w})\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \mathcal ln{\{p(\pmb{Y}|\pmb{w})p(\pmb{w}) \}}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \mathcal ln \prod_{i=1}^{N}{\{p(y_i|\pmb{w})p(\pmb{w}) \}}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \sum_{i=1}^{N}\mathcal ln{\{p(y_i|\pmb{w})p(\pmb{w}) \}}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \sum_{i=1}^{N} \mathcal ln {\{{1\over\sqrt{2\pi}\sigma}\exp{\{-{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}\}}{1\over\sqrt{2\pi}\sigma_0}\exp{\{-{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}}\}}\\ &=arg\underset{\boldsymbol{w}}{max} \sum_{i=1}^{N} \{\mathcal ln {({1\over\sqrt{2\pi}\sigma}{1\over\sqrt{2\pi}\sigma_0})}-{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}-{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}\\ &=arg\underset{\boldsymbol{w}}{max}\ \ \sum_{i=1}^{N} \{-{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}-{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}\\ &=arg\underset{\boldsymbol{w}}{min}\ \ \sum_{i=1}^{N} \{{(y-\pmb{w}^T\pmb{x})^2\over2\sigma^2}+{\Vert \pmb{w}\Vert^2\over2\sigma_0^2}\}\\ &=arg\underset{\boldsymbol{w}}{min}\ \ \sum_{i=1}^{N} \{(y-\pmb{w}^T\pmb{x})^2+{\sigma^2\over \sigma^2_0}\Vert \pmb{w} \Vert ^2 \}\\ &=arg\underset{\boldsymbol{w}}{min}\ \ \sum_{i=1}^{N} \{ \underset{LSE}{ \underbrace{(y_i-\pmb{w}^T\pmb{x}_i)^2}}+\underset{\lambda}{\underbrace{\sigma^2\over \sigma^2_0}}\Vert \pmb{w} \Vert ^2\}\\ \end{aligned}\tag{2-11}$

可以看到，这个最大后验估计MAP的结果和前面正则化参数不谋而合，即加入了正则项的最小二乘估计与包含服从高斯分布的噪声和最大似然估计MAP推导的结果是等价的。利用2范数进行正则化不仅可以使模型选择 $\pmb{w}$ 较小的参数，同时也避免 $XTX \pmb{X}^{T}\pmb{X}$ 不可逆的问题。

最大后验估计MAP为贝叶斯学派常用的参数估计方法，他们认为模型参数服从某种潜在分布。其首先对参数有一个预先估计，然后根据所给数据对预估计进行不断调整，因此同一事件，先验不同则事件状态不同。先验假设较为靠谱时有显著的效果，当数据较少时，先验对模型的参数有主导作用，随着数据的增加，真实数据样例将占据主导地位

小结

线性回归模型是最简单的模型，但是麻雀虽小，五脏俱全，在这里，我们利用最小二乘误差得到了闭式解。同时也发现，在噪声为高斯分布的时候，MLE的解等价于最小二乘误差，而增加了正则项后，最小二乘误差加上 L2 正则项等价于高斯噪声先验下的MAP解，加上 L1 正则项后，等价于Laplace噪声先验。

传统的机器学习方法或多或少都有线性回归模型的影子：

线性模型往往不能很好地拟合数据，因此有三种方案克服这一劣势：
- 对特征的维数进行变换，例如多项式回归模型就是在线性特征的基础上加入高次项。
- 在线性方程后面加入一个非线性变换，即引入一个非线性的激活函数，典型的有线性分类模型如感知机。
- 对于一致的线性系数，我们进行多次变换，这样同一个特征不仅仅被单个系数影响，例如多层感知机（深度前馈网络）。
线性回归在整个样本空间都是线性的，我们修改这个限制，在不同区域引入不同的线性或非线性，例如线性样条回归和决策树模型。
线性回归中使用了所有的样本，但是对数据预先进行加工学习的效果可能更好（所谓的维数灾难，高维度数据更难学习），例如 PCA 算法和流形学习。