机器学习:线性回归，拉索(Lasso)回归，脊(Ridge)回归

kussinage

于 2024-03-21 16:51:22 发布

阅读量1k

点赞数 15

文章标签：机器学习回归线性回归

本文链接：https://blog.csdn.net/zerokusinage/article/details/136913348

版权

线性模型

线性回归

线性回归是一种线性模型，它通过在输入特征和输出之间找到最佳线性关系来建立模型。线性回归的目标是找到一条直线，使得所有样本到直线的距离之和最小。这条直线的方程为：
$y = w_1x_1 + w_2x_2 + ... + w_nx_n + b$
其中， $w_1, w_2, ..., w_n$ 是权重， $b$ 是偏置。线性回归的损失函数是均方误差：
$\frac{1}{m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2$
其中， $m$ 是样本数量， $y_i$ 是真实值， $\hat{y}_i$ 是预测值。我们的目标是找到一组权重和偏置，使得均方误差最小。我们可以使用梯度下降法来求解。梯度下降法的更新公式为：
$\alpha\frac{\partial{MSE}}{\partial{w}}$

最大似然

线性回归的损失函数是均方误差，我们可以通过最大似然估计来推导出均方误差。假设我们的模型是：
$=\hat{y}+ \epsilon$
其中， $\epsilon$ 是误差项，假设 $\epsilon$ 服从均值为0的正态分布，即 $\epsilon \sim N(0, \sigma^2)$ 。我们可以得到：
$\sim N(\hat{y}, \sigma^2)$
我们的目标是找到一组参数，使得样本的似然最大(样本出现的概率)。我们可以得到似然函数：
$L=\prod_{i=1}^{m}f(x_i|\theta) = \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2})$
对似然函数取对数，得到对数似然函数：
$\ell = -\frac{m}{2}log(2\pi) - mlog(\sigma) - \frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2$
我们可以看到，对数似然函数的第三项就是均方误差。因此，最大似然估计和均方误差是等价的。
$\ell = MSE$

梯度下降

我们可以通过梯度下降法来求解线性回归的参数。我们的目标是最小化均方误差，即：
$\begin{aligned} MSE &= \frac{1}{2m}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2\\ \end{aligned}$
我们可以对 $w$ 和 $b$ 分别求偏导：
$\frac{\partial{\ell}}{\partial{w}} = -\frac{1}{m}\sum_{i=1}^{m}x_i(y_i - \hat{y}_i)\\$
最后通过梯度更新参数:
$w=w-\eta\frac{\partial{L}}{\partial{w}}$

正则项

由于参数的数量可能很多，我们需要对参数进行约束，以防止过拟合。我们可以假设参数服从正态分布，即 $\sim N(0, \alpha^2)$ 。则由贝叶斯公式:
$p (y, w) = p (y ∣ w) p (w)$
带入似然函数：
$\begin{aligned} \ln L&=\ln \prod_{i=1}^{m}p(y_i|w)p(w)\\ &=\ln \prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(y_i - \hat{y}_i)^2}{2\sigma^2})\frac{1}{\sqrt{2\pi}\alpha}exp(-\frac{w^2}{2\alpha^2})\\ \\ &= \sum_{i=1}^{m}(-\frac{1}{2\sigma^2}(y_i - \hat{y}_i)^2) - \frac{1}{2\alpha^2}w^2 - m\ln(\sigma) - \frac{m}{2}\ln(2\pi) - \frac{m}{2}\ln(\alpha)\\ &= -\frac{1}{2\sigma^2}\sum_{i=1}^{m}(y_i - \hat{y}_i)^2- \frac{1}{2\alpha^2}w^2 +C\\ &= -MSE - \frac{1}{2\alpha^2}w^2 +C \end{aligned}$
则我们的目标是最大化 $\ln L$ ，即最小化 $\frac{1}{2\alpha^2}w^2$ 。我们将 $\frac{1}{2\alpha^2}w^2$ 称为正则项，它可以防止过拟合。我们可以将正则项加入到损失函数中，得到正则化的损失函数：
$\ell = MSE + \frac{1}{2\alpha^2}w^2 =MSE+\frac{1}{2\alpha^2}\Vert w \Vert_2$
其中， $\Vert w \Vert_2$ 为L2范数，那么
$\begin{aligned} \frac{\partial{L}}{\partial{w}}= &\frac{\partial{MSE}}{\partial{w}} + \frac{1}{\alpha^2}w\\ = & \lambda w+\frac{1}{2\sigma}\sum_{i=1}^{m}x_i(y_i-\hat{y_i}) \end{aligned}$
最后就可以使用该梯度公式和梯度下降算法更新参数。
该线性模型为Ridge Regression\