Python手写岭回归算法

数据科学家修炼之道

已于 2023-11-28 12:14:36 修改

阅读量1.4w

点赞数 2

分类专栏： AI # 机器学习文章标签：岭回归机器学习

于 2018-08-03 14:27:59 首次发布

本文为博主原创文章，欢迎转载，转载请注明出处。

本文链接：https://blog.csdn.net/xiligey1/article/details/81387009

版权

AI 同时被 2 个专栏收录

130 篇文章 7 订阅

订阅专栏

机器学习

8 篇文章 0 订阅

订阅专栏

文章目录

理论
Python实现

理论

岭回归在最小二乘法的基础上加上了一个 $l_2$ 惩罚项
假设函数： $h_\theta(x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \cdots + \theta_n x_n$

损失函数： $J\left(\theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{[({{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})}^{2}}+\lambda \sum\limits_{j=1}^{n}{\theta _{j}^{2}})]}$

损失函数的矩阵形式： $J(\theta)= (y - X\theta)^T (y - X\theta) + \lambda \theta^T \theta$

其中：

$y$ 是一个 $\times 1$ 的向量，包含了所有的因变量。
$X$ 是一个 $\times p$ 的矩阵，其中 $n$ 是样本数， $p$ 是特征数。
$\theta$ 是一个 $\times 1$ 的向量，包含了所有的回归系数。
$\lambda$ 是正则化参数，控制惩罚的强度。
$^T$ 表示矩阵转置。

正规方程推导过程

岭回归算法的参数估计可以通过正规方程来求解。正规方程是一种闭合形式的解，适用于求解线性方程组。在岭回归中，我们添加了一个正则化项，以便在存在共线性的情况下稳定参数估计。下面是岭回归正规方程的推导过程：

要找到最小化损失函数的参数 $\theta$ ，我们对损失函数关于 $\theta$ 求导并设为零：

$\frac{\partial}{\partial \theta} \left[ (y - X\theta)^T (y - X\theta) + \lambda \theta^T \theta \right] = 0$

展开并简化上式：

对第一项 $X\theta)^T (y - X\theta)$ 求导得到：
$-2X^T(y - X\theta)$
对第二项 $\lambda \theta^T \theta$ 求导得到：
$2\lambda\theta$

因此，我们有：

$-2X^T(y - X\theta) + 2\lambda\theta = 0$

简化上述等式：

$X^T y - X^T X\theta + \lambda\theta = 0$

将上述等式重新排列，以解出 $\theta$ ：

$X^T X\theta + \lambda\theta = X^T y$

合并 $\theta$ 相关的项：

$(X^T X + \lambda I)\theta = X^T y$

其中 $I$ 是单位矩阵。

最后，解出 $\theta$ ：

$\theta = (X^T X + \lambda I)^{-1} X^T y$

这就是岭回归的正规方程。需要注意的是，由于加入了 $\lambda I$ ，正则化项确保了 $X^TX + \lambda I$ 矩阵是可逆的（或者更准确地说，是正定的），这在处理共线性特征时特别重要，因为在普通最小二乘回归中 $X^T X$ 可能是奇异的或接近奇异的。

梯度下降法

一般形式：

重复以下步骤直到收敛:

${\theta_0}:={\theta_0}-\lambda \frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{0}^{(i)}})$

${\theta_j}:={\theta_j}-\lambda [\frac{1}{m}\sum\limits_{i=1}^{m}{(({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}+\frac{\lambda }{m}{\theta_j}]$

$j = 1, 2, ... n$

${\theta_j}:={\theta_j}(1-\alpha \frac{\lambda }{m})-\alpha \frac{1}{m}\sum\limits_{i=1}^{m}{({h_\theta}({{x}^{(i)}})-{{y}^{(i)}})x_{j}^{\left( i \right)}}$

$\lambda$ 是控制模型复杂度的因子，可看做收缩率的大小。 $\lambda$ 越大，收缩率越大，系数对于共线性的鲁棒性更强

矩阵形式：

批量梯度下降

$\theta=(1-\lambda \frac \alpha m) \theta - \frac {\alpha} m {X}^T({X\theta} -{Y})$

小批量梯度下降

$\theta=(1-\lambda \frac \alpha m) \theta - \frac {\alpha} M {X_M}^T({X_M\theta} -{Y_M})$

其中 $M$ 为batch_size， $X_M$ 表示 $M$ 条数据， $Y_M$ 为 $X_M$ 对应的 $y$ 的值。

随机梯度下降

$\theta=(1-\lambda \frac {\alpha} m) \theta - {\alpha} {X^{(i)}}^T({X^{(i)}\theta} -{Y^{(i)}})$

Python实现

下述代码详细的实现了矩阵计算方法、梯度下降法、批量梯度下降法、随机梯度下降法四种方法：
https://github.com/xiligey/npml/blob/master/npml/linear_model/ridge.py

运行测试代码结果如下：
https://github.com/xiligey/npml/blob/master/test/test_ridge.py

矩阵法系数：[[3.1976789 ]
[2.18770957]]
批量梯度下降法系数：[[3.1976789 ]
[2.18770957]]
小批量梯度下降法系数：[[3.25664069]
[2.03215727]]
随机梯度下降法系数：[[3.21467618]
[2.30263593]]
sklearn的岭回归回归系数：(array([[2.17620422]]), array([3.21107145]))

批量梯度下降法
小批量梯度下降法
随机梯度下降法