Python手写普通最小二乘法

数据科学家修炼之道

已于 2023-11-28 10:26:56 修改

阅读量1w

点赞数 3

分类专栏： AI # 机器学习文章标签：机器学习线性回归普通最小二乘法

于 2018-08-02 23:59:57 首次发布

本文为博主原创文章，欢迎转载，转载请注明出处。

本文链接：https://blog.csdn.net/xiligey1/article/details/81369713

版权

AI 同时被 2 个专栏收录

130 篇文章 7 订阅

订阅专栏

机器学习

8 篇文章 0 订阅

订阅专栏

文章目录

什么是普通最小二乘法
如何推导OLS
- 正规方程
- 梯度下降法
Python实现

什么是普通最小二乘法

普通最小二乘法（Ordinary Least Squares，OLS），是一种线性最小二乘法，用于估计线性回归模型中的未知参数。

通俗解释：

最小，即最小化；

二乘，即真实的观测的因变量的值与预测的因变量的值的差的平方和，
$\sum (真实因变量-预测因变量)^2$

直观上来看，就是要使得 「集合中每个数据点和回归曲面上对应预测的点的距离的平方的和」 达到最小，这样模型对数据才拟合得最好。

如下图所示，其中 ${A,B,C,D,E,F}$ 为数据点，要最小化的就是 「红色线段的长度的平方的和」
OLS

如何推导OLS

一般标记：

$m$ 代表训练集中实例的数量
$x$ 代表特征/输入变量
$y$ 代表目标变量/输出变量
$(x, y)$ 代表训练集中的实例
$x^{(i)},y^{(i)})$ 代表第i 个观察实例

线性回归的一般形式：　　　　
$h_{\theta}\left( x \right)={\theta_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

令 $\theta=[\theta_0,\theta_1]$ ， $h_{\theta} \left( x \right)={\theta^{T}}X$ ，需要极小化的代价函数是：
$J\left( {\theta_{0}},{\theta_{1}}...{\theta_{n}} \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( h_{\theta} \left({x}^{\left( i \right)} \right)-{y}^{\left( i \right)} \right)}^{2}}}\\ = \frac{1}{2}({X\theta} -{y})^T({X\theta} - {y})$

损失函数、代价函数和目标函数的区别

正规方程

${\theta} = ({X^{T}X})^{-1}{X^{T}Y}$

推导过程：

$J\left( \theta \right)=\frac{1}{2m}\sum\limits_{i=1}^{m}{{{\left( {h_{\theta}}\left( {x^{(i)}} \right)-{y^{(i)}} \right)}^{2}}}$
其中： ${h_{\theta}}\left( x \right)={\theta^{T}}X={\theta_{0}}{x_{0}}+{\theta_{1}}{x_{1}}+{\theta_{2}}{x_{2}}+...+{\theta_{n}}{x_{n}}$

将向量表达形式转为矩阵表达形式，则有 $J(\theta )=\frac{1}{2}{{\left( X\theta -y\right)}^{2}}$ ，

其中 $X$ 为 $m$ 行 $n$ 列的矩阵（ $m$ 为样本个数， $n$ 为特征个数）， $\theta$ 为 $n$ 行1列的矩阵， $y$ 为 $m$ 行1列的矩阵，对 $J(\theta )$ 进行如下变换

$J(\theta )=\frac{1}{2}{{\left( X\theta -y\right)}^{T}}\left( X\theta -y \right)$

$=\frac{1}{2}\left( {{\theta }^{T}}{{X}^{T}}-{{y}^{T}} \right)\left(X\theta -y \right)$

$=\frac{1}{2}\left( {{\theta }^{T}}{{X}^{T}}X\theta -{{\theta}^{T}}{{X}^{T}}y-{{y}^{T}}X\theta -{{y}^{T}}y \right)$

接下来对 $J(\theta )$ 偏导，需要用到以下几个矩阵的求导法则:

$\frac{dAB}{dB}={{A}^{T}}$

$\frac{d{{X}^{T}}AX}{dX}=2AX$

所以有:

$\frac{\partial J\left( \theta \right)}{\partial \theta }=\frac{1}{2}\left(2{{X}^{T}}X\theta -{{X}^{T}}y -{}({{y}^{T}}X )^{T}-0 \right)$

$=\frac{1}{2}\left(2{{X}^{T}}X\theta -{{X}^{T}}y -{{X}^{T}}y -0 \right)$

$={{X}^{T}}X\theta -{{X}^{T}}y$

令 $\frac{\partial J\left( \theta \right)}{\partial \theta }=0$ ,

则有 $\theta ={{\left( {X^{T}}X \right)}^{-1}}{X^{T}}y$

梯度下降法

1、 批量梯度下降

一般形式：

$\theta_j\\=\theta_j-\alpha\frac \partial {\partial \theta_j}J(\theta_0,\theta_1,...,\theta_m)\\ =\theta_j-\alpha\frac \partial {\partial\theta_j}\frac 1 {2m} \sum_{i=1}^m(h_{\theta}(X^{(i)})-y^{(i)})^2 \\ =\theta_j-\alpha\frac 1 m \sum_{i=1}^m((h_{\theta}(X^{(i)})-y^{(i)})·X_j^{(i)})$

当n>=1时，
${{\theta }_{0}}:={{\theta }_{0}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{0}^{(i)}$

${{\theta }_{1}}:={{\theta }_{1}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{1}^{(i)}$

${{\theta }_{2}}:={{\theta }_{2}}-a\frac{1}{m}\sum\limits_{i=1}^{m}{({{h}_{\theta }}({{x}^{(i)}})-{{y}^{(i)}})}x_{2}^{(i)}$

矩阵形式：
$\theta= \theta -\frac 1 m \alpha{X}^T({X\theta} -{Y})$ 其中 $\alpha$ 为步长。

2、随机梯度下降
$\theta=\theta- \alpha X_i^T(X_i\theta-Y_i)$

3、 小批量梯度下降

$\theta=\theta-\frac 1 M \alpha X_M^T(X_M\theta-Y_M)$

其中 $M$ 为batch_size， $X_M$ 表示 $M$ 条数据， $Y_M$ 为 $X_M$ 对应的 $y$ 的值。

Python实现

下述代码详细的实现了矩阵计算方法、梯度下降法、批量梯度下降法、随机梯度下降法四种方法：
https://github.com/xiligey/npml/blob/master/npml/linear_model/ordinary_least_squares.py

运行测试代码结果如下：
https://github.com/xiligey/npml/blob/master/test/test_ordinary_least_squares.py

矩阵法系数：[[3.20321268] [2.18418495]]
批量梯度下降法系数：[[3.20321268] [2.18418495]]
小批量梯度下降法系数：[[3.28291653] [2.20456595]]
随机梯度下降法系数：[[3.28802332] [1.99288205]]
sklearn的线性回归系数：(array([[2.18418495]]), array([3.20321268]))

小批量梯度下降法

可以看出，小批量和随机梯度下降法存在一定的随机性，损失在迭代过程中存在波动。矩阵法和批量梯度下降法的结果与sklearn的结果一致，小批量和随机梯度下降法有小部分误差，在实际生产环境中，保证这点误差属于可容忍范围内的即可。