随机梯度下降原理及在线性回归算法中的应用python代码实现

南山十一少

已于 2023-08-03 20:28:13 修改

阅读量473

点赞数

分类专栏：机器学习文章标签：算法线性回归机器学习

于 2023-08-03 18:38:30 首次发布

本文链接：https://blog.csdn.net/weixin_71894495/article/details/132074202

版权

机器学习专栏收录该内容

17 篇文章 2 订阅

订阅专栏

1 介绍

梯度下降主要分为三种：批量梯度下降（又名最速下降），随机梯度下降和小批量梯度下降。
设：M为每次求梯度所使用到的样本数量，N为所有样本数，则
当：M等于N时，就是batch GD 批量梯度下降
当：M等于1时，就是SGD 随机梯度下降
当：M大于1，小于N时，就是mini-batch GD 小批量梯度下降

笔者刚开始接触随机梯度下降的时候，就有如下三个问题，困扰了笔者很久。

问题1：随机梯度下降为什么随机选取一个样本反复多次迭代，就能实现全量样本多次迭代批量梯度下降的效果，每次迭代的梯度方向都是随机的，不仅不是最速方向，甚至是反方向，为什么多次迭代后就能找到局部最优点？

问题2：随机梯度下降的迭代结束条件是什么，实际实现中，随机梯度下降迭代盲猜迭代N次，感觉行了就停，完全是一个非闭环的东西，随机迭代需要多少次迭代才能达到程序停止迭代的条件？

问题3：为什么随机梯度下降计算速度更快？

2 分析

在梯度下降求梯度时，梯度方程只需一个样本和一组theta值便能求出当前theta值下的梯度值，如果每个样本完全符合模型关系，代入任意一个样本，将会得到完全相同的梯度值。

问题就在于每个样本不会完全符合模型关系，具有不同程度的随机误差，故得到的梯度值也不会相同，为了得到全量样本较为精准的梯度值，故批量梯度下降就代入了所有样本求出梯度值再平均，使用了所有训练数据的误差，保证了各个样本之间随机误差对结果的影响程度最小。

而在随机梯度下降法中会随机选择一个训练数据，并使用它来更新参数。如果每次仅代入一个样本，多次迭代不同样本，每个样本的随机误差也会被抵消掉，最终找到最优解。

因为随机梯度下降根据随机样本所求得的梯度值相对于全量样本来说，有可能不是最快下降方向，甚至可能是上升方向，故下降方向具有随机性，（因为每个样本包含了随机误差，所以每次迭代梯度具有随机性，但整体样本随机误差会相互抵消，多次迭代后，梯度方向最终还是会指引到极值点）更新参数结束条件不能像批量梯度下降那样，通过将更新前与更新后的参数代入迭代函数中比较两次损失函数的绝对值是否满足预设精度来判断是否结束迭代。

abs(J(theta, X_b, y) - J(last_theta, X_b, y)) < epsilon

因为每次迭代样本所包含的随机误差可能导致前后两次迭代计算出的梯度不是全样本最速方向，将这两次求得的theta值代入损失函数做比较得到的差值是不稳定的。无法通过判断批量梯度下降法的结束迭代方式如法炮制，随机梯度下降一般会通过预设的迭代次数来结束迭代过程，同时还会随着迭代次数的增多，降低学习率的值，模拟退火的过程。（此处有点像是PID算法控制加热棒烧水一样，刚开始离目标温度较低，猛火烧水，慢慢接近目标温度后，小火烧水）。

3 代码实现

首先构造梯度函数和退火函数（梯度函数的推导过程可查看笔者另一篇博文：

梯度下降法在线性回归中的应用及python代码实现_南山十一少的博客-CSDN博客）

其次对X_train输入空间样本进行预处理，增加全为1的列向量，为了方便后续与theta进行矩阵点乘。

然后对theta赋初值，以输入空间的列向量个数一致进行随机赋值。

最后就可以进行迭代计算更新theta值了。

具体代码如下：

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np
from sklearn.linear_model import SGDRegressor

def sgd(X_b, y, n=100, t0=5, t1=500):
    def dJ_sgd(theta, X_b_i, y_i):
        return X_b_i * (X_b_i.dot(theta) - y_i) * 2.

    def learning_rate(t):
        return t0 / (t + t1)

    X_b = np.hstack([np.ones((len(X_b), 1)), X_b])
    initial_theta = np.random.randn(X_b.shape[1])
    theta = initial_theta
    m = len(X_b)
    for i_iter in range(n):
        indexes = np.random.permutation(m)
        X_b_new = X_b[indexes, :]
        y_new = y[indexes]
        gradient = dJ_sgd(theta, X_b_new[i_iter], y_new[i_iter])
        theta = theta - learning_rate(i_iter) * gradient

    return theta

通过Sklearn自带的批量梯度下降、Sklearn自带的随机梯度下降和上诉写的随机梯度下降对一组线性关系的样本求解线性回归，实验证明，随机梯度下降即使用到一半的样本数据，也能较好的训练出参数值theta，与批量梯度下降得出的结果相差无几。但值得注意的是，批量下降每迭代一次就要进行所有样本的计算，计算量为样本数量乘以迭代次数，而随机梯度下降每迭代一次仅仅使用了一个样本计算了一次，最后计算量为迭代次数，所以随机梯度下降大大降低了计算量。三种方式的线性回归代码及对比结果如下所示：

Sklearn批量梯度下降求解线性回归

Batch Gradient Descent Score = 0.6305101921596077
Batch Gradient Descent: y = [3.92018275] * x + 2.870032112246455

Sklearn随机梯度下降求解线性回归

Sklearn Stochastic Gradient Descent Score = 0.630465437994248
Sklearn Stochastic Gradient Descent: y = [3.91683263] * x + [2.87724967]

自编随机梯度下降求解线性回归

Stochastic Gradient Descent Score = 0.6058746652580193
Stochastic Gradient Descent: y = [4.38881505] * x + 3.2794452449036284

if __name__ == "__main__":
    np.random.seed(666)    
    m = 1000
    x = np.random.normal(size=m)
    X = x.reshape(-1, 1)
    y = 4. * x + 3. + np.random.normal(0, 3, size=m)
    X_train, X_test, y_train, y_test = train_test_split(X, y)

    # Sklearn批量梯度下降 求解线性回归
    lin_reg = LinearRegression()
    lin_reg.fit(X_train, y_train)
    score = lin_reg.score(X_test, y_test)
    print("Batch Gradient Descent Score = {}".format(score))
    print("Batch Gradient Descent: y = {} * x + {} ".format(lin_reg.coef_, lin_reg.intercept_))

    # Sklearn随机梯度下降 求解线性回归
    sgd_reg = SGDRegressor(n_iter_no_change=5)
    sgd_reg.fit(X_train, y_train)
    score = sgd_reg.score(X_test, y_test)
    print("Sklearn Stochastic Gradient Descent Score = {}".format(score))
    print("Sklearn Stochastic Gradient Descent: y = {} * x + {} ".format(sgd_reg.coef_, sgd_reg.intercept_))

    # 自编随机梯度下降 求解线性回归
    theta = sgd(X_train, y_train, n=300)
    lin_reg.intercept_ = theta[0]
    lin_reg.coef_ = theta[1:]
    score = lin_reg.score(X_test, y_test)
    print("Stochastic Gradient Descent Score = {}".format(score))
    print("Stochastic Gradient Descent: y = {} * x + {} ".format(lin_reg.coef_, lin_reg.intercept_))

4. 结论

本文讲解了随机梯度下降的原理，并通过自编随机梯度下降代码，并应用到线性回归求解中，让读者深入了解随机梯度的原理。最后与Sklearn自带的批量梯度下降和随机梯度下降进行对比，随机梯度下降尽可能的保证了计算精度的同时，能够有效的减少计算量。

南山十一少

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
随机梯度下降原理及在线性回归算法中的应用python代码实现

本文讲解了随机梯度下降的原理，并通过自编随机梯度下降代码并应用到线性回归求解中，让读者深入了解随机梯度的原理。最后与Sklearn自带的批量梯度下降和随机梯度下降进行对比，随机梯度下降尽可能的保证了计算精度的同时，能够有效的减少计算量。
复制链接

扫一扫