深度学习入门之SGD随机梯度下降法

赵孝正

已于 2023-10-07 14:04:24 修改

阅读量3w

点赞数 14

分类专栏：深度学习入门文章标签：深度学习 batch python

于 2022-03-01 09:53:17 首次发布

本文链接：https://blog.csdn.net/weixin_46713695/article/details/123198293

版权

本文介绍了SGD随机梯度下降法的基本原理，通过Python实现了一个简单的SGD类。同时，文章揭示了SGD在解决某些问题时的效率低下问题，特别是在函数具有非均向形状时，导致搜索路径低效。为了解决这个问题，文中提出了Momentum、AdaGrad和Adam等优化方法作为SGD的替代方案。

摘要由CSDN通过智能技术生成

SGD

SGD为随机梯度下降法。用数学式可以将 SGD 写成如下的式（6.1）。
在这里插入图片描述
这里把需要更新的权重参数记为W，把损失函数关于W的梯度记为 ∂L/∂W 。 $η$ 表示学习率，实际上会取 0.01 或 0.001 这些事先决定好的值。式子中的←表示用右边的值更新左边的值。

如式（6.1）所示，SGD 是朝着梯度方向只前进一定距离的简单方法。现在，将 SGD 实现为一个 Python 类（为方便后面使用，将其实现为一个名为 SGD 的类）。

class SGD:
    def __init__(self, lr=0.01):
        self.lr = lr#学习率

    def update(self, params, grads):
        for key in params.keys():
            params[key] -= self.lr

最低0.47元/天解锁文章

赵孝正

关注

14
点赞
踩
91

收藏

觉得还不错? 一键收藏
3
评论
深度学习入门之SGD随机梯度下降法

SGDSGD为随机梯度下降法。用数学式可以将 SGD 写成如下的式（6.1）。这里把需要更新的权重参数记为W，把损失函数关于W的梯度记为∂L/∂W 。η 表示学习率，实际上会取 0.01 或 0.001 这些事先决定好的值。式子中的←表示用右边的值更新左边的值。如式（6.1）所示，SGD 是朝着梯度方向只前进一定距离的简单方法。现在，我们将 SGD 实现为一个 Python 类（为方便后面使用，我们将其实现为一个名为 SGD 的类）。class SGD: def __init__(self,
复制链接

扫一扫

专栏目录