深度学习优化算法之SGD

最新推荐文章于 2024-06-21 21:42:01 发布

DreaMaker丶

最新推荐文章于 2024-06-21 21:42:01 发布

阅读量4.1k

点赞数

分类专栏：神经网络基础

神经网络基础专栏收录该内容

7 篇文章 1 订阅

订阅专栏

引言

最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域，优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下，采用不同的优化算法，也很可能导致截然不同的训练效果。

梯度下降是目前神经网络中使用最为广泛的优化算法之一。为了弥补朴素梯度下降的种种缺陷，研究者们发明了一系列变种算法，从最初的 SGD (随机梯度下降) 逐步演进到 NAdam。然而，许多学术界最为前沿的文章中，都并没有一味使用 Adam/NAdam 等公认“好用”的自适应算法，很多甚至还选择了最为初级的 SGD 或者 SGD with Momentum 等。

本文旨在梳理深度学习优化算法的发展历程，并在一个更加概括的框架之下，对优化算法做出分析和对比。

Gradient Descent

梯度下降是指，在给定待优化的模型参数 $\theta \in \mathbb{R}^d$ 和目标函数 $J(\theta)$ 后，算法通过沿梯度 $\nabla_\theta J(\theta)$ 的相反方向更新 $\theta$ 来最小化 $J(\theta)$ 。学习率 $\eta$ 决定了每一时刻的更新步长。对于每一个时刻，我们可以用下述步骤描述梯度下降的流程：

(1) 计算目标函数关于参数的梯度

$g_t = \nabla_\theta J(\theta)$

(2) 根据历史梯度计算一阶和二阶动量

$m_t = \phi(g_1, g_2, \cdots, g_t)$

$v_t = \psi(g_1, g_2, \cdots, g_t)$

(3) 更新模型参数

$\theta_{t+1} = \theta_t - \frac{1}{\sqrt{v_t + \epsilon}} m_t$

其中， $\epsilon$ 为平滑项，防止分母为零，通常取 1e-8。

Gradient Descent 和其算法变种

根据以上框架，我们来分析和比较梯度下降的各变种算法。

Vanilla SGD

朴素 SGD (Stochastic Gradient Descent) 最为简单，没有动量的概念，即

$m_t = \eta g_t$

v_t = I^2

$\epsilon = 0$

这时，更新步骤就是最简单的

$\theta_{i+1}= \theta_t - \eta g_t$

SGD 的缺点在于收敛速度慢，可能在鞍点处震荡。并且，如何合理的选择学习率是 SGD 的一大难点。

Momentum

SGD 在遇到沟壑时容易陷入震荡。为此，可以为其引入动量 Momentum[3]，加速 SGD 在正确方向的下降并抑制震荡。

$m_t = \gamma m_{t-1} + \eta g_t$

SGD-M 在原步长之上，增加了与上一时刻步长相关的 $\gamma m_{t-1}$ ， $\gamma$ 通常取 0.9 左右。这意味着参数更新方向不仅由当前的梯度决定，也与此前累积的下降方向有关。这使得参数中那些梯度方向变化不大的维度可以加速更新，并减少梯度方向变化较大的维度上的更新幅度。由此产生了加速收敛和减小震荡的效果。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法之SGD

引言最优化问题是计算数学中最为重要的研究方向之一。而在深度学习领域，优化算法的选择也是一个模型的重中之重。即使在数据集和模型架构完全相同的情况下，采用不同的优化算法，也很可能导致截然不同的训练效果。梯度下降是目前神经网络中使用最为广泛的优化算法之一。为了弥补朴素梯度下降的种种缺陷，研究者们发明了一系列变种算法，从最初的 SGD (随机梯度下降) 逐步演进到 NAdam。然而，许多学术界最为前沿的文...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。