深度学习的优化方法-梯度下降算法

最新推荐文章于 2024-05-16 15:42:53 发布

AI耽误的大厨

最新推荐文章于 2024-05-16 15:42:53 发布

阅读量1.1k

点赞数

分类专栏：计算机视觉-CV 文章标签：人工智能神经网络 keras 计算机视觉

本文链接：https://blog.csdn.net/weixin_46556352/article/details/124112410

版权

计算机视觉-CV 专栏收录该内容

45 篇文章 10 订阅

订阅专栏

1.梯度下降算法【回顾】¶

梯度下降法简单来说就是一种寻找使损失函数最小化的方法。大家在机器学习阶段已经学过该算法，所以我们在这里就简单的回顾下，从数学上的角度来看，梯度的方向是函数增长速度最快的方向，那么梯度的反方向就是函数减少最快的方向，所以有：

其中，η是学习率，如果学习率太小，那么每次训练之后得到的效果都太小，增大训练的时间成本。如果，学习率太大，那就有可能直接跳过最优解，进入无限的训练中。解决的方法就是，学习率也需要随着训练的进行而变化。

在上图中我们展示了一维和多维的损失函数，损失函数呈碗状。在训练过程中损失函数对权重的偏导数就是损失函数在该位置点的梯度。我们可以看到，沿着负梯度方向移动，就可以到达损失函数底部，从而使损失函数最小化。这种利用损失函数的梯度迭代地寻找局部最小值的过程就是梯度下降的过程。

根据在进行迭代时使用的样本量，将梯度下降算法分为以下三类：

实际中使用较多的是小批量的梯度下降算法，在tf.keras中通过以下方法实现：

tf.keras.optimizers.SGD(
    learning_rate=0.01, momentum=0.0, nesterov=False, name='SGD', **kwargs
)

例子：

# 导入相应的工具包
import tensorflow as tf
# 实例化优化方法：SGD 
opt = tf.keras.optimizers.SGD(learning_rate=0.1)
# 定义要调整的参数
var = tf.Variable(1.0)
# 定义损失函数：无参但有返回值
loss = lambda: (var ** 2)/2.0  
# 计算梯度，并对参数进行更新，步长为 `- learning_rate * grad`
opt.minimize(loss, [var]).numpy()
# 展示参数更新结果
var.numpy()

更新结果为：