神经网络学习技巧之梯度下降训练策略

最新推荐文章于 2022-10-18 18:42:00 发布

母狼disco

最新推荐文章于 2022-10-18 18:42:00 发布

阅读量551

点赞数

分类专栏：计算机视觉

本文链接：https://blog.csdn.net/weixin_45739211/article/details/103881522

版权

计算机视觉专栏收录该内容

9 篇文章 0 订阅

订阅专栏

梯度算法

随机梯度下降SGD（Stochastic Gradient Descent）
小批次梯度下降（Mini-batch Gradient Descent）

批次梯度下降

利用全部训练数据集计算损失函数的梯度来执行一次参数更新
• 更新较慢
• 不能在线更新模型
• 对凸的损失函数可保证收敛到全局最小值；对非凸的损失函数可收敛到局部最小值
在这里插入图片描述

随机梯度下降

对每一个训练样本点和标签执行参数更新
• 速度快，可在线学习
~~• 梯度精度差，目标函数下降过程出现大幅波动~~ 在这里插入图片描述

小批次梯度下降

每𝑛个训练样本点，进行一次参数更新
在这里插入图片描述
• Batch-GD和单样本SGD方法的折衷
• 减小了参数更新的方差，可平稳收敛
• 速度快，可利用优化的矩阵运算库来高效的计算梯度
• Batch大小根据问题来定。一般而言设为32、64、128或256即可。

存在问题

• 确定合适的学习率比较困难
– 小的学习率可保证收敛性，但收敛过程很慢
– 大的学习率会导致损失函数优化过程在最小值附近波动甚至发散
• SGD难以跳出局部极小值点和鞍点
– 神经网络对应的函数具有高度非线性
– 众多局部极小值点或鞍点
– 在极小值点或鞍点附近，目标函数值几乎不变，导致梯度近似为零

优化算法

• Momentum
• NAG
• Adagrad
• Adadelta
• RMSprop
• Adam

SGD+动量(Momentum)

动量（Momentum）可用来加速SGD
在这里插入图片描述
• 把过去时间步骤更新矢量的一部分（𝛾）加到当前更新矢量
• 速度的逐渐增加是作为梯度的移动平均
• 动量项𝛾 一般设为0.9。可理解为“摩擦”效果

Adam(Adaptive Moment Estimation)

Adam是一种为每一参数计算自适应学习率的方法
存储过去梯度平方的指数衰减平均值𝑣𝑡；保留了过去梯度的指数衰减平均值𝑚𝑡，类似动量。
在这里插入图片描述
𝑚𝑡 和𝑣𝑡分别是一阶矩(均值) 和梯度二阶矩(有偏方差) 的估计值
参数 𝛽1、𝛽2 ∈ [0, 1) 控制了这些移动均值（moving average）指数衰减率。
计算含有偏差校正（bias-corrected）的一阶矩和二阶矩的估计:
在这里插入图片描述
Adam更新规则: