机器学习系列手记（七）：优化算法之随机梯度下降法的加速

最新推荐文章于 2022-09-09 10:24:23 发布

岳小刀

最新推荐文章于 2022-09-09 10:24:23 发布

阅读量920

点赞数

分类专栏：机器学习系列手记文章标签：机器学习算法人工智能

本文链接：https://blog.csdn.net/yly_3026925713/article/details/105334665

版权

本文探讨了随机梯度下降法在深度学习中的局限性及其导致的训练问题，并介绍了几种加速策略，包括动量方法、AdaGrad、Adam以及Nesterov Accelerated Gradient等，以提升模型训练的效率和稳定性。

摘要由CSDN通过智能技术生成

优化算法

随机梯度下降法的加速

提到深度学习中的优化算法，人们通常会想到随机梯度下降。但随机梯度下降有时确是你算法中的一个坑。当你设计出一个深度神经网络时，如果只知道用随机梯度下降来训练模型，那么当你得到一个比较差的训练结果时，你可能会放弃在这个模型上继续投入精力。然而，造成训练效果差的真正原因可能并不是模型的问题，而是随机梯度下降法在优化过程中失效了。

1、随机梯度下降法实效的原因

      随机梯度下降好比蒙着眼睛下山，只能凭脚底踩石头的感觉判断当前位置的坡度，精确性大大降低，而批量梯度下降就好比正常下山。
      批量梯度下降法在全部训练集{ $x_i,y_i$ } $_{i=1}^{n}$ 上计算准确的梯度，即
$\sum_{i=1}^{n}▽_{\theta}f(\theta;x_i,y_i)+▽_{\theta} \phi(\theta)$
其中 $f(\theta;x_i,y_i)$ 表示在每个样本 $x_i,y_i)$ 的损失函数， $\phi(\theta)$ 为正则化项。
      随机梯度下降则采用单个样本来估计的当前梯度，即
$▽_{\theta}f(\theta;x_i,y_i)+▽_{\theta} \phi(\theta)$

最低0.47元/天解锁文章

岳小刀

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
机器学习系列手记（七）：优化算法之随机梯度下降法的加速

优化算法随机梯度下降法的加速      提到深度学习中的优化算法，人们通常会想到随机梯度下降。但随机梯度下降有时确是你算法中的一个坑。当你设计出一个深度神经网络谁，如果只知道用随机梯度下降来训练模型，那么当你得到一个比较差的训练结果时，你可能会放弃在这个模型上继续投入精力。然而，造成训练效果差的真正原因可能并不是模型的问题，而是随机梯...
复制链接

扫一扫