Datawhale X 李宏毅苹果书 AI夏令营-深度学习基础-Task2_1

最新推荐文章于 2024-11-07 17:15:19 发布

少年小子

最新推荐文章于 2024-11-07 17:15:19 发布

阅读量230

点赞数 4

分类专栏：深度学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/weixin_45118180/article/details/141792448

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

# Datawhale AI 夏令营

夏令营手册：向李宏毅学深度学习

自适应学习率

临界点其实不一定是在训练一个网络的时候会遇到的最大的障碍。图 3.18 中的横坐标代表参数更新的次数，竖坐标表示损失。一般在训练一个网络的时候，损失原来很大，随着参数不断的更新，损失会越来越小，最后就卡住了，损失不再下降。当我们走到临界点的时候，意味着梯度非常小，但损失不再下降的时候，梯度并没有真的变得很小，图 3.19 给出了示例。图 3.19 中横轴是迭代次数，竖轴是梯度的范数（norm），即梯度这个向量的长度。随着迭代次数增多，虽然损失不再下降，但是梯度的范数并没有真的变得很小。

AdaGrad

AdaGrad（Adaptive Gradient）是典型的自适应学习率方法，其能够根据梯度大小自动调整学习率。AdaGrad 可以做到梯度比较大的时候，学习率就减小，梯度比较小的时候，学习率就放大。

RMSProp

同一个参数需要的学习率，也会随着时间而改变。在图 3.25 中的误差表面中，如果考虑横轴方向，绿色箭头处坡度比较陡峭，需要较小的学习率，但是走到红色箭头处，坡度变得平坦了起来，需要较大的学习率。因此同一个参数的同个方向，学习率也是需要动态调整的，于是就有了一个新的方法———RMSprop（Root Mean Squared propagation）。

Adam

最常用的优化的策略或者优化器（optimizer）是Adam（Adaptive moment estimation）[7]。Adam 可以看作 RMSprop 加上动量，其使用动量作为参数更新方向，并且能够自适应调整学习率。PyTorch 里面已经写好了 Adam 优化器，这个优化器里面有一些超参数需要人为决定，但是往往用 PyTorch 预设的参数就足够好了。