李宏毅2020ML——P8-P9 Optimization for Learning（最优化方法）

最新推荐文章于 2022-10-14 11:24:55 发布

小葵向前冲

最新推荐文章于 2022-10-14 11:24:55 发布

阅读量265

点赞数

分类专栏：李宏毅2020ML 文章标签：深度学习人工智能机器学习算法

本文链接：https://blog.csdn.net/weixin_44177594/article/details/114632748

版权

32 篇文章 0 订阅

订阅专栏

在这里插入图片描述

在这里插入图片描述
缺点：（正因为有这些缺点才让这么多大神发展出了后续的各种算法）

选择合适的learning rate比较困难 - 对所有的参数更新使用同样的learning
rate。对于稀疏数据或者特征，有时我们可能想更新快一些对于不经常出现的特征，对于常出现的特征更新慢一些，这时候SGD就不太能满足要求了
SGD容易收敛到局部最优，并且在某些情况下可能被困在鞍点

在这里插入图片描述

momentum是模拟物理里动量的概念，积累之前的动量来替代真正的梯度。
在这里插入图片描述

Adagrad就是将不同参数的learning rate分开考虑的一种算法(adagrad算法update到后面速度会越来越慢，当然这只是adaptive算法中最简单的一种)
在这里插入图片描述

在这里插入图片描述

Adam(Adaptive Moment Estimation)本质上是带有动量项的RMSprop，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率。Adam的优点主要在于经过偏置校正后，每一次迭代学习率都有个确定范围，使得参数比较平稳。
在这里插入图片描述

在这里插入图片描述
可以看出，Nadam对学习率有了更强的约束，同时对梯度的更新也有更直接的影响。一般而言，在想使用带动量的RMSprop，或者Adam的地方，大多可以使用Nadam取得更好的效果。

在这里插入图片描述

关注