AdaX：一个比Adam更优秀，带”长期记忆“的优化器

夕小瑶

于 2020-06-23 11:04:42 发布

阅读量1.5k

点赞数 1

本文链接：https://blog.csdn.net/xixiaoyaoww/article/details/106935395

版权

关注小夕并星标，解锁自然语言处理
搜索、推荐与算法岗求职秘籍

文 | 苏剑林（追一科技，人称苏神）

美 | 人美心细小谨思密达

前言

这篇文章简单介绍一个叫做AdaX的优化器，来自《AdaX: Adaptive Gradient Descent with Exponential Long Term Memory》。介绍这个优化器的原因是它再次印证了之前在《硬核推导Google AdaFactor：一个省显存的宝藏优化器》一文中提到的一个结论，两篇文章可以对比着阅读。

Adam & AdaX

AdaX的更新格式是

其中的默认值是0.0001。对了，顺便附上自己的Keras实现：https://github.com/bojone/adax 作为比较，Adam的更新格式是

其中的默认值是0.999。

等价形式变换

可以看到，两者的第一个差别是AdaX去掉了动量的偏置校正（这一步），但这其实影响不大，AdaX最大的改动是在处，本来是滑动平均格式，而不像是滑动平均了，而且，似乎有指数爆炸的风险？

原论文称之为“with Exponential Long Term Memory”，就是指导致历史累积梯度的比重不会越来越小，反而会越来越大，这就是它的长期记忆性。

事实上，学习率校正用的是，所以有没有爆炸我们要观察的是。对于Adam，我们有

所以如果设，那么更新公式就是

基于同样的道理，如果设，那么AdaX的的更新公式也可以写成上式。

衰减策略比较

所以，从真正用来校正梯度的来看，不管是Adam还是AdaX，其更新公式都是滑动平均的格式，只不过对应的衰减系数不一样。

对于Adam来说，当时t = 0，，这时候就是，也就是用实时梯度来校正学习率，这时候校正力度最大；当时，，这时候是累积梯度平方与当前梯度平方的加权平均，由于，所以意味着当前梯度的权重不为0，这可能导致训练不稳定，因为训练后期梯度变小，训练本身趋于稳定，校正学习率的意义就不大了，因此学习率的校正力度应该变小，并且，学习率最好恒定为常数（这时候相当于退化为SGD），这就要求时，。

对于AdaX来说，当t = 0时，当，，满足上述的理想性质，因此，从这个角度来看，AdaX确实是Adam的一个改进。在AdaFactor中使用的则是，它也是从这个角度设计的。至于AdaX和AdaFactor的策略孰优孰劣，笔者认为就很难从理论上解释清楚了，估计只能靠实验。

就这样结束了

嗯，文章就到这儿结束了。开头就说了，本文只是简单介绍一下AdaX，因为它再次印证了之前的一个结论—— 应当满足条件“ ”，这也许会成为日后优化器改进的基本条件之一。

萌屋公告

喜欢本文的小伙伴们，记得扫描下方二维码关注并星标置顶，我才能来到你面前哦。

卖萌屋妹子们的原创技术干货有 ACL2020学术前沿系列、NLP综述系列、NLP论文清单系列、NLP基础入门系列、搜索与推荐系列、深度学习初/中/高级炼丹技巧、机器学习入门系列、算法岗offer收割系列等。订阅号后台回复【干货】即可打包带走。

卖萌屋里有众多顶会审稿人、大厂研究员、知乎大V和美丽小姐姐（划掉????‍♀️），我们成立了 自然语言处理 / 知识图谱 / 深度学习 / 机器学习 / 校招求职 高质量讨论群，订阅号后台回复【入群】即可上车。

夕小瑶的卖萌屋

关注&星标小夕，带你解锁AI秘籍

订阅号主页下方「撩一下」有惊喜哦

夕小瑶

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
AdaX：一个比Adam更优秀，带”长期记忆“的优化器

关注小夕并星标，解锁自然语言处理搜索、推荐与算法岗求职秘籍文 | 苏剑林（追一科技，人称苏神）美 | 人美心细小谨思密达前言这篇文章简单介绍一个叫做AdaX的优化器，来自《AdaX: A...
复制链接

扫一扫