Warmup 原理与实现

最新推荐文章于 2024-07-29 09:33:03 发布

zzz_979

最新推荐文章于 2024-07-29 09:33:03 发布

阅读量1k

点赞数 3

文章标签：深度学习机器学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_48018951/article/details/130382183

版权

背景介绍

在神经网络训练过程中，学习率是一个很重要的超参数，学习率的选择对于网络的训练结果有较大的影响。

理论上，如果学习率设置过小，则会出现收敛速度过慢的情况；如果学习率设置过大，则容易错过局部最优；

实际上，如果学习率设置不合理，很容易出现模型不收敛的情况，

warmup就是一种学习率调整策略。

warmup提出 - constant warmup

warmup 策略由 ResNet 提出。

由于刚开始训练时模型的权重是随机初始化的，此时选择一个较大的学习率，可能会带来模型的不稳定。warmup就是在刚开始训练的时候先使用一个较小的学习率，训练一些epoches，等模型稳定时再修改为预先设置的学习率进行训练。

ResNet中使用一个110层的ResNet在cifar10上训练时，先用0.01的学习率训练直到训练误差低于80%（大概训练了400个iterations），然后使用0.1的学习率进行训练。如果一开始就用大的学习率，虽然最终会收敛，但之后测试准确率还是不会提高。

warmup 改进 - gradual warmup

18年Facebook又针对的warmup进行了改进，因为从一个很小的学习率一下变为比较大的学习率可能会导致训练误差突然增大。文章提出

最低0.47元/天解锁文章

关注

3
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
Warmup 原理与实现

在神经网络训练过程中，学习率是一个很重要的超参数，学习率的选择对于网络的训练结果有较大的影响。理论上，如果学习率设置过小，则会出现收敛速度过慢的情况；如果学习率设置过大，则容易错过局部最优；实际上，如果学习率设置不合理，很容易出现模型不收敛的情况，warmup就是一种学习率调整策略。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。