YOLO调参后结果波动大的一个可能原因

yibulaxinwuhu

已于 2024-02-09 18:04:50 修改

阅读量735

点赞数 11

文章标签： YOLO pytorch 深度学习目标检测

于 2024-02-09 18:02:53 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yibulaxinwuhu/article/details/136087412

版权

先说结论，warmup_bias_lr是一个被忽略的重要超参数，尤其是在没有预训练权重的情况下，应该随着学习率的调整进行对应的缩放（采用正式训练时学习率的10倍为佳，在默认设置学习率0.01的SGD时和默认值0.1对应）。

使用Gold YOLOn进行训练，SGD1e-2的学习率运行良好，但是自己改进后的网络SGD有概率触发梯度爆炸，为了对比直接改用AdamW和1e-3的学习率，此时验证集结果出现大幅波动（如MAP从0.16跳变到1e-7量级再回到0.09之类的，P和R也有30%上下的波动）

先后尝试调节学习率，学习率的衰减方式和幅度，权重衰减和warmup轮数均效果有限。而且初始学习率下降到3e-4时进一步恶化，无法冲出局部最优导致结果极差。（其实这里已经有提醒了）

直到后面看到这个图，发现warmup对网络的收敛性能影响比想象中的大很多，于是细致地过了一遍超参数，发现原始网络的warmup_bias_lr为0.1，在使用AdamW的情况下这显然高到无法接受，于是果断改0.01，验证集波动的情况有了较大的缓解（如下图），至少是稳步上升的情况。学习率换3e-4的时候也可以正常收敛。

最后分析这种现象出现的原因，可能warmup时过大的偏置学习率给了AdamW巨大的惯性，因而导致warmup不仅没有稳定骨干网络的参数，反而起了副作用。采用1e-3这种偏大的学习率时，尚且能够部分抵消这巨大的惯性，因而表现出剧烈的震荡，当改用3e-4这种偏小的学习率时，甚至无法短时间内抵消这份惯性，随着学习率的衰减，自然而然便陷入了局部最优。

事实证明，对于Gold-YOLO这种带attention结构的网络，warmup的重要性可能高过之前几个全卷积的，如果其学习率不随着正常的学习率对应更改，可能会带来较大的副作用。

关注

11
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
YOLO调参后结果波动大的一个可能原因

采用1e-3这种偏大的学习率时，尚且能够部分抵消这巨大的惯性，因而表现出剧烈的震荡，当改用3e-4这种偏小的学习率时，甚至无法短时间内抵消这份惯性，随着学习率的衰减，自然而然便陷入了局部最优。直到后面看到这个图，发现warmup对网络的收敛性能影响比想象中的大很多，于是细致地过了一遍超参数，发现原始网络的warmup_bias_lr为0.1，在使用AdamW的情况下这显然高到无法接受，于是果断改0.01，验证集波动的情况有了较大的缓解（如下图），至少是稳步上升的情况。学习率换3e-4的时候也可以正常收敛。
复制链接

扫一扫

yibulaxinwuhu CSDN认证博客专家 CSDN认证企业博客

码龄2年

1: 原创

177万+: 周排名

26万+: 总排名

735: 访问

: 等级

22: 积分

5: 粉丝

11: 获赞

0: 评论

17: 收藏

私信

关注

热门文章

YOLO调参后结果波动大的一个可能原因 734

最新评论

YOLO调参后结果波动大的一个可能原因
CSDN-Ada助手: 恭喜你开始博客创作！标题很吸引人，引发了我对YOLO调参结果波动大的问题的兴趣。我很期待阅读你的博客内容，了解更多关于这个可能原因的细节。在接下来的创作中，建议你可以进一步深入研究该问题，并提供一些实用的解决方法或建议，以帮助读者更好地应对这一挑战。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。