解决mmdetection训练过程loss为nan的问题

最新推荐文章于 2024-07-18 16:06:05 发布

诸神黄昏的幸存者

最新推荐文章于 2024-07-18 16:06:05 发布

阅读量5.7k

点赞数 14

分类专栏：目标检测 bug 文章标签：目标检测计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43818631/article/details/121798485

版权

本文介绍了如何处理在mmdetection训练过程中遇到的loss为nan的问题，包括检查数据标注、降低学习率、延长warm up时间、添加gradient clipping以及避免使用fp16训练等方法，提供了解决此类问题的实用建议。

摘要由CSDN通过智能技术生成

我之前遇到多次loss为nan，一次是由于数据标注出现问题，换不同的模型参数均出现此问题，因此需要仔细检查数据格式；有一次是换了个neck的结构，loss变为nan，后面通过将学习率调为原来的1/10（根据实际情况调整），就没有出现了；还有一次是注释掉fp16训练即可。下面参考了官方文档给出的解决方案以及自身经验，应该可以解决大部分问题。

检查数据的标注是否正常，长或宽为 0 的框可能会导致回归 loss 变为 nan，一些小尺寸（宽度或高度小于 1）的框在数据增强（例如，instaboost）后也会导致此问题。因此，可以检查标注并过滤掉那些特别小甚至面积为 0 的框，并关闭一些可能会导致 0 面积框出现数据增强。
降低学习率：由于某些原因，例如 batch size 大小的变化，导致当前学习率可能太大。您可以降低为可以稳定训练模型的值。
```
optimizer = dict(type='AdamW',
```

最低0.47元/天解锁文章

诸神黄昏的幸存者

关注

14
点赞
踩
52

收藏

觉得还不错? 一键收藏
3
评论
解决mmdetection训练过程loss为nan的问题

我之前遇到两次loss为nan，一次是由于数据标注出现问题，换不同的模型参数均出现此问题，因此需要仔细检查数据格式；另外一次是换了个neck的结构，loss变为nan，后面通过将学习率调为原来的1/10（根据实际情况调整），就没有出现了。下面为官方文档给出的解决方案，应该可以解决大部分问题。检查数据的标注是否正常，长或宽为 0 的框可能会导致回归 loss 变为 nan，一些小尺寸（宽度或高度小于 1）的框在数据增强（例如，instaboost）后也会导致此问题。因此，可以检查标注并过滤掉那些特别
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。