补充：YOLO模型训练时loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡）

沉迷学习的拿铁

已于 2023-07-29 22:21:33 修改

阅读量4.1k

点赞数 10

文章标签： YOLO 深度学习 pytorch

于 2023-07-29 22:01:31 首次发布

本文链接：https://blog.csdn.net/weixin_45965449/article/details/132000397

版权

补充

1 参考1
2 补充
3 小结

1 参考1

在参考有头发的垃圾猿的《YOLO系列训练时出现loss出现nan值或者测试时P\R\map全部为0值的解决办法（GTX16xx系列显卡大坑）》后，发现问题不能得到实际的解决（可能是版本不一样导致代码不一样的问题），所以按照其思路，对有头发的垃圾猿文章进行补充说明。

2 补充

因为yolo各个系列中又分为多个版本，所以在上个作者的文章，指出来取消自动混合精度，但仅指出某个yolo系列的版本的更改，这里进行补充。
YOLO版本：YOLOV5系列第6版本，V6.0；V7.0也一样没去看

在这里插入图片描述
图1

因为调试后发现在经过model后，数据显示都为NAN，传入model前数据如图2所示，传入后数据变nan如图3所示：

原因可能是精度的变化导致经过model后数据被莫名其妙更改，引起某些指数计算，算得值为INF、梯度变化等情况，这里仅为猜测，没有研究，有兴趣的读者可以自己去看看。

在这里插入图片描述图2
图3

我的更改：
train.py文件中

原代码：
       # Forward
       with amp.autocast(enabled=cuda):
        	pred = model(imgs)  # forward
            loss, loss_items = /
            compute_loss(pred, targets.to(device))  
更改后的代码：
       # Forward
       # with amp.autocast(enabled=cuda):
       pred = model(imgs)  # forward
       loss, loss_items = compute_loss(pred, /
       				targets.to(device))