Yolo v2 训练 NAN解决过程

最新推荐文章于 2024-08-05 11:09:30 发布

yj_isee

最新推荐文章于 2024-08-05 11:09:30 发布

阅读量1.6w

点赞数 2

分类专栏： Computer Vision

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yaoqi_isee/article/details/65449533

版权

Computer Vision 专栏收录该内容

32 篇文章 0 订阅

订阅专栏

主要参考https://zhuanlan.zhihu.com/p/25110930

问题描述

今天在用yolo训练自己的数据集的时候，一开始训练过程中的loss还很正常地在下降。结果到了几个个batch的地方突然就出现loss = nan的情况。其实到现在自己也没有发现到底是什么导致了nan，但是参考上面这篇文章，至少暂时解决了这个问题。

解决过程

1)首先检查了代码是不是对的。一般出现nan，第一反应是：会不会哪里出现了分母为0，或者log的真值为负数这样的情况。然后在自己修改过的源码里面检查了一遍，发现并没有出现这个问题。

2）然后参考上面这篇文章，检查了一下我的数据集有没有问题。首先图片自己看过是没有问题的，然后拿另外一个模型在这个数据集上跑，也没有问题。因此排除数据集出问题的可能。

3）最后担心是不是梯度在某一个batch的时候突然爆炸了。因此修改源码detector.c，训练的时候每一个batch都打印一下当前的loss。发现出现nan之前都会有一个batch的loss=inf。因为yolo的loss函数的定义就是均方差，因此，loss就等于梯度的平方。所以判断应该是某一个batch使得梯度突然增大。参考caffe的方法。设定一定的阈值，使得当梯度超过这个阈值的时候，直接设置为该阈值大小。暂时解决了nan的问题

关注

2
点赞
踩
6

收藏

觉得还不错? 一键收藏
5
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。