[GAN]训练过程中偶尔出现loss=NaN的解决方案

Vanessa Ni

已于 2022-03-28 17:55:17 修改

阅读量2.7k

点赞数 3

文章标签：深度学习人工智能 transformer

于 2022-03-27 22:12:19 首次发布

本文链接：https://blog.csdn.net/weixin_44145782/article/details/123782895

版权

事先声明，本方法属于一种偷懒方法。

之前在百度训练GatedConv时，用的V100，训到一段时间就NaN了，怀疑是代码设计的问题（比如Context attention机制，如果遇到无法匹配的情况loss就会NaN），不过当时因为在小组比赛，没仔细debug，就硬着头皮训下来了。（笨蛋方法一：从没NaN的时候resume训练）
最近模型在2080Ti上训的好好的，一放到3090上训就开始NaN了。GAN模型不好训啊！！具体如下，模型的loss图就像我的心电图，它NaN的同时我的心脏也停止了跳动。。
因为只是偶尔会存在这种问题，我就怀疑是我的数据有问题（因为从来都过不完整个数据集），不过debug也没debug出来，索性直接想着，遇见NaN我就不反向传播，不优化不就完了。于是出现了 躺平方法二：利用torch.isnan判断是否NaN，如果NaN了就不回传优化

# 原code
            final_loss = self.opt.MODEL.MPN.LOSS_COEFF * m_loss + self.opt.MODEL.RIN.LOSS_COEFF * g_loss
            final_loss.backward()
            self.optimizer_joint.step()

            final_loss = self.opt.MODEL.MPN.LOSS_COEFF * m_loss + self.opt.MODEL.RIN.LOSS_COEFF * g_loss
            if not torch.any(torch.isnan(final_loss)):
                final_loss.backward()
                self.optimizer_joint.step()