深度学习网络训练中出现loss函数为nan的原因

最新推荐文章于 2024-03-07 15:17:29 发布

小小川_

最新推荐文章于 2024-03-07 15:17:29 发布

阅读量4.2k

点赞数

分类专栏： DL-Learning ML-Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wzx479/article/details/89339422

版权

DL-Learning 同时被 2 个专栏收录

14 篇文章 3 订阅

订阅专栏

11 篇文章 0 订阅

订阅专栏

1. 学习率太大，步子迈的太大导致梯度爆炸等都是有可能的。

梯度消失或者爆炸的优化，请参考：https://blog.csdn.net/u013250416/article/details/81410693

2. 网络结构不合理，导致的Non

1. 增加或者减少网络的深度

2. 增加网络的宽度

3. 不当的损失函数

4. relu和softmax两层不要连着用，最好将relu改成tanh，也算一个技巧。

3. 数据处理的不合理，导致的Non

1. batch size 选择过小

2. 检查参数初始化

3. 数据本身，是否存在Nan,可以用numpy.any(numpy.isnan(x))检查一下input和target

4. 在训练的时候，整个网络随机初始化，很容易出现Nan，这时候需要把学习率调小，可以尝试0.1，0.01，0.001，直到不出现Nan为止，如果一直都有，那可能是网络实现问题。学习率和网络的层数一般成反比，层数越多，学习率通常要减小。有时候可以先用较小的学习率训练5000或以上次迭代，得到参数输出，手动kill掉训练，用前面的参数fine tune，这时候可以加大学习率，能更快收敛哦

最后还没有排除问题的话，TensorFlow有专门的内置调试器(tfdbg)来帮助调试此类问题
tensorflow.org/programmers_guide/debugger

关注

0
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
深度学习网络训练中出现loss函数为nan的原因

1. 学习率太大，步子迈的太大导致梯度爆炸等都是有可能的。梯度消失或者爆炸的优化，请参考：https://blog.csdn.net/u013250416/article/details/814106932. 网络结构不合理，导致的Non 1. 增加或者减少网络的深度 2. 增加网络的宽度 3.不当的损失函数 4.relu和so...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。