根据逐步排查,最后发现是第一个batch的反传梯度变成了nan,怀疑是梯度爆炸,但是自己的函数里面一开始已经考虑了当x=0时会发生梯度爆炸的问题(此时还感觉自己很牛逼),但结果还是梯度爆炸,就很烦躁,直到我发现了下面的帖子,跟我的情况几乎一模一样,自己以前真的没有考虑到这个细节,具体解决方案直接看下面的帖子就行:
遇到的大坑:第二个batch后,输出变成nan
最新推荐文章于 2023-08-27 10:43:56 发布
根据逐步排查,最后发现是第一个batch的反传梯度变成了nan,怀疑是梯度爆炸,但是自己的函数里面一开始已经考虑了当x=0时会发生梯度爆炸的问题(此时还感觉自己很牛逼),但结果还是梯度爆炸,就很烦躁,直到我发现了下面的帖子,跟我的情况几乎一模一样,自己以前真的没有考虑到这个细节,具体解决方案直接看下面的帖子就行: