记录一下,今天在跑AGCRN网络的时候loss出现了nan,百思不得其解,把学习率降低到很低的(1e-8)都没有效果,查阅资料才发现,自己是在用每个样本168个数据点作为训练数据去预测,这个时间序列有些长,使用递归网络进行预测时,尽管时GRU类型的网络,也会容易出现梯度爆炸现象,减小训练数据时间点就解决问题了。
Loss为nan
最新推荐文章于 2024-11-07 20:46:18 发布
记录一下,今天在跑AGCRN网络的时候loss出现了nan,百思不得其解,把学习率降低到很低的(1e-8)都没有效果,查阅资料才发现,自己是在用每个样本168个数据点作为训练数据去预测,这个时间序列有些长,使用递归网络进行预测时,尽管时GRU类型的网络,也会容易出现梯度爆炸现象,减小训练数据时间点就解决问题了。