梯度爆炸,进行梯度修建(Gradient Clipping)
for循环用来观察梯度状态,是否发生爆炸(运行时可以注释掉),然后利用torch.nn.untils.clip_grad_norm_(p,10)使梯度保持在10之下
梯度弥散
LSTM
梯度爆炸,进行梯度修建(Gradient Clipping)
for循环用来观察梯度状态,是否发生爆炸(运行时可以注释掉),然后利用torch.nn.untils.clip_grad_norm_(p,10)使梯度保持在10之下
梯度弥散
LSTM