今天尝试了一下Transformer,一直遇到当validate若干次之后爆显存,一开始以为参数过多,batch size过大,但是无济于事。谷歌了相关内容,发现原来是需要加
with torch.no_grad():
否则,积累的梯度应该是会一直放在显存里的...用了这一行就会停止自动反向计算梯度
emmmmm,记录下又一个踩过的坑。。。。
今天尝试了一下Transformer,一直遇到当validate若干次之后爆显存,一开始以为参数过多,batch size过大,但是无济于事。谷歌了相关内容,发现原来是需要加
with torch.no_grad():
否则,积累的梯度应该是会一直放在显存里的...用了这一行就会停止自动反向计算梯度
emmmmm,记录下又一个踩过的坑。。。。