RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn Loss无法反向传播

问题

冻结部分预训练模型或模型部分参数导致loss的required_grad=False,则无法backward,报错RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn。
最近训练的一个模型是如下结构:
在这里插入图片描述
由于需要冻结Model_1的参数,仅训练Model_2,故正向计算到Model_1的时候都使用了with torch.no_grad():进行包裹,所有运算都是不计算梯度的,所以计算图到这里所有节点的required_grad都为False,故输出无法进行反向传播。
尝试过手动设置loss的requires_grad为True,但是Model_2的参数不会更新,没什么用。

解决方法

Model_2是需要训练的模型,故计算图在Model_2的所有节点的requires_grad属性都为True,所有衍生出的到loss的通路(中间结果)都需要计算梯度(requires_grad==True),故这里第二个Model_1不能用with torch.no_grad():进行包裹,否则梯度到这里就断掉了,且在加载模型的时候不要手动设置为requires_grad = False。

代码

optimizer = torch.optim.Adam(Model_2.parameters())
for i in :
	optimizer.zero_grad()
	with torch.no_grad(): # 这里包裹器可有可无,不影响梯度计算,加上可以减小显存开销
			......
			output1 = Model_1()
			......
	......
	output2 = Model_2(output1,......)
	......
	output3 = Model_1(output2,......)
	loss = loss_func(output3)
	loss.backward()
	optimizer.step()

小结

需要训练的模型或层直至loss的通路上的节点的requires_grad()必须为True,不能用with torch.no_grad():进行包裹,不要手动设置requires_grad为False,也不要model.eval()(可能关闭某些层的梯度计算,导致梯度算出来为0)只要在optimizer初始化的时候不包括固定参数的模型(或用filter去掉固定参数的网络层)即可。

  • 11
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值