问题
冻结部分预训练模型或模型部分参数导致loss的required_grad=False,则无法backward,报错RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn。
最近训练的一个模型是如下结构:
由于需要冻结Model_1的参数,仅训练Model_2,故正向计算到Model_1的时候都使用了with torch.no_grad():进行包裹,所有运算都是不计算梯度的,所以计算图到这里所有节点的required_grad都为False,故输出无法进行反向传播。
尝试过手动设置loss的requires_grad为True,但是Model_2的参数不会更新,没什么用。
解决方法
Model_2是需要训练的模型,故计算图在Model_2的所有节点的requires_grad属性都为True,所有衍生出的到loss的通路(中间结果)都需要计算梯度(requires_grad==True),故这里第二个Model_1不能用with torch.no_grad():进行包裹,否则梯度到这里就断掉了,且在加载模型的时候不要手动设置为requires_grad = False。
代码
optimizer = torch.optim.Adam(Model_2.parameters())
for i in :
optimizer.zero_grad()
with torch.no_grad(): # 这里包裹器可有可无,不影响梯度计算,加上可以减小显存开销
......
output1 = Model_1()
......
......
output2 = Model_2(output1,......)
......
output3 = Model_1(output2,......)
loss = loss_func(output3)
loss.backward()
optimizer.step()
小结
需要训练的模型或层直至loss的通路上的节点的requires_grad()必须为True,不能用with torch.no_grad():进行包裹,不要手动设置requires_grad为False,也不要model.eval()(可能关闭某些层的梯度计算,导致梯度算出来为0)只要在optimizer初始化的时候不包括固定参数的模型(或用filter去掉固定参数的网络层)即可。