loss多次backward和loss加和后backward
1.loss1.backward(retain_graph=true); loss2.backward(); optmizer.step()2. loss1.backward(); optimizer.step(); loss2.backward(); optimizer.step()3.(loss1+loss2).backward(); optimizer.step()结论:1和3一样 2不一样原因:在backward的时候,2的计算方式更新了两次网络参数,导致bp时候梯度计算出现变化,而1,3在
复制链接