Pytorch反向传播前后梯度相同的问题

DarkKnight_2001

已于 2024-01-09 21:22:20 修改

阅读量378

点赞数 6

分类专栏：代码的一些注意点（公开）文章标签： pytorch 深度学习人工智能

于 2023-12-21 15:07:41 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_51500700/article/details/135130163

版权

代码的一些注意点（公开）专栏收录该内容

6 篇文章 0 订阅

订阅专栏

问题

Pytorch训练模型时由于需要冻结部分预训练模型的参数，所以想打印下需训练部分梯度是否有变化，但出现了反向传播前后梯度完全相同，但每次迭代的梯度不同的情况。按常理来说，在optimizer.zero_grad()后模型梯度应该清零，然后反向传播再计算梯度。

代码和解决方法

原代码：

''' 前向传播代码'''
if torch.cuda.is_available():
     opt.zero_grad()
     
     grad_before_training = [p.grad for p in model.parameters() if p.requires_grad]
     #print("grad_before_training:", grad_before_training)
     
     loss = torch.square((result["bit"] / frame_pixel_num - target_bitrate) / target_bitrate)[0]
     loss.backward()
     opt.step()

     grad_after_training = [p.grad for p in model.parameters() if p.requires_grad]
     #print("grad_after_training:", grad_after_training) 
     params_updated = False
     #print(torch.sum(grad_before_training[0]), torch.sum(grad_after_training[0]))
     for grad_before, grad_after in zip(grad_before_training, grad_after_training):
         #print(grad_before, grad_after)
         if torch.any(grad_before != grad_after):
             params_updated = True
     if params_updated:
         print("模型参数已更新")
     else:
         print("模型参数未更新")

打印出来结果一直是“模型参数未更新”，原因是grad_before_training与模型参数的梯度是指向同一块内存，loss.backward()后模型参数的梯度更新，grad_before_training也对应更新。
可以在反向传播前后分别打印模型参数的梯度，可以发现反向传播前是0，反向传播后都是新的梯度了。
所以其实这里模型的参数是正常更新的，只是判断更新的代码逻辑出了问题。

解决方法

这里需要创建梯度的副本给grad_before_training:

	grad_before_training = [p.grad.clone() for p in model.parameters() if p.requires_grad]

DarkKnight_2001

关注

6
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
Pytorch反向传播前后梯度相同的问题

在Pytorch模型训练由于需要冻结部分预训练模型的参数，所以想打印下需训练部分梯度是否有变化，但出现了反向传播前后梯度完全相同，但每次迭代的梯度不同的情况。按常理来说，在optimizer.zero_grad()后模型梯度应该清零，然后反向传播再计算梯度。
复制链接

扫一扫

专栏目录

DarkKnight_2001 CSDN认证博客专家 CSDN认证企业博客

码龄4年

14: 原创

125万+: 周排名

7万+: 总排名

7222: 访问

: 等级

239: 积分

71: 粉丝

98: 获赞

5: 评论

86: 收藏

私信

关注

热门文章

分类专栏

最新评论

x265源码修改实现帧级控制QP并打印bitcost、PSNR
CSDN-Ada助手: 恭喜您成功实现了x265源码的修改，实现了帧级控制QP并打印bitcost、PSNR，这是一项非常有挑战性的技术工作！希望您能继续保持创作的热情和耐心，不断探索和尝试新的技术方向。或许接下来您可以尝试结合深度学习算法来优化编码效率，或者尝试实现更高级的视频处理功能。期待您的下一篇作品！祝您越来越好！
RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn Loss无法反向传播
Zyaire1: 解决了问题，多谢多谢
访问结构体内变量.和-＞的区别
CSDN-Ada助手: 恭喜您写了第9篇博客！标题非常吸引人，我对访问结构体内变量的区别也很感兴趣。您的博客内容一定会对我有所帮助。不过，我觉得您可以进一步探讨结构体内变量的访问方式在不同情况下的使用场景，以便读者更好地理解它们的区别和适用性。期待您的下一篇博客！
Ubuntu安装x265流程
CSDN-Ada助手: 恭喜您写了第8篇博客！标题为“Ubuntu安装x265流程”，我对您的持续创作表示赞赏。您的博客内容非常实用，对于Ubuntu用户来说，安装x265无疑是一个重要的需求。接下来，我建议您可以考虑分享一些关于x265的优化技巧或者与其他视频编码软件的对比分析，这将进一步丰富您的博客内容。期待您的下一篇文章，继续加油！
Linux中 python导入上级目录的同级目录下的.py文件
CSDN-Ada助手: 恭喜你写了第四篇博客！标题看起来很有技术含量，我对Linux中导入上级目录的同级目录下的.py文件也一直感到困惑。通过你的博客，我学到了新的知识。不过，我个人认为在下一篇博客中，你可以进一步探讨如何处理在导入过程中可能出现的错误和异常情况，这样读者能够更好地理解和应用你所分享的内容。期待看到你的下一篇作品！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。