关于stop_gradient

最新推荐文章于 2022-10-26 09:49:00 发布

Direwolf_0

最新推荐文章于 2022-10-26 09:49:00 发布

阅读量4.8k

点赞数 2

分类专栏： DL

本文链接：https://blog.csdn.net/weixin_43747587/article/details/88819368

版权

7 篇文章 0 订阅

订阅专栏

paddle有个参数stop_gradient。

结论
- 对于op里面的参数，使用stop_gradient只影响这个参数本身，即只有这个参数不更新。
- 对于op的输出，使用stop_gradient，则该点之前的所有层均不再更新。
解释基本想法
- 设简单的opout = op(x)，一般op里面的参数不会依赖于输入x，out对x的梯度不会用到out对参数的梯度。所以参数设置stop_gradient，并不影响梯度传播。
- 似乎代码实际实现时候，先计算out对x，out对所有参数的梯度。即使存在诡异的情况，out对x的梯度依赖于out对参数的梯度，也没问题，因为是先算出所有梯度，所以仍然可以算出来out对x的梯度。前面层的梯度只跟out对x的梯度有关系（已经算出来了，而且是一个数值），所以参数设置stop_gradient，并不影响梯度传播。
- 对于op的输出，使用stop_gradient。由于这个节点已经没有梯度了，即loss对out没有梯度了，所以再往之前算梯度也就没有意义了。

关注

专栏目录