关于stop_gradient

paddle有个参数stop_gradient。

  • 结论

    • 对于op里面的参数,使用stop_gradient只影响这个参数本身,即只有这个参数不更新。
    • 对于op的输出,使用stop_gradient,则该点之前的所有层均不再更新。
  • 解释基本想法

    • 简单的opout = op(x),一般op里面的参数不会依赖于输入x,out对x的梯度不会用到out对参数的梯度。所以参数设置stop_gradient,并不影响梯度传播。
    • 似乎代码实际实现时候,先计算out对x,out对所有参数的梯度。即使存在诡异的情况,out对x的梯度依赖于out对参数的梯度,也没问题,因为是先算出所有梯度,所以仍然可以算出来out对x的梯度。前面层的梯度只跟out对x的梯度有关系(已经算出来了,而且是一个数值),所以参数设置stop_gradient,并不影响梯度传播。
    • 对于op的输出,使用stop_gradient。由于这个节点已经没有梯度了,即loss对out没有梯度了,所以再往之前算梯度也就没有意义了。
  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值