【mindspore】【stop_gradient】停止梯度是不是向下递归的

在文档中我看到有描述 mindspore.ops.stop_gradient,但是不清楚的是,这个API是不是向下截断梯度流的,例如我在模型最后计算 hidden_states 的时候加上一句 hidden_states = stop_gradient(hidden_states),那么它会截断整个模型的梯度计算吗?还是说只会截断最后一次 hidden_states 的计算。

    

具体而言可以通过一下简单的例子说明,如果我想要保持 EmbedLayer 可学习,而 AttentionLayer 不可学习,那么在构造 Net() 类的时候 stop_gradient 可以这么用么?会不会因为后层已经设置了stop_gradient ,它会禁止梯度向前传递,导致前层的EmbedLayer 实际也不可学习。

    

class EmbedLayer(nn.Cell):
    def __init__(self):
        pass

    def construct(self, x):
        pass


class AttentionLayer(nn.Cell):
    def __init__(self):
        pass

    def construct(self, x):
        pass


class Net(nn.Cell):
    def __init__(self):
        super(Net, self).__init__()
        self.attn = AttentionLayer()
        self.embed = EmbedLayer()

    def construct(self, x):
        out = self.embed(x)

        for i in range(16):
            out = self.attn(x)
            out = stop_gradient(out)
        return out

可以把对应层的requires_grad置为false就不会更新梯度

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值