mxnet：mx.sym.BlockGrad理解

最新推荐文章于 2021-02-12 20:41:32 发布

zxbinggo

最新推荐文章于 2021-02-12 20:41:32 发布

阅读量3.8k

点赞数 2

分类专栏：深度学习文章标签： mxnet api

本文链接：https://blog.csdn.net/zc199329/article/details/82178711

版权

深度学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

解释：

我们知道现在深度学习的框架是计算图，由节点和路径组成。在前向和反向的时候都是通过图路径传递的，那么这个函数是用在反向传播的时候，字面意思就是阻塞梯度传播。

举例：

输入两个点，输出一个点，如下图所示：

正常反向传播

公式就是：y=3*a+4*b

在正常的反向传播的时候，a的偏导就是3，b的偏导为4（假设都是标量的情况下）。

代码测试：

 import mxnet as mx
 import numpy as np 
 v1=np.array([[1,2]])
 v2=np.array([[0,1]])
 a=mx.sym.Variable('a')
 b=mx.sym.Variable('b')
 b_stop_grad=4*b
 a_stop_grad=3*a
 loss=mx.sym.MakeLoss(b_stop_grad+a_stop)
 executor=loss.simple_bind(ctx=mx.cpu(),a=(1,2),b=(1,2))
 executor.forward(is_train=True,a=v1,b=v2)
 executor.backward()
 print(executor.grad_arrays)

结果输出：

2.阻塞传播

我们有时候需要阻塞一个op（操作）的反向，那么就需要利用BlockGrad函数。

例如，我们阻塞上图中的v4节点，简单来说就是反向传播的时候，y->v5->v4->input此路不通了，也就没有相应的梯度值了。

那么此时的结果应该是：

a的偏导为3，b的偏导为0。

代码测试：

    v1=np.array([[1,2]])
    v2=np.array([[0,1]])
    a=mx.sym.Variable('a')
    b=mx.sym.Variable('b')
    b_stop_grad=4*b
    b_stop_grad=mx.sym.BlockGrad(b_stop_grad)
    a_stop=3*a
    loss=mx.sym.MakeLoss(b_stop_grad+a_stop)
    executor=loss.simple_bind(ctx=mx.cpu(),a=(1,2),b=(1,2))
    executor.forward(is_train=True,a=v1,b=v2)
    executor.backward()
    print(executor.grad_arrays)

结果：