【原创】torch.autograd.backward()函数解读

最新推荐文章于 2025-02-20 16:52:08 发布

原创最新推荐文章于 2025-02-20 16:52:08 发布 · 2k 阅读

7 ·

CC 4.0 BY-SA版权

文章标签：

#python

python基础知识同时被 2 个专栏收录

11 篇文章

订阅专栏

program

9 篇文章

订阅专栏

本文深入解析PyTorch中torch.autograd.backward()函数的使用方法与特性，包括源码定义、程序示例和自我总结，帮助读者理解如何通过该函数计算变量梯度。

torch.autograd.backward()函数解读

参考内容：

Automatic differentiation package - torch.autograd
本文的目的是剖析backward()定义及使用方法。

1. torch.autograd.backward()的源码定义

作为计算向量或矩阵梯度的接口，torch.autograd.backward()在pytorch中的官方源码定义如下：

# torch.autograd提供了类和函数用来对任意标量函数进行求导。要想使用自动求导，只需要对已有的代码进行微小的改变。只需要将所有的tensor包含进Variable对象中即可。
torch.autograd.backward(variables, grad_variables, retain_variables=False)

Computes the sum of gradients of given variables w.r.t. graph leaves.给定图的叶子节点variables, 计算图中变量的梯度和。计算图可以通过链式法则(chain rule)求导。如果variables中的任何一个variable是非标量(non-scalar)的，且requires_grad=True。那么此函数需要指定grad_variables，它的长度应该和variables的长度匹配，里面保存了相关variable的梯度(对于不需要gradient tensor的variable，None是可取的)。
此函数累积leaf variables计算的梯度。你可能需要在调用此函数之前将leaf variable的梯度置零。

参数说明:
variables (variable 列表) – 被求微分的叶子节点，即 ys 。
grad_variables (Tensor 列表) – 对应variable的梯度。仅当variable不是标量且需要求梯度的时候使用。
retain_variables (bool) – True,计算梯度时所需要的buffer在计算完梯度后不会被释放。如果想对一个子图多次求微分的话，需要设置为True。

2. torch.autograd.backward()一般程序示例

求 $y=2x^Tx$ 中y对x的梯度：

x.grad.zero_() #梯度初始化，防止梯度累计
x = np.arange(4.0, requires_grad = True) #x需要求梯度
y = 2 * torch.dot(x,x) # $y=2x^Tx$
y.sum.backward() # 对矢量y先求和再回溯每个叶子结点求梯度
x.grad() #y对x的梯度

或

x.grad.zero_() #梯度初始化，防止梯度累计
x = np.arange(4.0, requires_grad = True) #x需要求梯度
y = 2 * torch.dot(x,x) 
y.backward(torch.ones_like(y)) # 对向量y求和就等价于y点乘维度相同的全1矩阵
x.grad() #生成并存储梯度变量(y对x的梯度)

可验证梯度正确与否：

x.grad = 4 * x

tensor([True, True, True, True])

3. 自我总结

torch.autograd.backward()函数特性如下：

torch.autograd.backward()用于神经网络的最后一层输出——loss function上By default, pytorch expects backward() to be called for the last output of the network - the loss function.；
torch.autograd.backward()只能用于标量，若计算向量或矩阵的梯度，须将向量或矩阵使用sum()函数转化成标量再求梯度；
sum()或ones()的方式并不会影响梯度计算结果，因为调用backward()后会根据链式法则(chain rule)自动计算并返回要求梯度的向量或矩阵的所有叶子节点的梯度值。