pytorch快速搭建神经网络--函数自动求导（automatic differentiation）

最新推荐文章于 2024-05-21 16:45:54 发布

Never Hanoi

最新推荐文章于 2024-05-21 16:45:54 发布

阅读量926

点赞数 10

分类专栏： NLP自然语言处理文章标签： pytorch 神经网络深度学习

本文链接：https://blog.csdn.net/weixin_43821216/article/details/125326485

版权

3 篇文章 0 订阅

订阅专栏

序言：神经网络本质上就是自动求导，寻找最小误差的过程。使用pytorch的好处就在于它能提供自动求导工具包，在这里我将总结如何使用工具包。

目录

1. 自动求导

1.1自动求类torch.tensor

1.2 实现求导

1.3 终止一个Tensor在计算图中的追踪回溯

1.3.1 .detach()求偏导数

1.3.2 with torch.no_grad()进行测试集测试

2.总结参考

1. 自动求导

在计算y对于x的梯度前，如何储存计算的梯度呢？
1. 将属性.requires_grad设置为True, 它将追踪在这个类上定义的所有操作.
2. 当代码要进行反向传播的时候, 直接调用.backward()就可以自动计算所有的梯度.
3. 梯度储存在这个Tensor上的所有梯度将被累加进属性.grad中.
注意：我们不会在每次对一个参数求导时都分配新的内存。因为我们经常会成千上万次地更新相同的参数，每次都分配新的内存可能很快就会将内存耗尽。默认是requires_grad_属性是FALSE

import torch
x=torch.arange(4.0)
x
x.requires_grad_(True)#开启储存梯度
x.grad #默认是none,调用backward（）累加梯度到grad属性
x

2. 计算y

y = 2 * torch.dot(x, x)
y

grad_fn=<MulBackward0>是计算对x做的操作

3.求导：y的导数是4x，验证是否正确

y.backward()
x.grad
x.grad == 4 * x

高数小课堂开课了
- 例如，假设y是作为x的函数计算的，而z则是作为y和x的函数计算的。想象一下，我们想计算z关于x的梯度，但由于某种原因，我们希望将y视为一个常数，并且只考虑到x在y被计算后发挥的作用。在这里，我们可以分离y来返回一个新变量u，该变量与y具有相同的值，但丢弃计算图中如何计算y的任何信息。换句话说，梯度不会向后流经u到x。
- 那么就是如何计算z=u*x关于x的偏导数.
- 求导结果z=u,即z=x^2

x.grad.zero_()#将之前梯度计算清零
y = x * x
u = y.detach()#剔除计算图
z = u * x

z.sum().backward()
x.grad == u

总结注意：

执行.detach()就可以将该Tensor从计算图中撤下, 在未来的回溯计算中也不会再计算该Tensor。
z.sum().backward()什么要用sum() ,去看了源码才知道只有对标量输出它才会计算梯度，也就是说如果是个矩阵要先转化为标量才可以使用。为什么要这么设计呢？这里其实是为了服务深度学习计算批量每个样本的偏导数之和。

with torch.no_grad():
    print((x ** 2).requires_grad_)

采用代码块的方式with torch.no_grad():, 这种方式非常适用于对模型进行预测的时候, 因为预测阶段不再需要对梯度进行计算.

with torch.no_grad():
    print((x ** 2).requires_grad_)

实现求导
- torch.ones(n, n, requires_grad=True)
- x.requires_grad_(True)
- y.backward()
- x.grad
终止对计算图的回溯
- .detach()
- with torch.no_grad():

关注