PyTorch-2 Autograd: 自动微分

原文出自 http://studyai.com/pytorch-1.4/beginner/blitz/autograd_tutorial.html

在PyTorch的所有神经网络中,核心是 autograd 包。让我们先简单介绍一下, 然后我们将开始训练我们的第一个神经网络。

autograd package 为张量上的所有操作提供自动微分(automatic differentiation)。 它是一个按运行定义的框架(define-by-run framework), 这意味着您的后端(backprop)由您的代码运行方式来定义,并且每个迭代都可能是不同的。

让我们用更简单的术语来看这一点,并举几个例子。
张量(Tensor)

torch.Tensor 是此package的核心类。 如果你将它的属性 .requires_grad 设置为 True, 它就开始跟踪在它上面的所有运算操作。当你完成计算时你可以调用 .backward() , 这会使得所有的梯度都被自动计算出来。对于这个tensor的梯度将会被累加到 .grad 属性中去。

如果想要阻止一个tensor不去跟踪历史(tracking history), 你可以调用 .detach() 方法 把它从计算历史中分离出来, 并且会阻止进一步的计算被跟踪。

若要防止跟踪历史记录(并使用内存),还可以把代码块封装在with语句 with torch.no_grad(): 中。 这在评估模型时特别有用,因为模型可能具有可训练的参数(requires_grad=True)。但是在评估模型的 时候不需要计算梯度,而且我们不想把模型的这些可训练参数设置为 requires_grad=False ,那么封装在 with语句 with torch.no_grad(): 中是很赞的。

还有一个类对于实现自动微分至关重要,那就是— Function 。

Tensor 和 Function 是内部相互联系的,并建立了一个无环图(acyclic graph),它编码了一个完整的计算历史。 每个tensor都有一个 .grad_fn 属性,它引用了创建了 Tensor 的 Function 。 (除了由用户创建的 Tensors -它们的 grad_fn is None)。

如果要计算导数(derivatives),可以在 Tensor 上调用 .backward() 。 如果 Tensor 是一个标量(scalar) (i.e. 它里面只持有一个元素的数据), 那么你不需要为 backward() 方法传递任何参数。然而,如果 Tensor 有更多的元素,那么 你需要指定一个 gradient 参数,其必须是一个shape相匹配的 tensor 。

import torch

创建一个 tensor 并设置 requires_grad=True 来跟踪这个tensor上的计算

x = torch.ones(2, 2, requires_grad=True)
print(x)

对 tensor 做运算:

y = x + 2
print(y)

y 作为加法运算的结果被创建了出来, 因此它有一个 grad_fn.

print(y.grad_fn)

在张量 y 上做更多运算操作

z = y * y * 3
out = z.mean()

print(z, out)

.requires_grad_( … ) 可以原位(in-place)修改一个已经存在的 Tensor 的 requires_grad 标志位。 如果没有给定, 输入的标志位默认是 False 。

a = torch.randn(2, 2)
a = ((a * 3) / (a - 1))
print(a.requires_grad)
a.requires_grad_(True)
print(a.requires_grad)
b = (a * a).sum()
print(b.grad_fn)
print(b.requires_grad)

梯度(Gradient)

现在我们开始反向传播啦 因为 out 包含一个单个的标量, out.backward() 是等价于 out.backward(torch.tensor(1.)) 的。

out.backward()

输出梯度 d(out)/dx

print(x.grad)

你应该得到了一个 4.5 的2x2矩阵。 我们把 out 称为 Tensor “o
” 。 我们有这样一个式子成立 o=14∑izi, zi=3(xi+2)2 和 zi∣∣xi=1=27. 因此, ∂o∂xi=32(xi+2), 因此 ∂o∂xi∣∣xi=1=92=4.5

.

数学上, 如果你有一个向量值函数(vector valued function) y⃗ =f(x⃗ )
, 那么 y⃗ 相对于 x⃗

的梯度 是一个雅克比矩阵(Jacobian matrix) :
J=⎛⎝⎜⎜⎜⎜∂y1∂x1⋮∂y1∂xn⋯⋱⋯∂ym∂x1⋮∂ym∂xn⎞⎠⎟⎟⎟⎟

广义上说, torch.autograd 是一个用来计算雅克比向量乘积(Jacobian-vector product)的引擎。 这就是说, 给定任意的向量 v=(v1v2⋯vm)T
, 计算乘积 J⋅v 。 如果 v 恰好是一个标量函数 l=g(y⃗ ) 的梯度, 即, v=(∂l∂y1⋯∂l∂ym)T, 那么根据链式法则, 雅克比向量乘积 就是 l 相对于 x⃗

的梯度 :
J⋅v=⎛⎝⎜⎜⎜⎜∂y1∂x1⋮∂y1∂xn⋯⋱⋯∂ym∂x1⋮∂ym∂xn⎞⎠⎟⎟⎟⎟⎛⎝⎜⎜⎜⎜∂l∂y1⋮∂l∂ym⎞⎠⎟⎟⎟⎟=⎛⎝⎜⎜⎜∂l∂x1⋮∂l∂xn⎞⎠⎟⎟⎟

雅克比向量乘积的这个特点使得 将外部梯度输入到一个具有非标量输出的模型中去 变得非常方便。

现在呢 我就来看看 雅克比向量乘积(Jacobian-vector product) 的一个例子:

x = torch.randn(3, requires_grad=True)

y = x * 2
while y.data.norm() < 1000:
y = y * 2

print(y)

现在 y 不再是一个标量啦。 torch.autograd 不能直接计算出整个雅可比矩阵, 但如果我们只想要雅可比向量积(Jacobian-vector product), 只需要简单的传递一个向量到函数 backward 的参数中去:

v = torch.tensor([0.1, 1.0, 0.0001], dtype=torch.float)
y.backward(v)

print(x.grad)

您还可以通过将代码块包装在下面的 with torch.no_grad() 代码块中, 从而停止使用autograd来跟踪状态为 .requires_grad=True 的 tensors 上的历史记录:

print(x.requires_grad)
print((x ** 2).requires_grad)

with torch.no_grad():
print((x ** 2).requires_grad)

后续阅读:

autograd 和 Function 的文档在 https://pytorch.org/docs/autograd

Total running time of the script: ( 0 minutes 0.000 seconds)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值