自动求导机制

最新推荐文章于 2022-10-18 11:06:28 发布

zouxiaolv

最新推荐文章于 2022-10-18 11:06:28 发布

阅读量393

点赞数

分类专栏： pytorch 文章标签：自动求导机制

本文链接：https://blog.csdn.net/zouxiaolv/article/details/99564839

版权

pytorch 专栏收录该内容

97 篇文章 4 订阅

订阅专栏

自动求导机制

本说明将概述Autograd如何工作并记录操作。了解这些并不是绝对必要的，但我们建议您熟悉它，因为它将帮助您编写更高效，更简洁的程序，并可帮助您进行调试。

从后向中排除子图

每个变量都有两个标志：requires_grad和volatile。它们都允许从梯度计算中精细地排除子图，并可以提高效率。

`requires_grad`

如果有一个单一的输入操作需要梯度，它的输出也需要梯度。

相反，只有所有输入都不需要梯度，输出才不需要。如果其中所有的变量都不需要梯度进行，后向计算不会在子图中执行。

>>> x = Variable(torch.randn(5, 5))
>>> y = Variable(torch.randn(5, 5))
>>> z = Variable(torch.randn(5, 5), requires_grad=True)
>>> a = x + y
>>> a.requires_grad#如果其中所有的变量都不需要梯度进行，后向计算不会在子图中执行。
False
>>> b = a + z
>>> b.requires_grad#如果有一个单一的输入操作需要梯度，它的输出也需要梯度。
True

这个标志特别有用，当您想要冻结部分模型时，或者您事先知道不会使用某些参数的梯度。例如，如果要对预先训练的CNN进行优化，只要切换冻结模型中的requires_grad标志就足够了，直到计算到最后一层才会保存中间缓冲区，其中的仿射变换将使用需要梯度的权重并且网络的输出也将需要它们。

model = torchvision.models.resnet18(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
# Replace the last fully-connected layer
# Parameters of newly constructed modules have requires_grad=True by default
model.fc = nn.Linear(512, 100)

# Optimize only the classifier
optimizer = optim.SGD(model.fc.parameters(), lr=1e-2, momentum=0.9)