pytorch复习笔记--loss.backward()、optimizer.step()和optimizer.zero_grad()的用法

晓晓纳兰容若

已于 2022-11-30 20:28:13 修改

阅读量8.2k

点赞数 24

分类专栏： Pytorch学习笔记文章标签：反向传播梯度优化器损失函数 PyTorch

于 2022-11-30 20:13:32 首次发布

本文链接：https://blog.csdn.net/weixin_43863869/article/details/128120719

版权

Pytorch学习笔记专栏收录该内容

27 篇文章 7 订阅

订阅专栏

1--loss.backward()的用法

2--optimizer.step()的用法

3--optimizer.zero_grad()的用法

4--举例说明

5--参考

1--loss.backward()的用法

作用：将损失loss向输入测进行反向传播；这一步会计算所有变量x的梯度值 $\small \frac{d}{dx}loss$ ，并将其累积为 $\small x*grad$ 进行备用，即 $\small x*grad=(x*grad)_{pre}+\frac{d}{dx}loss$ ,公式中的 $\small (x*grad)_{pre}$ 指的是上一个epoch累积的梯度。

2--optimizer.step()的用法

作用：利用优化器对参数x进行更新，以随机梯度下降SGD为例，更新的公式为： $\small x = x - lr*(x*grad)$ ，lr 表示学习率 learning rate，减号表示沿着梯度的反方向进行更新；

3--optimizer.zero_grad()的用法

作用：清除优化器关于所有参数x的累计梯度值 $\small x*grad$ ，一般在loss.backward()前使用，即清除 $\small (x*grad)_{pre}$ 。

4--举例说明

① 展示 loss.backward() 和 optimizer.step() 的用法：

import torch

# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)

# 模拟网络运算，计算输出值y
y = 100*x

# 定义损失
loss = y.sum() 

print("x:", x)
print("y:", y)
print("loss:", loss)


print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)

# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001

print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)

② 展示不使用 optimizer.zero_grad() 的梯度：

import torch

# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)

# 模拟网络运算，计算输出值y
y = 100*x

# 定义损失
loss = y.sum() 

print("x:", x)
print("y:", y)
print("loss:", loss)


print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)

# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001

print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)

# 再进行一次网络运算
y = 100*x

# 定义损失
loss = y.sum()

# 不进行optimizer.zero_grad()
loss.backward()  # 计算梯度grad, 更新 x*grad 
print("不进行optimizer.zero_grad(), 参数的梯度为: ", x.grad)

③ 展示使用 optimizer.zero_grad() 的梯度：

import torch

# 初始化参数值x
x = torch.tensor([1., 2.], requires_grad=True)

# 模拟网络运算，计算输出值y
y = 100*x

# 定义损失
loss = y.sum() 

print("x:", x)
print("y:", y)
print("loss:", loss)


print("反向传播前, 参数的梯度为: ", x.grad)
# 进行反向传播
loss.backward()  # 计算梯度grad, 更新 x*grad    
print("反向传播后, 参数的梯度为: ", x.grad)

# 定义优化器
optim = torch.optim.SGD([x], lr = 0.001) # SGD, lr = 0.001

print("更新参数前, x为: ", x) 
optim.step()  # 更新x
print("更新参数后, x为: ", x)

# 再进行一次网络运算
y = 100*x

# 定义损失
loss = y.sum()

# 进行optimizer.zero_grad()
optim.zero_grad()
loss.backward()  # 计算梯度grad, 更新 x*grad 
print("进行optimizer.zero_grad(), 参数的梯度为: ", x.grad)