PyTorch学习笔记（十二）——优化器

忧郁小薯条_

已于 2023-05-16 15:37:29 修改

阅读量282

点赞数

文章标签： pytorch

于 2023-05-01 17:13:56 首次发布

本文链接：https://blog.csdn.net/weixin_45827876/article/details/130457221

版权

pytorch入门专栏收录该内容

17 篇文章 3 订阅

订阅专栏

文章讲述了在深度学习中，优化器如何根据损失函数的梯度反向传播来调整模型参数，以降低整体误差。以PyTorch为例，演示了SGD和Adam优化器的使用，以及训练过程中的步骤，包括损失计算、反向传播和参数更新。并给出了一个简单的CNN模型训练例子。

摘要由CSDN通过智能技术生成

1 关于优化器

当使用损失函数时，可以调用损失函数的 backward，得到反向传播，反向传播可以求出每个需要调节的参数对应的梯度，有了梯度就可以利用优化器，优化器根据梯度对参数进行调整，以达到整体误差降低的目的。

优化器算法：

不同算法前两个参数：params、lr 都是一致的，后面的参数不同

学习速率不能太大（太大模型训练不稳定），也不能太小（太小模型训练慢），一般建议先采用较大学习速率，后采用较小学习速率

2 优化器的使用

1、优化器的构造

# Example：
# SGD为构造优化器的算法，Stochastic Gradient Descent 随机梯度下降
optimizer = optim.SGD(model.parameters(), lr=0.01, momentum=0.9)  #模型参数、学习速率、特定优化器算法中需要设定的参数
optimizer = optim.Adam([var1, var2], lr=0.0001)

2、调用优化器的step算法

for input, target in dataset:
    optimizer.zero_grad() #把上一步训练的每个参数的梯度清零
    output = model(input)
    loss = loss_fn(output, target)  # 输出跟真实的target计算loss
    loss.backward() #调用反向传播得到每个要更新参数的梯度
    optimizer.step() #每个参数根据上一步得到的梯度进行优化

3 SGD为例

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential, CrossEntropyLoss
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("./datasets",train=False,transform=torchvision.transforms.ToTensor(),download=True)
dataloader = DataLoader(dataset,batch_size=1)

class myNN(nn.Module):
    def __init__(self):
        super(myNN, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3,out_channels=32,kernel_size=5,stride=1,padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, stride=1, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, stride=1, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self,x):
        x = self.model1(x)
        return x

loss = CrossEntropyLoss()
mynn = myNN()
optim = torch.optim.SGD(mynn.parameters(),lr=0.01)

for epoch in range(20):
    running_loss = 0.0
    for data in dataloader:
        imgs,targets = data
        outputs = mynn(imgs)
        result_loss = loss(outputs,targets)
        optim.zero_grad() # 把网络模型中每一个可以调节的参数对应梯度设置为0
        result_loss.backward()
        optim.step() # 对每个参数进行调优
        # print(result_loss)
        running_loss = running_loss + result_loss
    print(running_loss)

optim.zero_grad() 是让grad清零
optim.step() 会通过grad更新data
在 data 循环外又套一层 epoch 循环，一次 data 循环相当于对数据训练一次，加了 epoch 循环相当于对数据训练 20 次（实际过程中模型在整个数据集上的训练次数（即最外层的循环）都是成百上千/万的，本例仅以 20 次为例）
优化器对模型参数不断进行优化，每一轮的 loss 在不断减小