PyTorch学习笔记（12）--神经网络优化器

最新推荐文章于 2024-10-22 12:14:05 发布

我这一次

最新推荐文章于 2024-10-22 12:14:05 发布

阅读量1.3k

点赞数 2

分类专栏： PyTorch学习笔记文章标签： python pytorch 神经网络

本文链接：https://blog.csdn.net/weixin_43981621/article/details/119783944

版权

PyTorch学习笔记专栏收录该内容

18 篇文章 195 订阅

订阅专栏

本文介绍了神经网络优化器的作用，以PyTorch中的SGD优化器为例，展示了如何在CIFAR10数据集上构建神经网络并进行训练。通过多轮训练，观察损失函数值的下降趋势，从而理解优化器在模型训练过程中的应用。下篇将探讨现成网络模型的使用和修改。

摘要由CSDN通过智能技术生成

PyTorch学习笔记（12）–神经网络优化器

本博文是PyTorch的学习笔记，第12次内容记录，主要是在上一篇文章中提到的损失函数的基础上，研究神经网络优化器的使用方法。

1.优化器是什么

神经网络的学习的目的就是寻找合适的参数，使得损失函数的值尽可能小。解决这个问题的过程为称为最优化。解决这个问题使用的算法叫做优化器。在PyTorch官网中，将优化器放置在torch.optim中，并详细介绍了各种优化器的使用方法。

2.优化器的使用

2.1SGD优化器的使用

现以CIFAR10数据集为例，损失函数选取交叉熵函数，优化器选择SGD优化器，搭建神经网络，并计算其损失值，用优化器优化各个参数，使其朝梯度下降的方向调整，完整代码如下：

# coding ：UTF-8
# 文件功能： 代码实现神经网络优化器的使用
# 开发人员： dpp
# 开发时间： 2021/8/18 4:52 下午
# 文件名称： nn_optim.py
# 开发工具： PyCharm

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("CIFAR10", train=False,
                                       transform=torchvision.transforms.ToTensor(), download=True)

dataloader = DataLoader(dataset, batch_size=1)

class Test(nn.Module):
    def __init__(self):
        super(Test, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self, x):
        x = self.model1(x)
        return x

test = Test()
loss = nn.CrossEntropyLoss()
optim = torch.optim.SGD(test.parameters(), lr=0.01)
for data in dataloader:
    imgs, targets = data
    outputs = test(imgs)
    result_loss = loss(outputs, targets)
    optim.zero_grad()   # 将上一轮的每个参数的梯度清零，必须做的，否则梯度计算会出问题
    result_loss.backward()  # 进行反向传播 并计算每个参数的梯度值
    optim.step()    # 对每个参数进行调优
    print(result_loss)

上述代码中有关键的几行需要解释一下：
（1）optim = torch.optim.SGD(test.parameters(), lr=0.01)是在构建SGD优化器，其中的参数test.parameters()表示：待优化参数的iterable或者是定义了参数组的dict；lr=0.01表示学习率，一开始学习率一般设置为0.01。
（2）optim.zero_grad()是将上一轮计算的梯度清零，这一步是必须要做，否则上一轮的梯度值会影响下一轮的梯度值计算。
（3）result_loss.backward()是反向传播过程，与之前的forward()前向传播相反，在反向传播过程中会计算每个参数的梯度值。
（4） optim.step()：所有的optimizer都实现了step()方法，这个方法会更新所有的参数。
上述代码的输出结果如下所示：

tensor(2.3462, grad_fn=<NllLossBackward>)
tensor(2.2783, grad_fn=<NllLossBackward>)
tensor(2.1884, grad_fn=<NllLossBackward>)
tensor(2.3619, grad_fn=<NllLossBackward>)
tensor(2.2983, grad_fn=<NllLossBackward>)
tensor(2.2581, grad_fn=<NllLossBackward>)
...

观察上述完整的结果，发现损失函数值并没有明显的下降趋势，这是因为上述代码只进行了一次训练，因此想要损失函数值有明显的下降趋势，要进行多轮训练才行。

2.2使用SGD优化器进行多轮训练

设置epoch，让其执行20次，并将每一次完整的训练的损失函数值求和输出，完整代码如下：

# coding ：UTF-8
# 文件功能： 代码实现神经网络优化器的使用
# 开发人员： dpp
# 开发时间： 2021/8/18 4:52 下午
# 文件名称： nn_optim.py
# 开发工具： PyCharm

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("CIFAR10", train=False,
                                       transform=torchvision.transforms.ToTensor(), download=True)

dataloader = DataLoader(dataset, batch_size=1)

class Test(nn.Module):
    def __init__(self):
        super(Test, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self, x):
        x = self.model1(x)
        return x

test = Test()
loss = nn.CrossEntropyLoss()
optim = torch.optim.SGD(test.parameters(), lr=0.01)
for epoch in range(20):
    running_loss = 0.0
    for data in dataloader:
        imgs, targets = data
        outputs = test(imgs)
        result_loss = loss(outputs, targets)
        optim.zero_grad()   # 将上一轮的每个参数的梯度清零，必须做的，否则梯度计算会出问题
        result_loss.backward()  # 进行反向传播 并计算每个参数的梯度值
        optim.step()    # 对每个参数进行调优
        running_loss = running_loss + result_loss
    print(running_loss)

运行上述代码，得到如下结果，损失函数值呈现出下降的趋势。

tensor(18698.8438, grad_fn=<AddBackward0>)
tensor(16183.4062, grad_fn=<AddBackward0>)
tensor(15517.0400, grad_fn=<AddBackward0>)
...

3.学习小结

在本文重点讲解了优化器的使用，并用一个实际的例子训练了神经网络，用到了SGD优化器，在一下一篇博文，将介绍现有网络模型的使用和修改方法。

我这一次

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录