PyTorch学习笔记(12)--神经网络优化器

本文介绍了神经网络优化器的作用,以PyTorch中的SGD优化器为例,展示了如何在CIFAR10数据集上构建神经网络并进行训练。通过多轮训练,观察损失函数值的下降趋势,从而理解优化器在模型训练过程中的应用。下篇将探讨现成网络模型的使用和修改。
摘要由CSDN通过智能技术生成

PyTorch学习笔记(12)–神经网络优化器

    本博文是PyTorch的学习笔记,第12次内容记录,主要是在上一篇文章中提到的损失函数的基础上,研究神经网络优化器的使用方法。

1.优化器是什么

    神经网络的学习的目的就是寻找合适的参数,使得损失函数的值尽可能小。解决这个问题的过程为称为最优化。解决这个问题使用的算法叫做优化器。在PyTorch官网中,将优化器放置在torch.optim中,并详细介绍了各种优化器的使用方法。

2.优化器的使用

2.1SGD优化器的使用

    现以CIFAR10数据集为例,损失函数选取交叉熵函数,优化器选择SGD优化器,搭建神经网络,并计算其损失值,用优化器优化各个参数,使其朝梯度下降的方向调整,完整代码如下:

# coding :UTF-8
# 文件功能: 代码实现神经网络优化器的使用
# 开发人员: dpp
# 开发时间: 2021/8/18 4:52 下午
# 文件名称: nn_optim.py
# 开发工具: PyCharm

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("CIFAR10", train=False,
                                       transform=torchvision.transforms.ToTensor(), download=True)

dataloader = DataLoader(dataset, batch_size=1)

class Test(nn.Module):
    def __init__(self):
        super(Test, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self, x):
        x = self.model1(x)
        return x

test = Test()
loss = nn.CrossEntropyLoss()
optim = torch.optim.SGD(test.parameters(), lr=0.01)
for data in dataloader:
    imgs, targets = data
    outputs = test(imgs)
    result_loss = loss(outputs, targets)
    optim.zero_grad()   # 将上一轮的每个参数的梯度清零,必须做的,否则梯度计算会出问题
    result_loss.backward()  # 进行反向传播 并计算每个参数的梯度值
    optim.step()    # 对每个参数进行调优
    print(result_loss)

    上述代码中有关键的几行需要解释一下:
(1)optim = torch.optim.SGD(test.parameters(), lr=0.01)是在构建SGD优化器,其中的参数test.parameters()表示:待优化参数的iterable或者是定义了参数组的dict;lr=0.01表示学习率,一开始学习率一般设置为0.01。
(2)optim.zero_grad()是将上一轮计算的梯度清零,这一步是必须要做,否则上一轮的梯度值会影响下一轮的梯度值计算。
(3)result_loss.backward()是反向传播过程,与之前的forward()前向传播相反,在反向传播过程中会计算每个参数的梯度值。
(4) optim.step():所有的optimizer都实现了step()方法,这个方法会更新所有的参数。
    上述代码的输出结果如下所示:

tensor(2.3462, grad_fn=<NllLossBackward>)
tensor(2.2783, grad_fn=<NllLossBackward>)
tensor(2.1884, grad_fn=<NllLossBackward>)
tensor(2.3619, grad_fn=<NllLossBackward>)
tensor(2.2983, grad_fn=<NllLossBackward>)
tensor(2.2581, grad_fn=<NllLossBackward>)
...

    观察上述完整的结果,发现损失函数值并没有明显的下降趋势,这是因为上述代码只进行了一次训练,因此想要损失函数值有明显的下降趋势,要进行多轮训练才行。

2.2使用SGD优化器进行多轮训练

    设置epoch,让其执行20次,并将每一次完整的训练的损失函数值求和输出,完整代码如下:

# coding :UTF-8
# 文件功能: 代码实现神经网络优化器的使用
# 开发人员: dpp
# 开发时间: 2021/8/18 4:52 下午
# 文件名称: nn_optim.py
# 开发工具: PyCharm

import torch
import torchvision
from torch import nn
from torch.nn import Conv2d, MaxPool2d, Flatten, Linear, Sequential
from torch.utils.data import DataLoader

dataset = torchvision.datasets.CIFAR10("CIFAR10", train=False,
                                       transform=torchvision.transforms.ToTensor(), download=True)

dataloader = DataLoader(dataset, batch_size=1)

class Test(nn.Module):
    def __init__(self):
        super(Test, self).__init__()
        self.model1 = Sequential(
            Conv2d(in_channels=3, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=32, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Conv2d(in_channels=32, out_channels=64, kernel_size=5, padding=2),
            MaxPool2d(kernel_size=2),
            Flatten(),
            Linear(1024, 64),
            Linear(64, 10)
        )

    def forward(self, x):
        x = self.model1(x)
        return x

test = Test()
loss = nn.CrossEntropyLoss()
optim = torch.optim.SGD(test.parameters(), lr=0.01)
for epoch in range(20):
    running_loss = 0.0
    for data in dataloader:
        imgs, targets = data
        outputs = test(imgs)
        result_loss = loss(outputs, targets)
        optim.zero_grad()   # 将上一轮的每个参数的梯度清零,必须做的,否则梯度计算会出问题
        result_loss.backward()  # 进行反向传播 并计算每个参数的梯度值
        optim.step()    # 对每个参数进行调优
        running_loss = running_loss + result_loss
    print(running_loss)

    运行上述代码,得到如下结果,损失函数值呈现出下降的趋势。

tensor(18698.8438, grad_fn=<AddBackward0>)
tensor(16183.4062, grad_fn=<AddBackward0>)
tensor(15517.0400, grad_fn=<AddBackward0>)
...

3.学习小结

    在本文重点讲解了优化器的使用,并用一个实际的例子训练了神经网络,用到了SGD优化器,在一下一篇博文,将介绍现有网络模型的使用和修改方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值