优化器:管理并更新模型中可学习参数的值,使得模型输出更接近真实标签。
SGD(随机梯度下降):基本思想是通过梯度下降法,使得网络参数不断收敛到全局(或者局部)最小值,但是由于神经网络层数太多,需要通过反向传播算法,把误差一层一层地从输出传播到输入,逐层地更新网络参数。由于梯度方向是函数值变大的最快的方向,因此负梯度方向则是函数值变小的最快的方向。沿着负梯度方向一步一步迭代,便能快速地收敛到函数最小值。
torch.optim.SGD(params, lr, momentum=0, dampening=0,weight_decay=0, nesterov=False)
功能:可实现SGD优化算法,带动量SGD优化算法,带NAG(Nesterov accelerated gradient)动量SGD优化算法,并且均可拥有weight_decay项。
参数:
params(iterable)- 参数组,优化器要管理的那部分参数。
lr(float)- 初始学习率,可按需随着训练过程不断调整学习率。
momentum(float)- 动量,通常设置为0.9,0.8
zero_grad():清空所管理参数的梯度
step():执行一步更新
代码实例:
import torch
import torchvision
from torch import nn
from torch.nn import Sequential, Conv2d, MaxPool2d, Linear
from torch.nn.modules import Flatten
from torch.utils.data import DataLoader
dataset = torchvision.datasets.CIFAR10("../data", train=False, transform=torchvision.transforms.ToTensor(), download=True)
dataloader = DataLoader(dataset, batch_size=64)
class Test(nn.Module):
def __init__(self):
super(Test, self).__init__()
self.model1 = Sequential(
Conv2d(3, 32, 5, padding=2),
MaxPool2d(2),
Conv2d(32, 32, 5, padding=2),
MaxPool2d(2),
Conv2d(32, 64, 5, padding=2),
MaxPool2d(2),
Flatten(),
Linear(1024, 64),
Linear(64, 10)
)
def forward(self, x):
x = self.model1(x)
return x
loss = nn.CrossEntropyLoss()
test1 = Test()
optim = torch.optim.SGD(test1.parameters(), lr=0.01)
#对数据一轮的学习
for data in dataloader:
imgs, targets = data
outputs = test1(imgs)
result_loss = loss(outputs, targets)
optim.zero_grad()
result_loss.backward()
optim.step()
print(result_loss)
一轮学习的result_loss变化结果:
如要对数据进行多轮学习:
for epoch in range(20):
running_loss = 0.0
for data in dataloader:
imgs, targets = data
outputs = test1(imgs)
result_loss = loss(outputs, targets)
optim.zero_grad()
result_loss.backward()
optim.step()
#每轮loss的误差值总和
running_loss = running_loss + result_loss
print(running_loss)
结果: