PyTorch是近年来应用广泛的深度学习框架之一,它的高度灵活性使得它能够应用于各种不同的领域。其中,卷积神经网络(Convolutional Neural Network,简称CNN)是深度学习领域中最为经典和广泛应用的模型之一。本文将基于PyTorch框架,构建一个基于卷积神经网络的手写数字识别模型。
数据集
我们将使用经典的手写数字识别数据集MNIST,它包含60000张训练集图片和10000张测试集图片,每张图片都是28x28的灰度图像。在PyTorch中,我们可以通过torchvision包来加载和处理MNIST数据集,其内置的MNIST数据集已经帮我们将每张图片转换为28x28的Tensor格式。
import torch
import torchvision
import torchvision.transforms as transforms
# 加载MNIST数据集
transform = transforms.Compose(
[transforms.ToTensor(),
transforms.Normalize((0.5,), (0.5,))])
trainset = torchvision.datasets.MNIST(root='./data', train=True,
download=True, transform=transform)
testset = torchvision.datasets.MNIST(root='./data', train=False,
download=True, transform=transform)
构建模型
接下来,我们开始构建基于卷积神经网络的手写数字识别模型。该模型包含两个卷积层和两个全连接层,其中每个卷积层后面跟随一个ReLU激活函数和一个最大池化层,最后的全连接层输出10个类别的概率,分别对应数字0到9。
import torch.nn as nn
import torch.nn.functional as F
class Net(nn.Module):
def __init__(self):
super(Net, self).__init__()
self.conv1 = nn.Conv2d(1, 6, 5)
self.pool = nn.MaxPool2d(2, 2)
self.conv2 = nn.Conv2d(6, 16, 5)
self.fc1 = nn.Linear(16 * 4 * 4, 120)
self.fc2 = nn.Linear(120, 84)
self.fc3 = nn.Linear(84, 10)
def forward(self, x):
x = self.pool(F.relu(self.conv1(x)))
x = self.pool(F.relu(self.conv2(x)))
x = x.view(-1, 16 * 4 * 4)
x = F.relu(self.fc1(x))
x = F.relu(self.fc2(x))
x = self.fc3(x)
return x
net = Net()
我们通过nn.Module
创建了一个名为Net
的模型类,它继承自nn.Module
类。在Net
类的初始化函数中,我们定义了模型的各个网络层,并在forward
函数中实现了模型的前向传播过程。
损失函数和优化器
对于分类问题,
我们通常使用交叉熵损失函数(cross-entropy loss),它在分类问题中表现良好。在PyTorch中,可以使用nn.CrossEntropyLoss()
来定义交叉熵损失函数。对于优化器,我们可以使用随机梯度下降(SGD)优化器。在PyTorch中,可以使用optim.SGD()
来定义SGD优化器,其包含了模型参数和学习率等参数。
下面是定义损失函数和优化器的代码:
loss_function = nn.CrossEntropyLoss()
optimizer = optim.SGD(model.parameters(), lr=learning_rate)
其中,model.parameters()
表示需要优化的参数,lr
表示学习率。
训练模型 在完成了数据的准备和模型的定义、损失函数和优化器的定义后,就可以开始训练模型了。训练模型的过程通常包含以下几个步骤:
- 将模型设置为训练模式
- 清除优化器的梯度
- 输入数据到模型中进行前向传播计算
- 计算损失
- 反向传播计算梯度
- 使用优化器更新模型参数
- 记录训练过程中的损失和精度等指标
下面是训练模型的代码:
model.train()
for epoch in range(epochs):
optimizer.zero_grad()
pred = model(data)
loss = loss_function(pred[data.train_mask], data.y[data.train_mask]) # 损失
correct_count_train = pred.argmax(axis=1)[data.train_mask].eq(data.y[data.train_mask]).sum().item() # 训练正确分类数目
acc_train = correct_count_train / data.train_mask.sum().item() # 训练精度
loss.backward()
optimizer.step()
# 记录训练过程中的指标
train_loss_history.append(loss.item())
train_acc_history.append(acc_train)
print(f"Epoch {epoch+1}, Train Loss: {loss.item():.4f}, Train Accuracy: {acc_train:.4f}")
在训练过程中,我们将模型设置为训练模式,通过model.train()
来实现。然后,对于每一个训练周期(epoch),我们都需要对优化器的梯度进行清零,通过optimizer.zero_grad()
来实现。接着,我们将数据输入到模型中进行前向传播计算,并计算损失。接着,我们使用反向传播算法计算梯度,并使用优化器更新模型参数,通过optimizer.step()
来实现。最后,我们记录训练过程中的指标,如训练损失和训练精度等。