PyTorch手写数字识别(MNIST数据集)

最新推荐文章于 2024-07-24 15:22:35 发布

我是Pluto呀

最新推荐文章于 2024-07-24 15:22:35 发布

阅读量573

点赞数

文章标签： pytorch

本文链接：https://blog.csdn.net/weixin_45709359/article/details/116298585

版权

PyTorch手写数字识别(MNIST数据集)

MNIST 手写数字识别是一个比较简单的入门项目，相当于深度学习中的 Hello World，可以让我们快速了解构建神经网络的大致过程.本代码采用 PyTorch 1.6.0 编写并运行。
导入相关库

import torch
import torchvision as tv
import torchvision.transforms as transforms
import torch.nn as nn
import torch.optim as optim

torchvision 用于下载并导入数据集
获取训练集和测试集

# 定义数据预处理方式
transform = transforms.Compose([
    transforms.ToTensor(),
    transforms.Normalize((0.1307, ), (0.3081, ))
    ]
    )

定义训练数据集

trainset = tv.datasets.MNIST(
    root='./data/',
    train=True,
    download=True,
    transform=transform
    )

定义测试数据集

testset = tv.datasets.MNIST(
    root='./data/',
    train=False,
    download=True,
    transform=transform
    )

root 用于指定数据集在下载之后的存放路径
train是指定在数据集下载完成后需要载入的那部分数据，设置为 True 则说明载入的是该数据集的训练集部分，设置为 False 则说明载入的是该数据集的测试集部分
download 为 True 表示数据集需要程序自动帮你下载
transform 用于指定导入数据集需要对数据进行哪种变化操作

这样设置并运行后，就会在指定路径中下载 MNIST 数据集，之后就可以使用了。

数据装载和预览

BATCH_SIZE = 64
# 定义训练批处理数据
trainloader = torch.utils.data.DataLoader(
    trainset,
    batch_size=BATCH_SIZE,
    shuffle=True,
    )

# 定义测试批处理数据
testloader = torch.utils.data.DataLoader(
    testset,
    batch_size=BATCH_SIZE,
    shuffle=False,
    )

搭建神经网络

# 卷积层使用 torch.nn.Conv2d
# 激活层使用 torch.nn.ReLU
# 池化层使用 torch.nn.MaxPool2d
# 全连接层使用 torch.nn.Linear

class LeNet(nn.Module):
    def __init__(self):
        super(LeNet, self).__init__()
        self.conv1 = nn.Sequential(     #input_size=(1*28*28)
            nn.Conv2d(1, 6, 5, 1, 2),   #padding=2保证输入输出尺寸相同
            nn.ReLU(),      #input_size=(6*28*28)
            nn.MaxPool2d(kernel_size=2, stride=2),#output_size=(6*14*14)
        )
        self.conv2 = nn.Sequential(
            nn.Conv2d(6, 16, 5),
            nn.ReLU(),      #input_size=(16*10*10)
            nn.MaxPool2d(2, 2)  #output_size=(16*5*5)
        )
        self.fc1 = nn.Sequential(
            nn.Linear(16 * 5 * 5, 120),
            nn.ReLU()
        )
        self.fc2 = nn.Sequential(
            nn.Linear(120, 84),
            nn.ReLU()
        )
        self.fc3 = nn.Linear(84, 10)

    # 定义前向传播过程，输入为x
    def forward(self, x):
        # show_graph(x,'origin')
        x = self.conv1(x)
        # show_graph(x,'conv1')
        x = self.conv2(x)
        # show_graph(x,'conv2')
        x = x.view(x.size()[0], -1)
        x = self.fc1(x)
        x = self.fc2(x)
        x = self.fc3(x)
        return x

前向传播内容：

首先经过 self.conv1() 和 self.conv2() 进行卷积处理
然后进行 x = x.view(x.size()[0], -1)，对参数实现扁平化（便于后面全连接层输入)
最后通过 self.fc1() 和 self.fc2() 定义的全连接层进行最后的分类

训练模型

#定义学习率
LR = 0.001
#定义是否使用GPU
device = torch.device('cuda' if torch.cuda.is_available else 'cpu')

# 定义损失函数loss function 和优化方式（采用SGD）
net = LeNet().to(device)
criterion = nn.CrossEntropyLoss()  # 交叉熵损失函数
optimizer = optim.SGD(net.parameters(), lr=LR, momentum=0.9)

def train(net,criterion,optimizer):
    writer = SummaryWriter('./homework1/LeNet-5')
    for epoch in range(EPOCH):
        sum_loss = 0.0
        # 数据读取
        for i, data in enumerate(trainloader):
            inputs, labels = data
            inputs, labels = inputs.to(device), labels.to(device)

            # 梯度清零
            optimizer.zero_grad()

            # forward + backward
            outputs = net(inputs)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            # 每训练100个batch打印一次平均loss
            sum_loss += loss.item()
            if i % 100 == 99:
                print('[%d, %d] loss: %.03f'
                    % (epoch + 1, i + 1, sum_loss / 100))
                writer.add_scalar('epoch%d-batch_loss'%(epoch+1),sum_loss/100,i/100)
                sum_loss = 0.0
        # 每跑完一次epoch测试一下准确率
        with torch.no_grad():
            correct = 0
            total = 0
            for data in testloader:
                images, labels = data
                images, labels = images.to(device), labels.to(device)
                outputs = net(images)
                # print(outputs.shape)

                # 取得分最高的那个类
                _, predicted = torch.max(outputs.data, 1)
                total += labels.size(0)
                correct += (predicted == labels).sum()
            print('第%d个epoch的识别准确率为：%d%%' % (epoch + 1, (100 * torch.true_divide(correct,total))))
    #模型参数保存
    torch.save(net, './homework1/weights/model.pth')

测试模型

def test(weights,index):
    model = torch.load(weights)
    img = testset.__getitem__(index)[0].reshape(1,1,28,28).cuda()
    label = testset.targets[index]
    output = model(img)
    _, predicted = torch.max(output.data, 1)
    print('predicted:{},label:{}'.format(predicted.item(),label.data))

训练以及测试情况
在这里插入图片描述

从结果上看98%的准确率还是可以的。

拓展
1.运用tensorboardX可视化loss变化情况
导入相应的依赖库

from tensorboardX import SummaryWriter

第一次epoch训练后loss
第二次epoch训练后loss
第八次epoch训练后loss

2.运用tensorboardX展示LeNet-5网络结构

在这里插入图片描述

3.展示中间层特征图
函数定义

def show_graph(x, string)

其中x为中间层输出的结果
效果展示

原图
一次卷积过后（卷积，relu，池化）
两次卷积过后（卷积，relu，池化）

在这里插入图片描述

我是Pluto呀

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
PyTorch手写数字识别(MNIST数据集)

PyTorch手写数字识别(MNIST数据集)MNIST 手写数字识别是一个比较简单的入门项目，相当于深度学习中的 Hello World，可以让我们快速了解构建神经网络的大致过程.本代码采用 PyTorch 1.6.0 编写并运行。导入相关库import torchimport torchvision as tvimport torchvision.transforms as transformsimport torch.nn as nnimport torch.optim as optim
复制链接

扫一扫