Pytorch入门实战第一周：实现mnist手写数字识别

weixin_46620278

已于 2024-03-12 11:00:26 修改

阅读量1.1k

点赞数 18

文章标签：深度学习人工智能

于 2024-03-12 10:53:35 首次发布

本文链接：https://blog.csdn.net/weixin_46620278/article/details/136625877

版权

前言

一、前期准备

1.1 设置GPU

1.2 导入数据

1.2.1 torchvision.datasets.MNIST介绍

1.2.2 torch.utils.data.DataLoader

1.3 数据可视化

二、构建简单的CNN网络

2.1 预备知识

2.1.1 卷积层

2.1.2 池化层

2.1.3 CNN网络结构介绍

2.2 网络结构图

2.3 CNN网络的代码实现

2.4 加载并打印模型

三、训练模型

3.1 设置超参数

3.2 编写训练函数

3.2.1 训练的几个关键函数

3.2.2 代码示例

3.3 编写测试函数

3.4 正式训练

3.4.1 基本概念介绍

3.4.2 模型训练代码

四、结果可视化

总结

前言

🍨本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客
🍖 原作者：K同学啊

基本配置：

语言：python3、Pytorch框架
编辑器：pycharm2020
深度学习环境：torch1.12.1+cu113

一、前期准备

1.1 设置GPU

代码：

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision
import numpy as np
import torch.nn.functional as F


'''
一、前期准备
设置cpu or GPU
导入数据
数据可视化
'''
# 设置硬件设备，如果有GPU则使用，没有则使用cpu
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(device)

这里遇到一个问题，由于我自己的电脑显卡型号是Intel(R) UHD Graphics 620，而CUDA是面向Nvidia的GPU的，所以，如果要搭建CUDA环境必须要有nvidia显卡。所以这里虽然我配置的环境是cuda版本的pytorch，但是上面这个代码运行的结果为cpu，不过最后也没有影响我把结果跑出来。

1.2 导入数据

使用dataset下载MNIST数据集，并划分好训练集和测试集，并使用dataloader加载数据，并设置好基本的batch_size

1.2.1 torchvision.datasets.MNIST介绍

torchvision.datasets是Pytorch自带的数据库，用户可以通过代码在线下载数据，这里使用的是torchvision.datasets中的MNIST数据集

函数原型：torchvision.datasets.MNIST(root, train=True, transform=None,target_transform=None, download=False)

参数说明：

root (string) ：数据地址
train (string) ：True-训练集，False-测试集
download (bool,optional) : 如果为True，从互联网上下载数据集，并把数据集放在root目录下。
transform (callable, optional )：这里的参数选择一个你想要的数据转化函数，直接完成数据转化
target_transform (callable,optional) ：接受目标并对其进行转换的函数/转换。

#从pytorch自带的数据库torchvision.datasets中在线下载MNIST数据集。
train_ds = torchvision.datasets.MNIST('data',train=True,
                                      transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                      download=True)
test_ds  = torchvision.datasets.MNIST('data',train=False,
                                      transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                      download=True)

1.2.2 torch.utils.data.DataLoader

torch.utils.data.DataLoader是Pytorch自带的一个数据加载器，结合了数据集和取样器，并且可以提供多个线程处理数据集

函数原型：torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=None, sampler=None, batch_sampler=None, num_workers=0, collate_fn=None, pin_memory=False, drop_last=False, timeout=0, worker_init_fn=None, multiprocessing_context=None, generator=None, *, prefetch_factor=2, persistent_workers=False, pin_memory_device='')

参数说明：

dataset (string) ：加载的数据集
batch_size (int,optional) ：每批加载的样本大小（默认值：1）
shuffle (bool,optional) : 如果为True，每个epoch重新排列数据。
sampler (Sampler or iterable, optional) ：定义从数据集中抽取样本的策略。可以是任何实现了 __len__ 的 Iterable。如果指定，则不得指定 shuffle 。
batch_sampler (Sampler or iterable, optional) ：类似于sampler，但一次返回一批索引。与 batch_size、shuffle、sampler 和 drop_last 互斥。
num_workers (int,optional) ：用于数据加载的子进程数。 0 表示数据将在主进程中加载（默认值：0）。
pin_memory (bool,optional) : 如果为 True，数据加载器将在返回之前将张量复制到设备/CUDA 固定内存中。如果数据元素是自定义类型，或者collate_fn返回一个自定义类型的批次。
drop_last (bool,optional) : 如果数据集大小不能被批次大小整除，则设置为 True 以删除最后一个不完整的批次。如果 False 并且数据集的大小不能被批大小整除，则最后一批将保留。（默认值：False）
timeout (numeric,optional) : 设置数据读取的超时时间，超过这个时间还没读取到数据的话就会报错。（默认值：0）
worker_init_fn (callable,optional) ：如果不是 None，这将在步长之后和数据加载之前在每个工作子进程上调用，并使用工作 id（[0，num_workers - 1] 中的一个 int）的顺序逐个导入。（默认：None）

#数据加载器torch.utils.data.DataLoader
batch_size = 32
train_dl = torch.utils.data.DataLoader(train_ds, batch_size=batch_size, shuffle=True)
test_dl = torch.utils.data.DataLoader(test_ds, batch_size=batch_size)
#iter(train_dl) 将数据加载器转换为一个迭代器（iterator），使得我们可以使用 Python 的 next() 函数来逐个访问数据加载器中的元素

#取一个批次查看数据格式
# 数据的shape为：[batch_size, channel, height, weight]
# 其中batch_size可以自己设定，channel，height和weight分别是图片的通道数，高度和宽度。
imgs, labels = next(iter(train_dl)) #Python 的解构赋值语法。它将从 next() 函数返回的元素中提取出两个变量：imgs 和 labels
print(imgs.shape)

输出：

代码解释：

train_dl 是一个 PyTorch 数据加载器（DataLoader），用于加载训练数据集。通常情况下，数据加载器会将数据集分成小批量（batches）进行处理。
iter(train_dl) 将数据加载器转换为一个迭代器（iterator），使得我们可以使用 Python 的 next() 函数来逐个访问数据加载器中的元素。
next() 函数用于获取迭代器中的下一个元素。在这里，它被用来获取 train_dl 中的下一个批量数据。
imgs, labels = ... 这行代码是 Python 的解构赋值语法。它将从 next() 函数返回的元素中提取出两个变量：imgs 和 labels。
imgs 变量将包含一个批量的图像数据，而 labels 变量将包含相应的标签数据。这些图像和标签是从训练数据集中提取的。

1.3 数据可视化

squeeze()函数的功能是从矩阵shape中，去掉维度为1的。例如一个矩阵是的shape是（5, 1），使用过这个函数后，结果为（5, ）

#数据可视化
plt.figure(figsize=(20, 5)) # 指定图片大小，图像大小为20宽、5高的绘图(单位为英寸inch)
for i, imgs in enumerate(imgs[:20]):
    # 维度缩减
    npimg = np.squeeze(imgs.numpy())
    # 将整个figure分成2行10列，绘制第i+1个子图。
    plt.subplot(2, 10, i+1)
    plt.imshow(npimg, cmap=plt.cm.binary)
    plt.axis('off')
plt.show()

二、构建简单的CNN网络

2.1 预备知识

参考自K同学啊的有关储备知识的内容

2.1.1 卷积层

函数原型：torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)

关键参数:

in_channels ( int ) – 输入图像中的通道数
out_channels ( int ) – 卷积产生的通道数
kernel_size ( int or tuple ) – 卷积核的大小
stride ( int or tuple , optional ) -- 卷积的步幅。默认值：1
padding ( int , tuple或str , optional ) – 添加到输入的所有四个边的填充。默认值：0
padding_mode (字符串,可选) – 'zeros', 'reflect', 'replicate'或'circular'. 默认：'zeros'

示例过程：self.conv1 = nn.Conv2d(in_channels=3, out_channels=2, kernel_size=3, stride=2, padding=1)

2.1.2 池化层

在图像处理中，由于图像中存在较多冗余信息，可用某一区域子块的统计信息（如最大值或均值等）来刻画该区域中所有像素点呈现的空间分布模式，以替代区域子块中所有像素点取值，这就是卷积神经网络中池化（pooling）操作。

池化层可对提取到的特征信息进行降维，实现下采样，同时保留了特征图中主要信息，一方面使特征图变小，简化网络计算复杂度；另一方面进行特征压缩，提取主要特征，增加平移不变性，减少过拟合风险。但其实池化更多程度上是一种计算性能的一个妥协，强硬地压缩特征的同时也损失了一部分信息。

池化的几种常见方法包括：平均池化 与 最大池化。如下图所示

2.1.3 CNN网络结构介绍

nn.Conv2d为卷积层，用于提取图片的特征，传入参数为输入channel，输出channel，池化核大小
nn.MaxPool2d为池化层，进行下采样，用更高层的抽象表示图像特征，传入参数为池化核大小
nn.ReLU为激活函数，使模型可以拟合非线性数据
nn.Linear为全连接层，可以起到特征提取器的作用，最后一层的全连接层也可以认为是输出层，传入参数为输入特征数和输出特征数（输入特征数由特征提取网络计算得到，如果不会计算可以直接运行网络，报错中会提示输入特征数的大小，下方网络中第一个全连接层的输入特征数为1600）
nn.Sequential可以按构造顺序连接网络，在初始化阶段就设定好网络结构，不需要在前向传播中重新写一遍

2.2 网络结构图

此处使用的CNN模型由一个输入层、两个卷积层、两个池化层、一个Flatten层、一个全连接层和一个输出层构成，各层的大小形状已标记在图中

2.3 CNN网络的代码实现

'''
二、搭建简单的CNN模型
'''
num_class = 10   #图片的类别数
class Model(nn.Module):
    def __init__(self):
        super().__init__()
        #特征提取网络
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3) #第一层卷积，卷积核大小3*3
        self.pool1 = nn.MaxPool2d(2)   #设置池化层，池化核大小为2*2
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3) #第二层卷积核大小为3*3
        self.pool2 = nn.MaxPool2d(2)

        #分类网络
        self.fc1 = nn.Linear(1600, 64)
        self.fc2 = nn.Linear(64, num_class)

        #前向传播
    def forward(self, x):
        x = self.pool1(F.relu(self.conv1(x)))
        x = self.pool2(F.relu(self.conv2(x)))

        x = torch.flatten(x, start_dim=1)

        x = F.relu(self.fc1(x))
        x = self.fc2(x)

        return x

这里首先定义一个类，在__init__()下定义好模型的基本结构，卷积层1->池化层1->卷积层2->池化层2->全连接层1->全连接层2；接着在forward里面定义前向传播的激活函数，均采用的ReLU

2.4 加载并打印模型

代码如下（示例）：

from torchinfo import summary
# 将模型转移到GPU中（我们模型运行均在GPU中进行）
model = Model().to(device)

summary(model)

torchinfo 提供的信息与 PyTorch 中提供的信息相辅相成，类似于 Tensorflow 的 API，用于查看模型的可视化效果，这在调试网络时很有帮助。在这个项目中，我们在 PyTorch 中实现了类似的功能，并创建了一个干净、简单的界面来在你的项目中使用

模型打印如下：

三、训练模型

3.1 设置超参数

#3.1 设置超参数
loss_fn = nn.CrossEntropyLoss()   #创建损失函数
learn_rate = 1e-2  #学习率
opt = torch.optim.SGD(model.parameters(), lr=learn_rate)

使用交叉熵函数作为损失函数(nn.CrossEntropyLoss())，优化器选用的SGD

3.2 编写训练函数

3.2.1 训练的几个关键函数

optimizer.zero_grad()：函数会遍历模型的所有参数，通过内置方法截断反向传播的梯度流，再将每个参数的梯度值设为0，即上一次的梯度记录被清空。
loss.backward()：PyTorch的反向传播(即tensor.backward())是通过autograd包来实现的，autograd包会根据tensor进行过的数学运算来自动计算其对应的梯度。具体来说，torch.tensor是autograd包的基础类，如果你设置tensor的requires_grads为True，就会开始跟踪这个tensor上面的所有运算，如果你做完运算后使用tensor.backward()，所有的梯度就会自动运算，tensor的梯度将会累加到它的.grad属性里面去。更具体地说，损失函数loss是由模型的所有权重w经过一系列运算得到的，若某个w的requires_grads为True，则w的所有上层参数（后面层的权重w）的.grad_fn属性中就保存了对应的运算，然后在使用loss.backward()后，会一层层的反向传播计算每个w的梯度值，并保存到该w的.grad属性中。

如果没有进行tensor.backward()的话，梯度值将会是None，因此loss.backward()要写在optimizer.step()之前。
optimizer.step()：step()函数的作用是执行一次优化步骤，通过梯度下降法来更新参数的值。因为梯度下降是基于梯度的，所以在执行optimizer.step()函数前应先执行loss.backward()函数来计算梯度。

注意：optimizer只负责通过梯度下降进行优化，而不负责产生梯度，梯度是tensor.backward()方法产生的

3.2.2 代码示例

#3.2 编写训练函数
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  #训练集的大小，一共60000张图片
    num_batches = len(dataloader)  #批次数目，1875（60000/32）

    train_loss, train_acc =0, 0  #初始化训练损失和正确率

    for X, y in dataloader:   #获取图片及其标签
        X, y = X.to(device), y.to(device)

        #计算预测误差
        pred = model(X)     #网络的输出
        loss = loss_fn(pred, y)  #计算网络输出和真实值之间的差距，y为真实值，计算二者差值即为损失

        #反向传播
        optimizer.zero_grad()   #grad属性归零
        loss.backward()        #反向传播
        optimizer.step()       #每一步自动更新

        #记录acc和loss
        train_acc += (pred.argmax(1) == y).type(torch.float).sum().item()#表示计算预测正确的样本数量，并将其作为一个标量值返回。
        train_loss += loss.item()
    train_acc /=size
    train_loss /= num_batches

    return train_acc, train_loss

其中(pred.argmax(1) == y).type(torch.float).sum().item()表示计算预测正确的样本数量，并将其作为一个标量值返回。这通常用于评估分类模型的准确率或计算分类问题的正确预测数量

pred.argmax(1) 返回数组 pred 在第一个轴（即行）上最大值所在的索引。这通常用于多类分类问题中，其中 pred 是一个包含预测概率的二维数组，每行表示一个样本的预测概率分布。
(pred.argmax(1) == y)是一个布尔值，其中等号是否成立代表对应样本的预测是否正确（True 表示正确，False 表示错误）。
.type(torch.float)是将布尔数组的数据类型转换为浮点数类型，即将 True 转换为 1.0，将 False 转换为 0.0。
.sum()是对数组中的元素求和，计算出预测正确的样本数量。
.item()将求和结果转换为标量值，以便在 Python 中使用或打印

训练集的大小是60000张图片，因为设置的batch_size=32,所以一共有60000/32=1875个batch

3.3 编写测试函数

其实测试函数和训练函数基本相同，只不过测试函数因为不进行梯度下降对网络权重进行更新，所以不需要传入优化器

#3.3编写测试函数
#测试函数和训练函数大致相同，但是由于不进行梯度下降对网络权重进行更新，所以不需要传入优化器
def test(dataloader, model, loss_fn):
    size = len(dataloader.dataset)  # 测试集的大小，一共10000张图片
    num_batches = len(dataloader)  # 批次数目，313（10000/32=312.5，向上取整）
    test_loss, test_acc = 0, 0

    # 当不进行训练时，停止梯度更新，节省计算内存消耗
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)

            # 计算loss
            target_pred = model(imgs)
            loss = loss_fn(target_pred, target)

            test_loss += loss.item()
            test_acc += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    test_acc /= size
    test_loss /= num_batches

    return test_acc, test_loss

测试集的大小为10000张图片，设置的batch_size=32，所以一共有10000/32=312.5，则batch的数目为313（向上取整这里是）

3.4 正式训练

3.4.1 基本概念介绍

model.train()：model.train()的作用是启用 Batch Normalization 和 Dropout。如果模型中有BN层(Batch Normalization）和Dropout，需要在训练时添加model.train()。model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout，model.train()是随机取一部分网络连接来训练更新参数。
model.eval()：model.eval()的作用是不启用 Batch Normalization 和 Dropout。如果模型中有BN层(Batch Normalization）和Dropout，在测试时添加model.eval()。model.eval()是保证BN层能够用全部训练数据的均值和方差，即测试过程中要保证BN层的均值和方差不变。对于Dropout，model.eval()是利用到了所有网络连接，即不进行随机舍弃神经元。

训练完train样本后，生成的模型model要用来测试样本。在model(test)之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有BN层和Dropout所带来的的性质。

3.4.2 模型训练代码

'''
3.4、正式训练
model.train()的作用是启用 Batch Normalization 和 Dropout
model.eval()的作用是不启用 Batch Normalization 和 Dropout
训练完train样本后，生成的模型model要用来测试样本。在model(test)之前，需要加上model.eval()，
否则的话，有输入数据，即使不训练，它也会改变权值
'''

epochs = 5
train_loss = []
train_acc = []
test_loss = []
test_acc = []

#遍历epoch，调用前面定义train和test函数
for epoch in range(epochs):
    model.train()
    epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)

    model.eval()
    epoch_test_acc, epoch_test_loss = test(test_dl,model, loss_fn)

    train_acc.append(epoch_train_acc)
    train_loss.append(epoch_train_loss)
    test_acc.append(epoch_test_acc)
    test_loss.append(epoch_test_loss)

    template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%，Test_loss:{:.3f}')
    print(template.format(epoch + 1, epoch_train_acc * 100, epoch_train_loss, epoch_test_acc * 100, epoch_test_loss))
print ('Done')

训练过程主要就是在每个epoch中，分别调用前面定义的train和test函数，将最开始准备的训练数据和测试数据、定义的模型、损失函数等作为train和test函数的输入，就进行训练和测试阶段，同时将每个epoch的预测结果(精度acc和损失loss打印出来)

训练进程如下：

从上面的结果可以看出，随着epoch的增加，模型的结果是越来越好

四、结果可视化

import warnings
warnings.filterwarnings("ignore")  #忽略警告信息
plt.rcParams['font.sans-serif'] = ['SimHei']  #用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False    #用来正常显示负号
plt.rcParams['figure.dpi'] = 100              #分辨率

epochs_range = range(epochs)

plt.figure(figsize=(12, 3))
plt.subplot(1, 2, 1)

plt.plot(epochs_range, train_acc, label='Training Accuracy')
plt.plot(epochs_range, test_acc, label='Test Accuracy')
plt.legend(loc='lower right')
plt.title('Training and Validation Accuracy')

plt.subplot(1, 2, 2)
plt.plot(epochs_range, train_loss, label='Training Loss')
plt.plot(epochs_range, test_loss, label='Test Loss')
plt.legend(loc='upper right')
plt.title('Training and Validation Loss')
plt.show()

将训练集和测试集在不同epoch下的模型精度和损失打印出来如下图所示：

总结

根据本次实战跟练，首先熟悉了GPU和CPU的配置，接着初步明白了pytorch模型搭建和训练的框架（数据获取、数据加载、数据集划分、CNN模型的搭建、训练函数测试函数的搭建--(包含着优化器、超参数的设置)、正式训练过程），最后就是整个流程的走通可以大大提升对相关概念的理解。

weixin_46620278

关注

18
点赞
踩
19

收藏

觉得还不错? 一键收藏
2
评论
Pytorch入门实战第一周：实现mnist手写数字识别

🍨本文为[🔗365天深度学习训练营](https://mp.weixin.qq.com/s/0dvHCaOoFnW8SCp3JpzKxg) 中的学习记录博客K同学啊语言：python3、Pytorch框架编辑器：pycharm2020深度学习环境：torch1.12.1+cu113torchvision.datasets是Pytorch自带的数据库，用户可以通过代码在线下载数据，这里使用的是torchvision.datasets中的MNIST数据集参数说明：root。
复制链接

扫一扫