26备战秋招day1——mnist手写数字识别

如意鼠

于 2024-09-23 16:40:33 发布

阅读量983

点赞数 29

分类专栏： 26秋招文章标签： python github

本文链接：https://blog.csdn.net/weixin_43784706/article/details/142461846

版权

26秋招专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于 MNIST 手写数字识别的详细教程

在深度学习和计算机视觉的入门项目中，MNIST 手写数字识别是一个经典的基础任务。这个任务非常适合初学者，它使用的是一个小而易懂的数据集，同时能够展示卷积神经网络（CNN）在图像分类任务中的强大性能。

在这篇博客中，我将详细介绍如何从零开始构建一个手写数字识别模型，涵盖数据集的基本介绍、神经网络的设计、模型训练与评估的流程。我们将使用 PyTorch 框架，它是目前最流行的深度学习框架之一，代码清晰且易于调试。

1. 什么是 MNIST 数据集？

MNIST（Modified National Institute of Standards and Technology）是一个由 Yann LeCun 创建的手写数字识别数据集，它包含 60,000 张训练图片和 10,000 张测试图片。每张图片是 28x28 的灰度图像，图像中的内容是手写数字（0 到 9），而模型的任务是根据这些图像预测其对应的数字标签。

MNIST 数据集是深度学习领域的 “Hello World”，因为它易于理解且规模较小，适合初学者进行入门实验。我们将通过使用卷积神经网络（CNN）来实现对手写数字的分类。

MNIST 数据集的特点：

图片尺寸为 28x28 像素。
图像为单通道的灰度图。
每张图像包含一个数字，数字标签范围为 0-9。
数据集有 60,000 张训练图片和 10,000 张测试图片。

2. 数据预处理与加载

在处理图像数据时，通常我们需要对数据进行一些预处理步骤。我们使用 PyTorch 的 torchvision 库来简化数据集的下载与加载工作，并使用 DataLoader 来进行批量处理。

代码实现：

import torch
from torchvision import datasets, transforms
from torch.utils.data import DataLoader

def get_data_loaders(batch_size=64):
    """
    获取MNIST数据集的训练集和测试集加载器。
    
    参数:
        batch_size (int): 每个批次的图片数量，默认为64。
    
    返回:
        train_loader, test_loader: 训练集和测试集的加载器。
    """
    # 图像转换 - 将图像转换为Tensor并标准化
    transform = transforms.Compose([
        transforms.ToTensor(),  # 转换为Tensor
        transforms.Normalize((0.1307,), (0.3081,))  # 标准化到均值为0.1307，标准差为0.3081
    ])

    # 加载训练集和测试集
    train_dataset = datasets.MNIST(root='./data', train=True, download=True, transform=transform)
    test_dataset = datasets.MNIST(root='./data', train=False, download=True, transform=transform)

    # DataLoader用于批量处理数据
    train_loader = DataLoader(dataset=train_dataset, batch_size=batch_size, shuffle=True)
    test_loader = DataLoader(dataset=test_dataset, batch_size=batch_size, shuffle=False)

    return train_loader, test_loader

数据预处理说明：

ToTensor：将图片转换为 PyTorch 的 Tensor 格式，以便在神经网络中进行计算。
Normalize：图像像素的值范围为 0 到 255，我们通过标准化使其均值为 0.1307，标准差为 0.3081，让数据更适合神经网络训练。

3. 搭建卷积神经网络（CNN）

卷积神经网络（CNN）是处理图像数据最有效的架构之一。CNN 通过卷积操作提取图像中的局部特征，再通过池化层（Pooling）减少特征维度，最终通过全连接层输出分类结果。

CNN 架构的主要组件：

卷积层（Convolution Layer）：用于提取图像的特征。
池化层（Pooling Layer）：用于减少特征图的尺寸，通常使用最大池化（Max Pooling）。
全连接层（Fully Connected Layer）：将提取的特征映射到输出类别。

网络结构设计：

import torch.nn as nn
import torch.nn.functional as F

class CNN(nn.Module):
    """
    基于卷积神经网络的MNIST手写数字识别模型
    """
    def __init__(self):
        super(CNN, self).__init__()
        # 定义第一个卷积层：输入通道1（灰度图），输出通道32
        self.conv1 = nn.Conv2d(1, 32, kernel_size=3, padding=1)
        # 定义第二个卷积层：输入通道32，输出通道64
        self.conv2 = nn.Conv2d(32, 64, kernel_size=3, padding=1)
        # 最大池化层：2x2 池化
        self.pool = nn.MaxPool2d(2, 2)
        # 全连接层：64*7*7 映射到128维
        self.fc1 = nn.Linear(64 * 7 * 7, 128)
        # 输出层：将128维映射到10个类别（数字0-9）
        self.fc2 = nn.Linear(128, 10)

    def forward(self, x):
        # 卷积 + 激活 + 池化
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        # 展平
        x = x.view(-1, 64 * 7 * 7)
        # 全连接层 + 激活
        x = F.relu(self.fc1(x))
        # 输出层
        x = self.fc2(x)
        return x

模型架构说明：

conv1 和 conv2 是卷积层，用于提取不同层次的图像特征。
pool 是池化层，通过 2x2 的窗口进行下采样，减少数据维度。
fc1 是全连接层，将卷积层提取的特征映射到 128 维。
fc2 是输出层，将 128 维的特征进一步映射到 10 个类别。

4. 模型训练过程

接下来，我们需要定义模型的训练过程。训练的核心在于：

前向传播（Forward Propagation）：输入数据通过网络，得到输出。
损失计算（Loss Calculation）：通过交叉熵损失函数计算模型输出与真实标签的差异。
反向传播（Backpropagation）：通过梯度下降算法调整模型的参数，使损失最小化。

训练函数：

import torch.optim as optim

def train(model, device, train_loader, optimizer, epoch):
    model.train()  # 设置模型为训练模式
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        optimizer.zero_grad()  # 清空梯度
        output = model(data)  # 前向传播
        loss = F.cross_entropy(output, target)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 更新参数

        if batch_idx % 100 == 0:
            print(f'Epoch: {epoch} [{batch_idx * len(data)}/{len(train_loader.dataset)}] Loss: {loss.item():.6f}')

训练过程说明：

optimizer.zero_grad()：每次反向传播前，需要将之前计算的梯度清空。
loss.backward()：计算损失相对于模型参数的梯度。
optimizer.step()：使用优化器（如 Adam）更新模型参数。

5. 模型评估与测试

训练结束后，我们需要在测试集上评估模型的表现，主要衡量标准为准确率。

评估函数：

from sklearn.metrics import accuracy_score

def evaluate(model, device, test_loader):
    model.eval()  # 设置模型为评估模式
    correct = 0
    total = 0
    with torch.no_grad():  # 禁用梯度计算
        for data, target in test_loader:
            data, target = data.to(device), target.to(device)
            output = model(data)
            pred = output.argmax(dim=1, keepdim=True)  # 选取最大概率的类别
            correct += pred.eq(target.view_as(pred)).sum().item()
            total += target.size(0)
    
    accuracy = correct / total
    print(f'Accuracy: {accuracy:.4f}')
    return accuracy

评估过程说明：

在测试阶段，我们不需要反向传播，因此通过 torch.no_grad() 禁用梯度计算，节省内存。
accuracy_score 用于计算分类准确率。

6. 主程序与运行

完整的训练与评估过程通常在一个 main() 函数中执行：

def main():
    # 参数设置
    batch_size = 64
    epochs = 5
    learning_rate = 0.001

    # 设备选择：CPU 或 GPU
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # 加载数据
    train_loader, test_loader = get_data_loaders(batch_size)

    # 初始化模型与优化器
    model = CNN().to(device)
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    # 训练与评估
    for epoch in range(1, epochs + 1):
        train(model, device, train_loader, optimizer, epoch)
        evaluate(model, device, test_loader)

    # 保存训练好的模型
    torch.save(model.state_dict(), "mnist_cnn_model.pth")

if __name__ == '__main__':
    main()