【学习笔记】pytorch实战手写数字识别

最新推荐文章于 2025-01-02 16:23:29 发布

云烟成雨_sky

最新推荐文章于 2025-01-02 16:23:29 发布

阅读量1.1k

点赞数 1

分类专栏：学习笔记文章标签： pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/weixin_45131923/article/details/122040568

版权

本文介绍了如何使用PyTorch和torchvision搭建卷积神经网络（CNN）来识别手写数字。首先讲解了torch和torchvision库的作用，接着详细阐述了数据预处理，包括数据集的加载、数据增强以及数据标准化。然后，文章展示了如何构建CNN模型，包括卷积层、激活函数、池化层和全连接层。最后，提到了模型训练、参数优化和模型评估过程。

摘要由CSDN通过智能技术生成

搭建简单的卷积神经网络实现手写数字图片识别。
1. torch和torchvision
在Pytorch中有两个核心的包，分别是torch和torchvision。torchvision包主要功能是实现数据的处理、导入和预览等，在处理计算机视觉问题时可以使用torchvision包中的类完成相应工作。导包部分如下：

import torch
from torchvision import datasets, transforms
from torch.autograd import Variable

之后，需要获取手写数字的训练集和测试集。使用torchvision.datasets可以实现对本次需要数据集的训练集和测试集的下载。常用数据及如MNIST,COCO,ImageNet,CIFCAR等都可以通过这个方法快速下载和载入，代码如下：

data_train = datasets.MNIST(root = "./data/",
							transform = transform,
							train = True,
							download = True)
							
data_test = datasets.MNIST(root = "./data/",
							transform = transform,
							train = False)

其中root用于指定数据集在下载之后的存放路径，这里放在根目录下的data文件夹中；transform用于指定导入数据集时需要对数据进行哪种变换操作；train用于指定在数据集下载完成后需要载入哪部分数据，如果为True则说明载入的是训练集部分，如果为False说明载入的是测试集部分。
2.torch.transforms
在transforms中有大量的数据变换类，其中很大一部分可以用于实现数据增强（对图片放大，缩小，水平或垂直翻转等变换）。对手写数据集数据进行载入及相应变化的代码为：

transform = transforms.Compose([transforms.ToTensor(),
								transforms.Normalize(mean=[0.5,0.5,0.5],std=[0.5,0.5,0.5])])

可以将以上代码中compose类看作一种容器，他能够同时对多种数据变换进行组合。传入的参数是一个列表，列表中的元素就是对载入的数据进行的各种变换操作。在以上代码中，compose里只使用了一个类型的转换变换transforms.ToTensor和一个数据标准化变换transforms.Normalize。这个标准化变换也叫标准差变换法，使用原始数据的均值和标准差来进行数据的标准化，再经过标准化变换之后，数据全部符合均值为0、标准差为1的标准正态分布。计算公式如下： $x^{normal}=\frac{x-mean}{std}$

最低0.47元/天解锁文章