设计并测试一个标准的前馈神经网络
目的:识别图像中的数字,实现数字图像分类
1.首先导入库,认识一下各个库的作用
import torch
from torch import nn
from torch import optim
#from model import Network
from torchvision import transforms
from torchvision import datasets
from torch.utils.data import DataLoader
torch
是 PyTorch 的核心库,一个流行的开源机器学习库,广泛用于计算机视觉和自然语言处理领域的研究和生产中。它提供了强大的GPU加速的张量计算能力,同时包含了构建深度学习模型所需的各种工具和预训练模型。以下是一些 PyTorch 库的关键组件:
- 张量(Tensor):多维数组,类似于 NumPy 数组,但可以在 GPU 上使用以加速计算。
- 自动微分(Autograd):自动计算导数的系统,是构建可训练神经网络的基础。
- 神经网络(Neural Networks):
torch.nn
模块提供了一系列的预定义层、损失函数和优化算法。- 优化器(Optimizers):如
torch.optim.Adam
、torch.optim.SGD
等,用于更新网络权重以最小化损失函数。- 数据加载与处理(Data Loading and Processing):
torch.utils.data
模块提供了Dataset
和DataLoader
类,用于加载和批量处理数据。- CUDA:PyTorch 支持 NVIDIA CUDA,可以利用 GPU 进行高速计算。
- 分布式训练(Distributed Training):支持多 GPU 和多节点训练。
- 模型部署(Model Deployment):支持将模型部署到生产环境,包括 TorchScript 和 C++ API。
torchvision
是 PyTorch 生态系统中的一个关键库,专门为计算机视觉任务设计和优化。它提供了以下几个核心函数:
1.
torchvision.transforms
- 数据预处理和增强
transforms.Compose
: 组合多个预处理和增强操作。transforms.ToTensor
: 将 PIL Image 或 Numpy 数组转换为FloatTensor
。transforms.Normalize
: 标准化张量,通常用于预训练模型。transforms.Resize
: 调整图像大小。transforms.CenterCrop
: 进行中心裁剪。transforms.RandomHorizontalFlip
: 随机水平翻转图像。transforms.RandomAffine
: 随机仿射变换。transforms.ColorJitter
: 随机改变图像的亮度、对比度、饱和度和色调。2.
torchvision.datasets
- 数据集加载
datasets.ImageFolder
: 加载文件夹中的图像,通常用于自定义数据集。datasets.CIFAR10
,datasets.CIFAR100
: 加载 CIFAR-10/100 数据集。datasets.MNIST
: 加载 MNIST 数据集。datasets.ImageNet
: 加载 ImageNet 数据集。datasets.FakeData
: 生成假数据,用于测试和原型设计。3.
torchvision.models
- 预训练模型
- 各模型类(如
models.resnet50
,models.vgg16
等): 加载具有预训练权重的模型。models.segmentation.fcn_resnet50
: 用于语义分割的全卷积网络。models.detection.fasterrcnn_resnet50_fpn
: 用于目标检测的 Faster R-CNN 模型。4.
torchvision.utils
- 实用工具
utils.save_image
: 将张量保存为图像文件。utils.make_grid
: 创建图像网格,用于可视化。utils.draw_bounding_boxes
: 在图像上绘制边界框。utils.draw_segmentation_masks
: 在图像上绘制分割掩码。
2.定义我们的神经网络的类Network
from torch import nn #定义神经网络
class Network(nn.Module):
def __init__(self):
super().__init__()
self.layer1 = nn.Linear(28*28, 256) # 输入特征数量应为28*28
self.layer2 = nn.Linear(256, 10) # 输出特征数量为10
def forward(self, x):
x = x.view(-1, 28*28) # 展平图像
x = self.layer1(x)
x = torch.relu(x)
return self.layer2(x)
torch.nn
是一个非常重要的模块,它提供了用于构建神经网络的基础设施,包括各种层、损失函数、优化器等。以下是一些 torch.nn
模块中的典型函数和类:
1. 层(Layers)
nn.Linear
: 一个全连接层,用于处理线性变换。nn.Conv2d
: 一个二维卷积层,用于处理图像数据。nn.BatchNorm2d
: 批量归一化层,用于提高训练速度和稳定性。nn.ReLU
: 激活函数,实现 ReLU(Rectified Linear Unit)操作。nn.MaxPool2d
: 最大池化层,用于降低特征维度。nn.Softmax
: Softmax 激活函数,常用于多分类任务的输出层。2. 损失函数(Loss Functions)
nn.CrossEntropyLoss
: 交叉熵损失,常用于多分类问题。nn.MSELoss
: 均方误差损失,常用于回归问题。nn.BCEWithLogitsLoss
: 带有 logits 的二元交叉熵损失,用于二分类问题。nn.NLLLoss
: 负对数似然损失,常用于概率分布的差异度量。3. 优化器(Optimizers)
nn.Adam
: Adam 优化器,一种自适应学习率的优化算法。nn.SGD
: 随机梯度下降优化器。nn.RMSprop
: RMSprop 优化器,另一种自适应学习率的优化算法。4. 容器(Containers)
nn.ModuleList
: 一个有序的模块列表,可以自动注册为模块的子模块。nn.Sequential
: 一个按顺序执行各个模块的容器。5. 激活函数(Activation Functions)
nn.functional.relu
: 函数式接口的 ReLU 激活函数。nn.functional.softmax
: 函数式接口的 Softmax 激活函数。nn.functional.sigmoid
: Sigmoid 激活函数,用于二分类问题。6. 其他函数
nn.init
: 参数初始化工具,包含多种初始化方法,如kaiming_normal_
,xavier_uniform_
。nn.Parameter
: 将一个张量包装为模型的参数。nn.functional.one_hot
: 将整数索引的张量转换为 one-hot 编码形式。
3.对图像进行预处理
if __name__=='__main__':
#图像预处理
transform=transforms.Compose([
transforms.Grayscale(num_output_channels=1),#转换为单通道灰度图
transforms.Resize((256, 256)),#调整尺寸
transforms.ToTensor()#转化为张量
])
- 这里创建了一个
transforms.Compose
实例,它用于组合多个图像转换操作。Compose
是torchvision.transforms
模块的一部分。transforms.Resize
调整图像尺寸到256x256
像素。这个转换对于确保输入图像具有统一的尺寸非常重要,特别是当使用卷积神经网络时。transforms.ToTensor
将 PIL Image 或 Numpy 数组转换为torch.FloatTensor
。这个转换是必要的,因为 PyTorch 的模型通常接受torch.Tensor
类型的输入。
4.读入并构造数据集
#读入并构造数据集
train_dataset = datasets.ImageFolder(root='C:\\Users\\91144\\Pictures\\训练测试',transform=transform)
print("train_dataset length: ",len(train_dataset))
#小批量的数据读入
train_loader=DataLoader(train_dataset,batch_size=64,shuffle=True)
print("train_loader length: ",len(train_loader))
datasets.ImageFolder
用于从文件系统中加载图像数据。它将文件夹名称作为标签,并将图像文件与对应的标签配对。
transform
:这是之前定义好的转换操作,用于对图像数据进行预处理,例如调整大小、转换为灰度图和张量化。
DataLoader(train_dataset, batch_size=64, shuffle=True)
:创建一个数据加载器,用于按指定的批量大小(64)加载数据,并在每个epoch开始时打乱数据顺序。
运行结果
#在使用pytorch训练模型时,需要创建三个对象:
model=Network()#1.模型本身,它就是我们设计的神经网络
optimizer = optim.Adam(model.parameters())#2.优化器,优化模型中的参数
criterion = nn.CrossEntropyLoss()#3.损失函数,分类问题,使用交叉熵损失误差
5.梯度下降法迭代模型
# 进入模型的循环迭代
for epoch in range(10):
for batch_idx, (data, label) in enumerate(train_loader):
optimizer.zero_grad() # 清除之前的梯度
output = model(data) # 计算神经网络的前向传播结果
loss = criterion(output, label) # 计算损失
loss.backward() # 计算梯度
optimizer.step() # 更新参数
if batch_idx % 100 == 0:
print(f"Epoch {epoch + 1}/10"
f"|Batch {batch_idx}/{len(train_loader)}"
f"|Loss: {loss.item():.4f}")
torch.save(model.state_dict(),'mnist.pth')#保存模型
6.对模型测试
#对模型测试
#from model import Network
from torchvision import transforms
from torchvision import datasets
import torch
if __name__=='__main__':
transform = transforms.Compose([
transforms.Grayscale(num_output_channels=1),
transforms.Resize((28, 28)),
transforms.ToTensor()
])
#读取测试数据集
test_dataset = datasets.ImageFolder(root='C:\\Users\\91144\\Pictures\\训练测试',transform=transform)
print("test_dataset length: ",len(test_dataset))
model = Network()#定义神经网络模型
model.load_state_dict(torch.load('mnist.pth'))#加载刚刚训练好的模型文件
right = 0 # 保存正确识别的数量
for i, (x, y) in enumerate(test_dataset):
model.eval() # 将模型设置为评估模式
with torch.no_grad():
output = model(x) # 将其中的数据x输入到模型
predict = output.argmax(1).item() # 选择概率最大标签的作为预测结果
if predict == y:
right += 1
# 计算出测试结果
sample_num = len(test_dataset)
acc = right / sample_num
print("test accuracy = %d/%d=%.3lf" % (right, sample_num, acc))
初始化计数器:
right = 0
用于记录模型正确预测的数量。遍历测试数据集:
for i, (x, y) in enumerate(test_dataset):
循环遍历test_dataset
中的每个样本。x
是输入数据,y
是对应的标签。设置评估模式:
model.eval()
将模型设置为评估模式,这会关闭模型中的特定层(如Dropout和Batch Normalization)的训练行为。禁用梯度计算:
with torch.no_grad():
这个上下文管理器会禁用梯度计算,从而减少内存消耗并加速推理过程。模型预测:
output = model(x)
将输入数据x
通过模型前向传播,得到预测输出。选择最大概率的标签:
predict = output.argmax(1).item()
从模型输出中选择概率最高的标签作为预测结果。argmax(1)
沿着最后一个维度(通常是特征维度)找到最大值的索引,.item()
将结果转换为Python标量。检查预测是否正确:
if predict == y:
如果预测标签与真实标签y
相匹配,则增加正确计数器。计算准确率:
在循环结束后,计算测试数据集的准确率。sample_num
是测试数据集的样本总数,acc
是正确预测的样本数与总样本数的比例。打印测试准确率: