26备战秋招day4——基于resnet的voc数据集图像分类

如意鼠

于 2024-10-08 10:21:44 发布

阅读量405

点赞数 9

分类专栏： 26秋招文章标签：分类人工智能算法计算机视觉

本文链接：https://blog.csdn.net/weixin_43784706/article/details/142752631

版权

26秋招专栏收录该内容

4 篇文章 0 订阅

订阅专栏

基于 ResNet 的 Pascal VOC 图像分类：从理论到实践

在深度学习的应用中，图像分类任务一直是计算机视觉的重要研究方向。Pascal VOC 数据集作为一个多标签图像分类的经典数据集，提供了丰富的标注和多样化的物体类别。ResNet（残差网络）作为一种深度学习模型架构，通过其创新的残差学习解决了深层网络训练中的难题。本文将详细介绍如何基于 ResNet 使用 PyTorch 实现 Pascal VOC 数据集的图像分类任务，并深入解析 ResNet-50 的网络架构。

1. 图像分类简介

图像分类是指将输入图像分配到一个或多个类别标签中的任务。传统的图像分类方法通常依赖于手工设计的特征提取器，而深度学习尤其是卷积神经网络（CNN）的出现使得模型能够自动从数据中学习特征，大幅度提升了分类的精度。深度学习中的模型架构不断进化，其中 ResNet 是解决深层网络训练问题的一大突破。

Pascal VOC 是一个经典的多标签分类数据集，包含 20 种类别。每张图片可以包含多个类别的目标，因此它比单标签分类问题（如 CIFAR-10）更具挑战性。

2. Pascal VOC 数据集简介

2.1 数据集介绍

Pascal VOC（Visual Object Classes Challenge）是计算机视觉中的一个多任务数据集，支持图像分类、目标检测、语义分割等多种任务。本文聚焦于图像分类任务，该任务中每张图片可以包含多个类别。Pascal VOC 数据集的图片分辨率较高，提供了丰富的标注，适合用于研究多标签分类任务。

2.2 数据集特点

多样性：数据集中包含 20 种类别，涵盖动物、交通工具、家具等多种物体。
多标签分类：每张图片可能同时包含多个类别的物体，这是相较于单标签分类任务更具挑战的地方。
高分辨率图像：Pascal VOC 中的图片分辨率比 CIFAR-10 更高，图像细节更多。

3. ResNet-50 网络架构详解

ResNet（残差网络）由何凯明等人于 2015 年提出，它的核心思想是通过引入 残差学习（Residual Learning） 来缓解深层神经网络中的梯度消失和梯度爆炸问题。通过 跳跃连接（Skip Connection），ResNet 能够在保持深层网络的同时，确保信息在网络中不丢失，从而使得深层网络能够更好地训练。

3.1 ResNet 的残差学习

在传统的神经网络中，随着网络深度的增加，模型的训练变得越来越困难，出现梯度消失和梯度爆炸问题。ResNet 的核心创新是 残差块（Residual Block），通过残差块的跳跃连接，模型可以学习输入与输出的残差（增量），而不是直接学习输入到输出的映射。

残差块的公式如下：

[ y = F(x) + x ]

其中：

( x ) 为输入，
( F(x) ) 为卷积层的输出（即残差），
( y ) 为最终输出。

这种结构可以让模型有效地训练更深的网络，因为它能够直接传递梯度，减轻梯度消失问题。

3.2 ResNet-50 网络架构详细解析

ResNet-50 是 ResNet 的一个典型架构，它总共包含 50 层，具体结构如下：

输入卷积层：
- 输入图片首先经过一个 7x7 大卷积核（步幅 2），输出 64 通道的特征图。
- 随后通过一个 3x3 最大池化层（步幅 2）进行下采样。
输出形状：[Batch, 64, H/4, W/4]
Stage 1（第一个残差块组）：
- 通过 3 个残差块，每个残差块内部包含 3 个卷积层：
  - 1x1 卷积：将输入通道数从 64 调整到 256。
  - 3x3 卷积：进行特征提取。
  - 1x1 卷积：恢复通道数到 256。
- 跳跃连接：为了保证输入输出维度一致，采用 1x1 卷积调整输入通道数。
输出形状：[Batch, 256, H/4, W/4]
Stage 2（第二个残差块组）：
- 通过 4 个残差块，结构与 Stage 1 相同，但输入通道数从 256 提升到 512：
  - 1x1 卷积：将输入通道数从 256 提升到 512。
  - 3x3 卷积：进行进一步的特征提取。
  - 1x1 卷积：将输出通道数恢复到 512。
- 跳跃连接：使用 1x1 卷积调整输入的通道数。
输出形状：[Batch, 512, H/8, W/8]
Stage 3（第三个残差块组）：
- 通过 6 个残差块，输入通道数从 512 提升到 1024：
  - 1x1 卷积：将输入通道数从 512 提升到 1024。
  - 3x3 卷积：进一步提取高级特征。
  - 1x1 卷积：将输出通道数恢复到 1024。
- 跳跃连接：调整输入的通道数。
输出形状：[Batch, 1024, H/16, W/16]
Stage 4（第四个残差块组）：
- 通过 3 个残差块，输入通道数从 1024 提升到 2048：
  - 1x1 卷积：将输入通道数从 1024 提升到 2048。
  - 3x3 卷积：提取更高层次的特征。
  - 1x1 卷积：将输出通道数恢复到 2048。
- 跳跃连接：调整输入通道数。
输出形状：[Batch, 2048, H/32, W/32]
全局平均池化层：
- 经过上述的卷积层后，特征图被送入一个全局平均池化层，将每个通道的特征图缩小为 1x1。
输出形状：[Batch, 2048, 1, 1]
全连接层：
- 最终，通过一个全连接层将特征映射为输出类别。在 Pascal VOC 分类任务中，输出的类别数量为 20（即 20 个物体类别）。

4. 基于 ResNet-50 实现 Pascal VOC 图像分类

接下来，我们将使用 PyTorch 基于 ResNet-50 实现 Pascal VOC 的多标签分类任务。该任务处理多标签分类问题，即每张图片可能包含多个类别的物体。

4.1 环境配置

首先，确保安装了 PyTorch 和其他相关依赖库：

pip install torch torchvision

4.2 代码实现

以下是完整的代码实现，涵盖了数据预处理、模型构建、训练和评估等内容。

import torch
import torch.nn as nn
import torch.optim as optim
import torchvision.transforms as transforms
import torchvision.models as models
from torchvision.datasets import VOCDetection
from torch.utils.data import DataLoader

# Pascal VOC 类别名称列表，用于将标签转换为 one-hot 编码
VOC_CLASSES = ['aeroplane', 'bicycle', 'bird', 'boat', 'bottle', 'bus',
               'car', 'cat', 'chair', 'cow', 'diningtable', 'dog', 'horse',
               'motorbike', 'person', 'pottedplant', 'sheep', 'sofa', 'train', 'tvmonitor']

# 设备配置
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# 数据增强与预处理
transform = transforms.Compose([
    transforms.Resize((224, 224)),  # 将图像调整为统一尺寸
    transforms.ToTensor(),  # 转换为张量
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
])

# 自定义标签提

取函数，将目标标签转换为 one-hot 编码格式
def extract_labels(targets):
    labels = torch.zeros(len(VOC_CLASSES))  # 创建全为0的one-hot向量
    objects = targets['annotation']['object']
    if isinstance(objects, dict):  # 如果只有一个物体是字典格式，需处理成列表
        objects = [objects]
    for obj in objects:
        label_idx = VOC_CLASSES.index(obj['name'])  # 获取类别的索引
        labels[label_idx] = 1  # 设置one-hot向量对应位置为1
    return labels

# 自定义 collate_fn 函数，用于批处理数据时合并标签
def custom_collate_fn(batch):
    images = [item[0] for item in batch]  # 直接提取图像
    labels = [extract_labels(item[1]) for item in batch]  # 提取并处理标签
    images = torch.stack(images, dim=0)  # 堆叠图像
    labels = torch.stack(labels, dim=0)  # 堆叠标签
    return images, labels

# 加载 Pascal VOC 数据集
data_dir = "./data/VOCdevkit"
trainset = VOCDetection(root=data_dir, year='2007', image_set='train', download=True, transform=transform)
testset = VOCDetection(root=data_dir, year='2007', image_set='val', download=True, transform=transform)

# 创建 DataLoader，使用自定义的 collate_fn
trainloader = DataLoader(trainset, batch_size=32, shuffle=True, num_workers=4, collate_fn=custom_collate_fn)
testloader = DataLoader(testset, batch_size=32, shuffle=False, num_workers=4, collate_fn=custom_collate_fn)

# 加载预训练的 ResNet-50 模型并调整最后的全连接层
model = models.resnet50(pretrained=True)
model.fc = nn.Linear(model.fc.in_features, len(VOC_CLASSES))  # 修改最后一层为20个类别

# 将模型移到设备（GPU或CPU）
model = model.to(device)

# 定义损失函数和优化器
criterion = nn.BCEWithLogitsLoss()  # 多标签分类的损失函数
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 模型训练
for epoch in range(10):  # 训练10个周期
    model.train()
    running_loss = 0.0
    for inputs, labels in trainloader:
        inputs, labels = inputs.to(device), labels.to(device)
        
        optimizer.zero_grad()  # 梯度清零
        outputs = model(inputs)  # 前向传播
        loss = criterion(outputs, labels)  # 计算损失
        loss.backward()  # 反向传播
        optimizer.step()  # 优化器更新
        
        running_loss += loss.item()
    
    print(f"Epoch {epoch+1}, Loss: {running_loss / len(trainloader)}")

# 模型评估
model.eval()
correct = 0
total = 0
with torch.no_grad():
    for inputs, labels in testloader:
        inputs, labels = inputs.to(device), labels.to(device)
        outputs = model(inputs)
        predicted = (torch.sigmoid(outputs) > 0.5).float()  # 阈值0.5判断多标签
        correct += (predicted == labels).sum().item()
        total += labels.numel()  # 总标签数

    accuracy = correct / total
    print(f'Accuracy: {accuracy:.4f}')

# 保存模型
torch.save(model.state_dict(), 'resnet_voc.pth')

4.3 代码说明

数据预处理：使用 Resize 统一调整图片大小，并通过自定义函数处理标签，将它们转换为 one-hot 编码。
模型构建：加载预训练的 ResNet-50 模型，并根据 Pascal VOC 数据集的 20 个类别调整输出层。
训练与评估：使用 BCEWithLogitsLoss 进行多标签分类训练，并在测试集上进行模型评估，计算分类准确率。

5. 总结

本文详细介绍了 ResNet-50 网络的结构，并基于 Pascal VOC 数据集实现了图像分类任务。通过 ResNet 的残差学习机制，我们能够有效解决深层网络中的梯度消失问题，并在多标签分类任务中取得良好的性能。希望通过本文的介绍，您对 ResNet 的工作原理以及如何在多标签分类任务中使用它有了更深入的理解。