26备战秋招day3——基于voc的目标检测

最新推荐文章于 2024-09-27 16:14:00 发布

如意鼠

最新推荐文章于 2024-09-27 16:14:00 发布

阅读量907

点赞数 18

分类专栏： 26秋招文章标签：目标检测人工智能计算机视觉

本文链接：https://blog.csdn.net/weixin_43784706/article/details/142528941

版权

26秋招专栏收录该内容

3 篇文章 0 订阅

订阅专栏

基于 Pascal VOC 数据集的目标检测技术博客：Faster R-CNN 模型的构建与实现

1. 引言

目标检测是计算机视觉领域中的关键任务之一，它不仅需要识别图像中的物体，还需要定位每个物体的边界框。与图像分类不同，目标检测不仅需要分类，还包括复杂的回归任务，因此对于模型的设计和计算资源要求更高。

本篇博客将详细介绍如何基于 Pascal VOC 2012 数据集，使用 PyTorch 框架构建 Faster R-CNN 模型进行目标检测。我们将从数据加载、模型构建、训练和测试等方面逐步介绍，最终实现一个完整的目标检测模型。

2. Pascal VOC 数据集简介

Pascal VOC 是经典的视觉任务数据集之一，广泛用于目标检测、图像分割等任务。Pascal VOC 2012 数据集包含 20 个类别，每个图像中包含一个或多个目标对象，且每个目标对象都有边界框标注。目标检测的任务就是在这些图像中准确识别物体并框出它们的位置。

VOC 2012 中的类别包括：飞机、汽车、猫、狗、鸟、人等，任务是让模型识别这些物体并给出每个物体的边界框位置。

3. Faster R-CNN 简介

Faster R-CNN 是一种经典的目标检测模型，它在 R-CNN 和 Fast R-CNN 的基础上进行了进一步优化。其核心思想是使用 Region Proposal Network (RPN) 提出候选框，然后在这些候选框的基础上进行分类和边界框回归。相比传统的基于滑动窗口的检测方法，Faster R-CNN 大大提升了检测速度和精度。

我们将使用 PyTorch 提供的预训练 Faster R-CNN 模型，并在 Pascal VOC 数据集上进行微调。

4. 数据加载与预处理

在目标检测任务中，数据的预处理尤为重要。我们不仅要对图像进行标准化处理，还需要将 Pascal VOC 的标注信息转换为模型可用的格式。Faster R-CNN 期望的输入数据格式包括：

boxes：每个目标的边界框，格式为 [xmin, ymin, xmax, ymax]。
labels：每个目标的类别标签。

以下是数据加载与预处理的完整代码：

import torch
import torchvision
from torch.utils.data import DataLoader
from torchvision import transforms

# 自定义 collate_fn 函数，处理目标检测任务中批次图像大小不一致的问题
def collate_fn(batch):
    return tuple(zip(*batch))

# 获取数据加载器
def get_data_loader(batch_size, num_samples=None):
    # 数据预处理
    transform = transforms.Compose([
        transforms.ToTensor(),  # 转换为张量
        transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])  # 归一化
    ])

    # 自定义函数，处理 Pascal VOC 数据集中的标注信息，确保生成正确的 boxes 和 labels
    def target_transform(target):
        boxes = []
        labels = []
        for obj in target['annotation']['object']:
            # 获取边界框
            bbox = obj['bndbox']
            box = [float(bbox['xmin']), float(bbox['ymin']), float(bbox['xmax']), float(bbox['ymax'])]
            boxes.append(box)
            # 获取目标类别标签
            label = obj['name']
            labels.append(VOC_LABELS[label])  # 将类别名转换为类别索引

        return {
            'boxes': torch.tensor(boxes, dtype=torch.float32),
            'labels': torch.tensor(labels, dtype=torch.int64)
        }

    # Pascal VOC 类别标签映射
    VOC_LABELS = {
        'aeroplane': 1, 'bicycle': 2, 'bird': 3, 'boat': 4, 'bottle': 5, 'bus': 6,
        'car': 7, 'cat': 8, 'chair': 9, 'cow': 10, 'diningtable': 11, 'dog': 12,
        'horse': 13, 'motorbike': 14, 'person': 15, 'pottedplant': 16, 'sheep': 17,
        'sofa': 18, 'train': 19, 'tvmonitor': 20
    }

    # 加载 Pascal VOC 数据集
    train_dataset = torchvision.datasets.VOCDetection(
        root='./data', year='2012', image_set='train', download=True, transform=transform, target_transform=target_transform
    )

    if num_samples:
        # 只取少量样本进行快速验证
        train_dataset = torch.utils.data.Subset(train_dataset, range(num_samples))

    # 使用自定义的 collate_fn 处理批次
    train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True, collate_fn=collate_fn)

    return train_loader

5. 构建 Faster R-CNN 模型

我们使用 PyTorch 提供的预训练模型，并修改其最后一层，使其能够适应 Pascal VOC 数据集的 20 个目标类别。以下是模型构建的代码：

import torch.nn as nn
import torchvision.models as models

# 构建 Faster R-CNN 模型
class FasterRCNN_Model(nn.Module):
    def __init__(self, num_classes):
        super(FasterRCNN_Model, self).__init__()
        # 加载预训练的 Faster R-CNN 模型
        self.model = models.detection.fasterrcnn_resnet50_fpn(weights='DEFAULT')
        # 修改最后一层，适配 Pascal VOC 的 20 个类别 + 背景类
        in_features = self.model.roi_heads.box_predictor.cls_score.in_features
        self.model.roi_heads.box_predictor = models.detection.faster_rcnn.FastRCNNPredictor(in_features, num_classes)

    def forward(self, images, targets=None):
        return self.model(images, targets)

6. 模型训练与验证

模型训练时，Faster R-CNN 会根据输入的图像生成多个候选区域，并对这些区域进行分类和边界框回归。我们使用交叉熵损失和回归损失来优化模型。

在训练过程中，我们可以定期打印损失值，帮助我们了解模型的收敛情况。

import torch.optim as optim
import time

# 模型训练函数
def train(model, device, train_loader, optimizer, epoch):
    model.train()
    total_loss = 0
    start_time = time.time()

    for batch_idx, (images, targets) in enumerate(train_loader):
        images = [image.to(device) for image in images]
        targets = [{k: v.to(device) if isinstance(v, torch.Tensor) else v for k, v in t.items()} for t in targets]

        optimizer.zero_grad()
        loss_dict = model(images, targets)
        losses = sum(loss for loss in loss_dict.values())
        losses.backward()
        optimizer.step()

        total_loss += losses.item()

        if batch_idx % 10 == 0:
            elapsed_time = time.time() - start_time
            print(f'Batch {batch_idx}, Loss: {losses.item():.6f}, Elapsed Time: {elapsed_time:.2f} sec')

    avg_loss = total_loss / len(train_loader)
    print(f'Epoch {epoch}: Average training loss: {avg_loss:.6f}')

7. 模型保存

在训练完成后，保存模型的权重以便后续使用。

# 保存模型
torch.save(model.state_dict(), "fasterrcnn_voc.pth")

8. 主流程

我们将所有的部分组合起来，进行完整的训练流程。以下是完整的主函数代码：

def main():
    # 超参数设置
    batch_size = 2
    epochs = 5  # 训练 5 个 epoch
    learning_rate = 0.001
    num_classes = 21  # Pascal VOC 的 20 个类 + 背景类

    # 设置设备
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    # 获取数据加载器
    train_loader = get_data_loader(batch_size)

    # 构建模型
    model = FasterRCNN_Model(num_classes).to(device)

    # 定义优化器
    optimizer = optim.Adam(model.parameters(), lr=learning_rate)

    # 训练模型
    for epoch in range(1, epochs + 1):
        train(model, device, train_loader, optimizer, epoch)

    # 保存模型
    torch.save(model.state_dict(), "fasterrcnn_voc.pth")

if __name__ == '__main__':
    main()