Datawhale AI夏令营第五期 CV方向 task02笔记

三白该睡觉了

已于 2024-08-30 16:26:28 修改

阅读量358

点赞数 18

文章标签：人工智能笔记计算机视觉

于 2024-08-29 18:47:03 首次发布

本文链接：https://blog.csdn.net/weixin_73773376/article/details/141626094

版权

本文将进一步了解baseline中的代码框架，并对赛事进行进一步的进阶了解。

一、YOLO模型的介绍

物体检测是计算机视觉领域的一个重要任务，它的目标是在图像或视频帧中识别和定位感兴趣的物体。物体检测算法不仅要识别图像中的对象属于哪个类别，还要确定它们在图像中的具体位置，通常以边界框（bounding box）的形式表示。以下是物体检测的一些关键概念和步骤：

输入：物体检测算法的输入通常是一张图像或视频帧。
特征提取：算法使用深度学习模型（如卷积神经网络CNN）来提取图像的特征。这些特征捕捉了图像中的视觉信息，为后续的物体识别和定位提供基础。
候选区域生成：在某些检测算法中，如基于区域的卷积神经网络（R-CNN）及其变体，首先需要生成图像中的候选区域，这些区域可能包含感兴趣的物体。
区域分类和边界框回归：对于每个候选区域，算法需要判断它是否包含特定类别的物体，并预测物体的边界框。这通常涉及到分类任务和回归任务的结合。
非极大值抑制（NMS）：在检测过程中，可能会产生多个重叠的边界框，用于表示同一物体。NMS是一种常用的技术，用于选择最佳的边界框并去除多余的框。

物体检测算法主要分为两类：One-Stage（一阶段）和Two-Stage（两阶段）模型。

One-Stage模型，如YOLO（You Only Look Once）和SSD（Single Shot Detection），直接在单次网络评估中预测图像中所有物体的类别和位置信息。这种方法的优点是速度快，适合实时应用，但可能在精度上不如Two-Stage模型。
Two-Stage模型，如Faster R-CNN，首先使用区域提议网络（Region Proposal Network, RPN）生成候选区域，然后对这些区域进行分类和边界框的精细调整。这种方法的优点是精度高，但速度相对较慢。

两个模式的区别：One-Stage模型通常在单个卷积网络中同时预测类别和位置，而Two-Stage模型则将检测任务分解为两个阶段：区域提议和候选区域的分类与定位。One-Stage模型因为省略了区域提议步骤，所以能够实现更快的检测速度，但这可能会以牺牲一些精度为代价。相比之下，Two-Stage模型通过两步过程提高了检测的准确性，但同时也增加了计算的复杂性和时间消耗。

YOLO，全称为"You Only Look Once"，是一种流行的实时目标检测算法，由Joseph Redmon等人于2015年首次提出。YOLO的核心思想是将目标检测任务视为一个单一的回归问题，直接从图像像素到边界框坐标和类别概率的映射。这种设计使得YOLO能够以非常快的速度进行目标检测，同时保持较高的精度，特别适合需要实时处理的应用场景。

YOLO算法的一个显著特点是它在单个网络评估中同时预测多个边界框和类别概率，而不是像传统的滑动窗口方法那样多次评估。
YOLO使用一个卷积神经网络（CNN）来提取图像特征，然后使用这些特征来预测边界框和类别概率。YOLO的网络结构通常包括多个卷积层和池化层。
YOLO为每个边界框预测一个置信度，这个置信度反映了边界框包含目标的概率以及预测的类别。置信度的计算公式是：Pr(Object) * IOU(pred, truth)，其中Pr(Object)表示格子中存在目标的概率，IOU(pred, truth)表示预测框和真实框的交并比。

YOLO（You Only Look Once）是一种革命性的目标检测算法，以其快速和高效的性能而闻名。自2015年YOLOv1的首次推出以来，YOLO系列已经经历了多次迭代，每一次迭代都在速度、准确性和计算效率方面做出了显著的贡献。

版本号	年份	主要贡献与特点
YOLOv1	2015	实时端到端物体检测，将检测视为回归问题，单次网络评估预测位置和类别。
YOLOv2	2016	引入批量归一化，高分辨率分类器，全卷积网络，能检测超过9000个类别。
YOLOv3	2018	Darknet-53网络，引入特征金字塔网络提高多尺度目标检测能力。
YOLOv4	2020	结合CSPNet、PANet、SAM等技术，提高特征提取和检测效率。
YOLOv5	2020	框架，不同大小模型版本适应不同环境，易用性和性能显著改进。
YOLOv6	2021	多种不同尺寸模型适应工业应用，继续在YOLO系列基础上改进。
YOLOv7	2022	架构变化和一系列免费包提高准确率，保持实时性。
YOLOv8	2023	新功能和改进，包括新的骨干网络、Anchor-Free检测头和新损失函数，提升性能和灵活性。
YOLOv9	2023	引入可编程梯度信息（PGI）和基于梯度路径规划的通用高效层聚合网络（GELAN）架构。
YOLOv10	2024	通过消除非最大抑制（NMS-Free）和优化各种模型组件，实现了最先进的性能。

1.1 YOLO数据集格式

YOLO算法的标注格式主要使用.txt文件来存储图像中物体的标注信息。每个图像都有一个对应的.txt文件，文件中的每行表示一个物体的标注，包括物体的类别索引和边界框（bounding box）的坐标。以下是YOLO标注格式的详细介绍：

类别索引：每个物体的类别由一个整数索引表示，索引对应于预先定义的类别列表。
边界框坐标：边界框由其中心点坐标(x_center, y_center)和宽度width、高度height组成。这些值通常是归一化到图像宽度和高度的比例值，范围在0到1之间。
坐标格式：边界框坐标通常按照[class_index x_center y_center width height]的格式记录，其中class_index是类别索引，x_center和y_center是边界框中心点的x和y坐标，width和height是边界框的宽度和高度。

在YOLO的训练过程中，这样的配置文件允许用户轻松地指定数据集的位置和类别信息，从而无需硬编码在训练脚本中。具体来说，这段配置的含义如下：

path: 指定了数据集的根目录路径，即所有数据子文件夹的上级目录。这里的路径是相对于当前配置文件的路径或者相对于执行训练脚本的工作目录。
train: 定义了训练集图像的相对路径。在训练模型时，程序会在指定的路径下查找图像文件。
val: 定义了验证集图像的相对路径。验证集用于在训练过程中评估模型性能，避免过拟合。
nc: 表示类别的数量，这里设置为2，意味着数据集中有两类物体需要被识别。
names: 是一个列表，包含了每个类别的名称。这里有两个类别，名称分别是"0"和"1"。这些名称在训练和测试过程中用于引用特定的类别。

1.2 YOLO训练日志

在使用YOLO进行训练时，生成的exp/detect/train类型的文件夹是训练过程中的一个关键组成部分。

在训练过程中和训练完成后，都可以查看训练日志。可以优先查看results.png，图像的内容类似如下。从验证集上的损失 (val/box_loss, val/cls_loss, val/dfl_loss) 和性能指标可以评估模型在未见数据上的泛化能力。在下面的训练日志中，我们发现模型在验证集发生了过拟合。

模型权重 (.pt 或 .pth 文件): 训练过程中保存的模型权重，可以用于后续的测试或继续训练。
日志文件 (.log 文件): 包含训练过程中的所有输出信息，如损失值、精度、速度等。
配置文件 (.yaml 或 .cfg 文件): 训练时使用的配置文件副本，记录了数据路径、类别名、模型架构等设置。
图表和可视化: 有时YOLO会生成训练过程中的性能图表，如损失曲线、精度曲线等。
测试结果: 如果训练过程中包括了测试阶段，可能会有测试结果的保存，如检测结果的图片或统计数据
F1_curve.png, PR_curve.png, P_curve.png, R_curve.png: 包含模型性能的不同评估指标曲线图，如F1分数(F1_curve.png)、精确率-召回率曲线(PR_curve.png)、精确率(P_curve.png)和召回率(R_curve.png)。
results.csv: 一个CSV文件，包含模型训练或测试的结果数据。
results.png: 包含训练结果的汇总图表或图像。
train_batch*.jpg: 包含训练过程中不同批次的图像和它们的标注。
val_batch0_labels.jpg, val_batch0_pred.jpg: 验证集批次的图像，可能包含真实标签(labels)和模型预测(pred)的可视化。
weights/: 一个目录，通常包含模型训练过程中保存的权重文件，如.pt或.pth文件。

缩写	作用描述
epoch	表示模型在整个训练数据集上进行了一次前向和后向传播的完整周期。
train/box_loss	衡量模型预测的边界框与真实边界框之间差异的损失值。
train/cls_loss	衡量模型预测的类别与真实类别之间差异的损失值。
train/dfl_loss	衡量模型对难分类样本的关注程度，减少易分类样本的影响。
metrics/precision(B)	在训练过程中，预测为正类别中实际为正类别的比例。
metrics/recall(B)	在训练过程中，所有实际正类别中被模型正确预测为正类别的比例。
metrics/mAP50(B)	在50%的IoU阈值下计算，衡量模型的整体性能。
metrics/mAP50-95(B)	在0.5到0.95的IoU阈值范围内计算，提供更全面的模型性能评估。
val/box_loss	模型在未见过的验证集上的边界框损失，用于监控模型的泛化能力。
val/cls_loss	模型在验证集上的分类损失，用于监控模型的泛化能力。
val/dfl_loss	模型在验证集上的难易样本平衡损失。

二、赛题再刨析

上面介绍了那么多关于YOLO的知识点，那我们为什么要选择YOLO这个模型而不用其他的模型呢？

速度快：YOLO的设计目标是实现快速的对象检测，它在保持相对高准确度的同时，能够实现高帧率的实时检测。
易于实现：YOLO的架构相对简单，易于理解和实现，这使得它在学术和工业界都得到了广泛的应用。
版本迭代：YOLO自2016年首次发布以来，已经经历了多个版本的迭代（如YOLOv5、YOLOv6、YOLOv7等），每个版本都在性能和效率上有所提升。
社区支持：YOLO拥有一个活跃的开发者社区，提供了大量的教程、工具和预训练模型，这使得小白也可以快速上手并应用YOLO。
灵活性：YOLO的架构允许用户根据特定需求调整网络结构，例如改变输入图像的尺寸或调整网络的深度。

我们回归赛题，赛题最终目标是开发一套智能识别系统，能够自动检测和分类城市管理中的违规行为。该系统应利用先进的图像处理和计算机视觉技术，通过对摄像头捕获的视频进行分析，自动准确识别违规行为，并及时向管理部门发出告警，以实现更高效的城市管理。

仔细分析，赛题的本质是其实就是通过选择合适的目标检测模型进行训练，并使用训练后的模型对城市内违规行为进行检测。由于实际应用场景中。需要模型对行为进行快速分析，因此我们抛弃了二阶段目标检测模型（Faster R-CNN、R-CNN等）选择了一阶段目标检测模型（YOLO、SSD等），同时我们不能一味的追求速度而忽略精度以及易于实践的实际需求，最终我们在众多一阶段目标检测模型中选择了YOLO模型。

三、优化代码

具体开始可以参考task01的具体内容，这里不再在讲述一遍。

优化代码这里介绍两个思路：

1.增加训练的数据集，可以增加更多的视频到训练集中进行训练。

2.切换不同的模型预训练权重。

我选择的是方法二，下面是不同权重得出的结果。

首先我选择改变为YOLOv8l模型如下图所示相较于原来的YOLOv8n来说性能提升了不少。

接下来换YOLOv8m模型下面是对应分数：可以看出v8m比v8l的效果好点。

接下来换v8s模型进行比较：比YOLOv8m来说差点。

下面我又换了一个v8s，因为模型太大，我改变了步长和次数，结果不太理想。

总结下来：YOLOv8m的效果是最好的，那么可以在这个模型的前提下再次修改相关系数，从而达到优化模型的一个目的。

之后我又添加了一个数据增强的板块，代码如下：

import os
import cv2
import glob
import pandas as pd
import numpy as np
from tqdm import tqdm
from albumentations import (
    Compose, HorizontalFlip, Rotate, RandomBrightnessContrast, Resize
)

# 定义类别标签
category_labels = ['非机动车违停', '机动车违停', '垃圾桶满溢', '违法经营']

# 数据增强
data_transform = Compose([
    HorizontalFlip(p=0.5),
    Rotate(limit=10, p=0.5),
    RandomBrightnessContrast(p=0.2),
    Resize(height=640, width=640, p=1.0)
])

# 确保目录结构存在
os.makedirs('./yolo-dataset', exist_ok=True)
os.makedirs('./yolo-dataset/train/images', exist_ok=True)
os.makedirs('./yolo-dataset/train/labels', exist_ok=True)
os.makedirs('./yolo-dataset/val/images', exist_ok=True)
os.makedirs('./yolo-dataset/val/labels', exist_ok=True)

# 读取标注文件和视频文件的路径
train_annos = glob.glob('训练集(有标注第一批)/标注/*.json')
train_videos = glob.glob('训练集(有标注第一批)/视频/*.mp4')

# 确保标注文件和视频文件的数量一致
assert len(train_annos) == len(train_videos), "Number of annotation files does not match number of video files."

# 使用 tqdm 进度条显示进度
for anno_path, video_path in tqdm(zip(train_annos, train_videos), total=len(train_annos)):
    print(f"Processing video: {video_path}")
    
    # 读取标注文件
    try:
        anno_df = pd.read_json(anno_path)
    except Exception as e:
        print(f"Failed to read annotation file {anno_path}: {e}")
        continue

    # 打开视频文件
    cap = cv2.VideoCapture(video_path)
    if not cap.isOpened():
        print(f"Failed to open video file {video_path}")
        continue

    frame_idx = 0
    video_name = os.path.splitext(os.path.basename(video_path))[0]
    anno_name = os.path.splitext(os.path.basename(anno_path))[0]

    while True:
        ret, frame = cap.read()
        if not ret:
            break

        img_height, img_width = frame.shape[:2]

        # 数据增强
        augmented = data_transform(image=frame)
        frame = augmented['image']

        # 获取当前帧的标注信息
        frame_anno = anno_df[anno_df['frame_id'] == frame_idx]
        
        # 保存图像文件
        image_path = f'./yolo-dataset/train/images/{anno_name}_{frame_idx}.jpg'
        cv2.imwrite(image_path, frame)

        # 如果当前帧有标注信息，则写入标签文件
        if not frame_anno.empty:
            label_path = f'./yolo-dataset/train/labels/{anno_name}_{frame_idx}.txt'
            with open(label_path, 'w') as up:
                for _, row in frame_anno.iterrows():
                    category, bbox = row['category'], row['bbox']
                    try:
                        category_idx = category_labels.index(category)
                    except ValueError:
                        print(f"Category '{category}' not found in category labels.")
                        continue

                    x_min, y_min, x_max, y_max = bbox
                    x_center = (x_min + x_max) / 2 / img_width
                    y_center = (y_min + y_max) / 2 / img_height
                    width = (x_max - x_min) / img_width
                    height = (y_max - y_min) / img_height

                    if x_center > 1 or y_center > 1 or width > 1 or height > 1:
                        print(f"Bounding box {bbox} exceeds image dimensions.")
                    up.write(f'{category_idx} {x_center:.6f} {y_center:.6f} {width:.6f} {height:.6f}\n')

        frame_idx += 1

    cap.release()

# 创建 yolo.yaml 文件
dir_path = os.path.abspath('./') + '/'

with open('yolo-dataset/yolo.yaml', 'w', encoding='utf-8') as up:
    up.write(f'''
path: {dir_path}/yolo-dataset/
train: train/
val: val/

names:
    0: 非机动车违停
    1: 机动车违停
    2: 垃圾桶满溢
    3: 违法经营
''')

print("处理完成。")

总体的运行时间比较长。

四、参考资料

https://docs.ultralytics.com/datasets/detect/#ultralytics-yolo-format

https://docs.ultralytics.com/guides/yolo-performance-metrics/

https://docs.ultralytics.com/models/yolov8/#performance-metrics

三白该睡觉了

关注

18
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
Datawhale AI夏令营第五期 CV方向 task02笔记

物体检测是计算机视觉领域的一个重要任务，它的目标是在图像或视频帧中识别和定位感兴趣的物体。物体检测算法不仅要识别图像中的对象属于哪个类别，还要确定它们在图像中的具体位置，通常以边界框（bounding box）的形式表示。输入：物体检测算法的输入通常是一张图像或视频帧。特征提取：算法使用深度学习模型（如卷积神经网络CNN）来提取图像的特征。这些特征捕捉了图像中的视觉信息，为后续的物体识别和定位提供基础。候选区域生成。
复制链接

扫一扫