关于目标检测项目传统方法再到YOLO-V1、YOLO-V2详细介绍

梁奋旗

已于 2024-10-10 14:54:00 修改

阅读量721

点赞数 22

文章标签：目标检测 YOLO 人工智能 yolov1 yolov2 深度学习卷积神经网络

于 2024-10-10 14:50:45 首次发布

本文链接：https://blog.csdn.net/weixin_69683009/article/details/142819586

版权

摘要：本文对目标检测技术进行了综述。首先介绍了目标检测的基本概念和面临的问题，接着阐述了常用的数据集以及Ground Truth的不同格式。然后详细讨论了目标检测的评估指标，包括IoU、准确率、召回率等。还描述了传统的目标检测方法及其局限性，重点介绍了深度学习方法中的anchor box、anchor-base和anchor-free概念，以及two stage和one stage算法流程。最后深入剖析了YOLO系列算法，包括YOLO-V1的核心思想、网络架构、损失函数等，以及YOLO-V2在Batch Normalization、分辨率、网络结构、聚类提取先验框等方面的改进。

一、目标检测概述

目标检测是计算机视觉领域的重要任务，旨在识别图片中有哪些物体并且找到物体的存在位置，这是一个多任务问题，涉及位置和类别两个方面。在实际应用中，目标检测面临着诸多挑战，例如目标种类与数量繁多、目标尺度不均以及遮挡、噪声等外部环境干扰。

二、目标检测的数据集和Ground Truth

（一）数据集

1. VOC数据集：PASCAL VOC挑战赛提供了相关数据集，它包含4大类，20小类。其中VOC 2007有9963张图片，24640个目标；VOC 2012有23080张图片，54900个目标。

2. COCO数据集：起源于微软2014年出资标注的MS COCO数据库，包含20万个图像，80个类别，超过50万个目标标注，平均每个图像的目标数是7.2。

（二）Ground Truth格式

1. YOLO（TXT）格式 - 以(x,y,w,h)表示，分别代表中心点坐标和宽、高，且x,y,w,h均为归一化结果。

2. VOC（XML）格式 - 以(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

3. COCO（JSON）格式 - 以(Xmin, Ymin, W, H)表示，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高。 ##

三、目标检测的评估指标

1. IoU（Intersection over Union）

用于度量生成的预测结果与真实边界框的重合程度。首先过滤掉低类别置信度的检测结果，然后使用IoU作为边界框正确性的度量指标。

2. 准确率（Precision）和召回率（Recall）

准确率是指预测为正样本且实际为正样本的比例（IoU>阈值），召回率是指实际为正样本且被预测为正样本的比例（漏检目标为假的负样本）。还包括P - R曲线、mean AP（每个类别所得到的AP的均值）以及Average Precision（11点法、近似面积法等计算方式）。

四、目标检测的方法

（一）传统方法

传统方法如滑动窗口法，需要人工设计尺寸，存在大量冗余操作且定位不准确。

（二）深度学习方法

1. anchor box相关概念

anchor box用ratio+scale描述，其位置由feature map的点决定，scale表示目标大小，aspect ratio表示目标形状。 - anchor-base是自顶向下的，类似于传统方法需穷举然后筛选；anchor-free是自底向上的，自动生成，不需要预设anchor。

2. 算法流程

two stage算法流程包括类别预测、ROI、输入CNN、fc、NMS、pooling、位置回归、proposal等步骤。 - one stage算法流程包括类别预测、输入CNN、NMS、位置回归。常见的two stage算法有R - CNN、SPP - Net、Fast R - CNN、Faster R - CNN等；常见的one stage算法有YOLO系列、SSD系列等。