关于目标检测项目传统方法再到YOLO-V1、YOLO-V2详细介绍

摘要:本文对目标检测技术进行了综述。首先介绍了目标检测的基本概念和面临的问题,接着阐述了常用的数据集以及Ground Truth的不同格式。然后详细讨论了目标检测的评估指标,包括IoU、准确率、召回率等。还描述了传统的目标检测方法及其局限性,重点介绍了深度学习方法中的anchor box、anchor-base和anchor-free概念,以及two stage和one stage算法流程。最后深入剖析了YOLO系列算法,包括YOLO-V1的核心思想、网络架构、损失函数等,以及YOLO-V2在Batch Normalization、分辨率、网络结构、聚类提取先验框等方面的改进。

一、目标检测概述

目标检测是计算机视觉领域的重要任务,旨在识别图片中有哪些物体并且找到物体的存在位置,这是一个多任务问题,涉及位置和类别两个方面。在实际应用中,目标检测面临着诸多挑战,例如目标种类与数量繁多、目标尺度不均以及遮挡、噪声等外部环境干扰。

 二、目标检测的数据集和Ground Truth

(一)数据集

1. VOC数据集:PASCAL VOC挑战赛提供了相关数据集,它包含4大类,20小类。其中VOC 2007有9963张图片,24640个目标;VOC 2012有23080张图片,54900个目标。

2. COCO数据集:起源于微软2014年出资标注的MS COCO数据库,包含20万个图像,80个类别,超过50万个目标标注,平均每个图像的目标数是7.2。

(二)Ground Truth格式

1. YOLO(TXT)格式 - 以(x,y,w,h)表示,分别代表中心点坐标和宽、高,且x,y,w,h均为归一化结果。

2. VOC(XML)格式 - 以(Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

3. COCO(JSON)格式 - 以(Xmin, Ymin, W, H)表示,其中x,y,w,h均不是归一化后的数值,分别代表左上角坐标和宽、高。 ##

三、目标检测的评估指标

1. IoU(Intersection over Union) 

用于度量生成的预测结果与真实边界框的重合程度。首先过滤掉低类别置信度的检测结果,然后使用IoU作为边界框正确性的度量指标。

2. 准确率(Precision)和召回率(Recall) 

准确率是指预测为正样本且实际为正样本的比例(IoU>阈值),召回率是指实际为正样本且被预测为正样本的比例(漏检目标为假的负样本)。还包括P - R曲线、mean AP(每个类别所得到的AP的均值)以及Average Precision(11点法、近似面积法等计算方式)。 

四、目标检测的方法

(一)传统方法

传统方法如滑动窗口法,需要人工设计尺寸,存在大量冗余操作且定位不准确。

(二)深度学习方法

1. anchor box相关概念

anchor box用ratio+scale描述,其位置由feature map的点决定,scale表示目标大小,aspect ratio表示目标形状。 - anchor-base是自顶向下的,类似于传统方法需穷举然后筛选;anchor-free是自底向上的,自动生成,不需要预设anchor。

2. 算法流程 

two stage算法流程包括类别预测、ROI、输入CNN、fc、NMS、pooling、位置回归、proposal等步骤。 - one stage算法流程包括类别预测、输入CNN、NMS、位置回归。常见的two stage算法有R - CNN、SPP - Net、Fast R - CNN、Faster R - CNN等;常见的one stage算法有YOLO系列、SSD系列等。

3. 非极大值抑制(NMS) 

设定目标框的置信度阈值(常用0.5左右),根据置信度降序排列候选框列表,选取置信度最高的框添加到输出列表并从候选框列表删除,候选框列表中的框与该框计算IoU,删除大于阈值的候选框,重复此过程直到候选框列表为空。 

五、YOLO系列算法

(一)YOLO - V1

1. 核心思想 - 把检测问题转化成回归问题,一个CNN就可搞定。将输入图像划分成S×S网格,每个网格预测B个bounding boxes和对应的置信度以及类别概率。

2. 网络架构 - 基于GoogLeNet进行修改,包含多个卷积层和全连接层等,最终输出7×7×30的张量,其中7×7表示网格大小,30表示每个网格单元对应的数据维度。

3. 损失函数 - 包括位置误差、置信度误差(分为含有物体和不含物体两种情况)以及分类误差。

4. 优缺点 - 优点是快速、简单;缺点是每个Cell只预测一个类别,无法解决重叠问题,小物体检测效果一般,长宽比可选但单一。

(二)YOLO - V2

1. 改进方面

(1)Batch Normalization

舍弃Dropout,卷积后全部加入Batch Normalization,使网络每层输入归一化,收敛更容易,提升2%的mAP。

(2)分辨率

V1训练用224×224,测试用448×448,V2训练时额外进行10次448×448的微调,使用高分辨率分类器后mAP提升约4%。

(3)网络结构

基于DarkNet,实际输入为416×416,没有FC层,5次降采样(13×13),1×1卷积节省参数。

(4)聚类提取先验框

通过K - means聚类提取先验框,与faster - rcnn系列不同,先验框不是直接按固定长宽比给定。

(5)Anchor Box

引入anchor boxes,增加预测box数量。

(6)Directed Location Prediction

采用相对grid cell的偏移量计算,避免模型不稳定。

(7)Fine - Grained Features

融合之前的特征,解决最后一层感受野太大导致小目标丢失的问题。

(8)Multi - Scale

在一定iterations之后改变输入图片大小,最小320×320,最大608×608。

综上所述,目标检测技术从传统方法不断发展到深度学习方法,YOLO系列算法在其中具有重要地位,尤其是YOLO - V2在多个方面的改进使其性能得到了进一步提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值