一、目标检测:识别图片中有哪些物体并且找到物体的存在位置,多任务旨在从图像或视频中找出感兴趣的目标(如人、动物、车辆等)的位置,并确定其类别。位置信息通常用边界框(bounding box)来表示,即包含目标的最小矩形区域,一般由左上角坐标和右下角坐标或者中心坐标以及宽和高来确定。可能存在目标种类与数量繁多,目标尺度不均,遮挡、噪声等外部环境。
二、应用场景:1、在安防监控领域,可以检测监控画面中的可疑人物、车辆等目标,及时发现异常行为。2、在自动驾驶中,检测道路上的行人、其他车辆、交通标志等目标,为车辆的行驶决策提供依据。3、在工业生产中,检测产品表面的缺陷或者识别生产线上的零部件种类和位置。
三、目标检测的数据集
1、VOC数据集:PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。
2、COCO数据集:起源于微软2014年出资标注的MS COCO数据库。
召回率(Recall):定义为预测正确的目标个数(真正例)与图像中实际存在的目标个数(真正例 + 假反例,True Positives+False Negatives)的比值。它反映了检测算法能够检测到的目标比例,高召回率表示漏检(将目标检测为背景)较少。
平均精度(Average Precision,AP):在不同的召回率下计算精度,并对这些精度值求平均得到平均精度。对于多类别目标检测,通常会计算每个类别的平均精度,然后再求平均得到平均精度均值(mAP,Mean Average Precision),mAP 是评估目标检测算法性能的一个重要指标。
3、交并比(Intersection over Union,IoU):用于衡量预测的边界框和真实边界框的重叠程度。计算方式为预测边界框与真实边界框的交集面积与并集面积的比值。在目标检测中,通常会设定一个 IoU 阈值(如 0.5),当预测边界框与真实边界框的 IoU 大于这个阈值时,才认为检测正确。
六、目标检测的传统方法
· 滑动窗口法:需要人工设计尺寸,大量冗余操作,定位不准确。
七、目标检测的深度学习方法
anchor box,anchor-base和anchor-free,非极大值抑制(Non-maximum suppression,NMS)
two stage算法流程:
经典发展线:R-CNN、SPP-Net、Fast R-CNN、 Faster R-CNN
其他:Cascade R-CNN、Guided Anchoring
one stage算法流程:
YOLO系列:YOLO v1-v5
SSD系列:SSD、DSSD、FSSD
其他经典:RefineDet
其中YOLO-V1详细介绍如下
优缺点:
优点:快速,简单!
缺点1:每个Cell只预测一个类别,如果重叠无法解决
缺点2:小物体检测效果一般,长宽比可选的但单一
·核心思想:将目标检测视为回归问题,划分网格进行目标检测,多个边界框预测与置信度,类别预测基于网格。
网络架构:骨干网络,全连接层,输入与输出。
损失函数:
NMS(非极大值抑制):