深度学习-目标检测

01111zz

于 2024-10-10 14:49:47 发布

阅读量389

点赞数 12

文章标签：深度学习目标检测人工智能笔记

本文链接：https://blog.csdn.net/weixin_68275321/article/details/142820479

版权

一、目标检测：识别图片中有哪些物体并且找到物体的存在位置，多任务旨在从图像或视频中找出感兴趣的目标（如人、动物、车辆等）的位置，并确定其类别。位置信息通常用边界框（bounding box）来表示，即包含目标的最小矩形区域，一般由左上角坐标和右下角坐标或者中心坐标以及宽和高来确定。可能存在目标种类与数量繁多，目标尺度不均，遮挡、噪声等外部环境。

二、应用场景：1、在安防监控领域，可以检测监控画面中的可疑人物、车辆等目标，及时发现异常行为。2、在自动驾驶中，检测道路上的行人、其他车辆、交通标志等目标，为车辆的行驶决策提供依据。3、在工业生产中，检测产品表面的缺陷或者识别生产线上的零部件种类和位置。

三、目标检测的数据集

1、VOC数据集：PASCAL VOC挑战赛(The PASCAL Visual Object Classes)是一个世界级的计算机视觉挑战赛。

Ø 4 大类， 20 小类

Ø VOC 2007 ： 9963 图片 /24640 目标

Ø VOC 2012 ： 23080 图片 /54900 目标

2、COCO数据集：起源于微软2014年出资标注的MS COCO数据库。

Ø 包含 20 万个图像

Ø 80 个类别

Ø 超过 50 万个目标标注

Ø 平均每个图像的目标数是7.2

四、目标检测的 Ground Truth

类别 + 真实边界框坐标 ( x,y,w,h )

1、YOLO(TXT)格式： (x,y,w,h) 分别代表中心点坐标和宽、高。 x ,y,w,h均为归一化结果。

2、VOC(XML)格式： (Xmin,Ymin,Xmax,Ymax)分别代表左上角和右下角的两个坐标。

3、COCO(JSON)格式： (Xmin, Ymin, W, H)，其中x,y,w,h均不是归一化后的数值，分别代表左上角坐标和宽、高。

五、目标检测的评估指标

1、准确率，召回率

准确率（Precision）：定义为预测正确的目标个数（真正例，True Positives）与预测出来的目标个数（真正例 + 假正例，True Positives + False Positives）的比值。它反映了检测结果中真正目标所占的比例，高准确率表示检测结果中误报（将背景检测为目标）较少。

召回率（Recall）：定义为预测正确的目标个数（真正例）与图像中实际存在的目标个数（真正例 + 假反例，True Positives+False Negatives）的比值。它反映了检测算法能够检测到的目标比例，高召回率表示漏检（将目标检测为背景）较少。

2、 mean与average

mean：算数平均

average：包含其他的度量指标

平均精度（Average Precision，AP）：在不同的召回率下计算精度，并对这些精度值求平均得到平均精度。对于多类别目标检测，通常会计算每个类别的平均精度，然后再求平均得到平均精度均值（mAP，Mean Average Precision），mAP 是评估目标检测算法性能的一个重要指标。

3、交并比（Intersection over Union，IoU）：用于衡量预测的边界框和真实边界框的重叠程度。计算方式为预测边界框与真实边界框的交集面积与并集面积的比值。在目标检测中，通常会设定一个 IoU 阈值（如 0.5），当预测边界框与真实边界框的 IoU 大于这个阈值时，才认为检测正确。