Shape-IoU: More Accurate Metric considering Bounding Box Shape and Scale

pdf链接:https://pan.baidu.com/s/1T534oaZWQY65SRh0QZ3bug 
提取码:yyds

作为检测定位分支的重要组成部分,边界框回归损失在目标检测任务中起着重要作用。现有的边界框回归方法通常考虑GT框和预测框之间的几何关系,通过相对位置和框形来计算损失,而忽略边界框的固有属性(如边界框的形状和尺寸)对边界框回归的影响。为了弥补现有研究的不足,本文提出了一种关注边界框自身形状和尺寸的边界框回归方法。首先,分析了边界框的回归特性,并发现边界框自身的形状和尺寸因素将对回归结果产生影响。基于上述结论提出了Shape IoU方法,该方法通过关注边界框自身的形状和尺寸来计算损失,从而使边界框回归更准确。最后,通过大量的比较实验验证了Shape-IoU方法,实验结果表明,Shape-IoU可以有效提高检测性能,并超越现有方法,在不同的检测任务中实现最先进的性能。代码:GitHub - malagoutou/Shape-IoU 论文:https://arxiv.org/pdf/2312.17663.pdf

关键词-目标检测,损失函数,边界框回归

图1: 左图、右图的回归样本只在边界框形状上有所不同,两个回归样本分别对应GT盒长边方向和短边方向的偏差是相同的,从图中可以看出GT盒形状因素导致的回归效果的差异。右图的回归效果优于左图。

1.介绍

目标检测是计算机视觉的基本任务之一,其目标是在图像中定位和识别物体。根据是否生成Anchor点,可以将方法分为基于Anchor点的方法和基于Anchor点的方法。基于Anchor点的方法包括FasterR-CNN,YOLO系列,SSD和RetinaNet。基于Anchor点的方法包括CornerNet, CenterNet和FCOS。在这些检测器中,边界框回归损失函数作为局部化分支的重要组件起着不可替代的作用。

在目标检测领域,最常用的方法包括IoU, GIoU, CIoU, SIoU等。IoU作为目标检测领域最广泛使用的损失函数,其优点在于更准确地描述了预测框和GT框之间的匹配程度。其缺点主要在于当两个框的交点为0时,无法准确描述预测框和GT框之间的位置关系。GIoU通过引入最小检测框来解决这个问题,从而提供了一个具体的改进。CIoU进一步提高了检测精度,通过在考虑预测框和GT框的中心点之间的归一化距离最小化的基础上,增加了一个形状损失项。在SIoU的工作中,提出将连接预测框中心点和GT框中心点的线的角大小作为新的损失项来考虑,以更准确地通过角的变化来判断预测框和GT框之间的匹配程度。总之,边界框回归的主要方法是通过在IoU的基础上添加新的几何约束来使回归更准确。上述方法考虑了GT框和Anchor框的距离、形状和角度对边界框回归的影响,但忽略了边界框自身的形状和尺寸也会对边界框回归产生影响的事实。为了进一步提高回归的准确性,作者分析了边界框自身形状和角度的影响,并提出了一个新的边界回归损失:Shape-IoU。

本文的主要贡献如下:

  1. 分析结果表明,在边界框回归过程中,边界框回归样本自身的形状和尺寸因素将对回归结果产生影响。
  2. 基于现有的边界框回归损失函数,考虑到边界框回归样本自身的形状和尺寸对边界框回归的影响,提出了Shape-IoU损失函数,并在微型目标检测任务中提出了Shape-dot-distance和Shape-nwd损失。
  3. 在各种检测任务上使用最先进的单阶段检测器进行了系列的比较实验,实验结果表明,本文提出的方法的检测效果优于现有方法,达到了最先进的水平。

2.相关工作

2.1 目标检测中基于IOU的度量

近年来,随着检测器的不断发展,边界框回归损失也得到了快速的发展。最初,IoU被提出用于评估边界框回归的状态,而基于IoU的DIoU, CIoU, EIoU, SIoU等方法则通过在IoU的基础上添加不同的约束来实现更好的检测。

1) IoU Metric: IoU是最流行的目标检测评估指标,定义如下:

其中,BBGT分别表示预测框和GT框。

2) GIoU Metric: 由于在边界框回归中,GT框和 Anchor 框之间没有重叠,导致IoU损失出现梯度消失的问题,因此提出了GIoU(广义IoU)来解决这个问题。其定义如下:

其中,C表示GT框和 Anchor 框之间的最小检测框。

3) DIoU Metric:由于在边界框回归中,GT框和 Anchor 框之间没有重叠,导致IoU损失出现梯度消失的问题,因此提出了GIoU(广义IoU)来解决这个问题。其定义如下:

与GIoU相比,DIoU考虑了边界框之间的距离约束,并在IoU的基础上添加了中心点归一化距离损失项,从而使得回归结果更准确。其定义如下:

在这里,和分别表示 Anchor 框的中心点和GT框的中心点,表示欧几里得距离,其中表示和之间的最小检测框的斜边长度。

CIoU进一步考虑了GT和Anchor框之间的形状相似性,通过在DIoU的基础上添加一个新的形状损失项来减少Anchor框和GT框之间的宽高比差异。其定义如下:

在这里,和分别表示GT框的宽度和高度,和分别表示Anchor框的宽度和高度。

4) EIoU Metric:EIoU根据CIoU重新定义了形状损失,并进一步通过直接减小GT框和Anchor框之间的宽高比来提高检测精度。其定义如下:

在这里,wchc分别表示最小检测框覆盖GT框和Anchor框的宽度和高度。

5) SIoU Metric:在前人研究的基础上,SIoU进一步考虑了边界框之间的角度对边界框回归的影响,旨在通过减小Anchor框和GT框之间的角度(水平或垂直方向)来加速收敛过程。其定义如下:

2.2 微小目标检测中的度量

基于IoU的度量适用于一般的目标检测任务,对于小目标检测,为了克服自身对IoU值的敏感性,提出了Dot Distance[13]和Normalized Wasserstein Distance (NWD)[14]。

1) Dot Distance:

其中D为GT盒中心点与锚框中心点之间的欧氏距离,S为目标在数据集中的平均大小。M表示图像数量,Ni表示第i张图像中标记的边界框数量,wijhij分别表示第i张图像种中第j条边界的宽度和高度。

2) 归一化高斯Wasserstein距离:

其中weight = 2,C是与数据集相关的常数。

3.方法

3.1边界框回归特征分析

图2

如图2所示,边界框回归样本A和B中的GT框的尺寸相同,而C和D中的GT框的尺寸相同。A和D中的GT框的形状相同,而B和C中的GT框的形状相同。C和D中边界框的尺寸大于A和B中边界框的尺寸。在图2a中,所有边界框回归样本的偏差相同,形状偏差为0。

图2a和图2b之间的区别在于,图2b中所有边界框回归样本的形状偏差相同,为0。

在图2a中,A和B之间的偏差相同,但是IoU值存在差异。

在图2a中,C和D之间的偏差相同,但是IoU值存在差异,与A和B相比,IoU值的差异并不显著。

在图2b中,A和B的形状偏差相同,但是IoU值存在差异。在图2b中,C和D的形状偏差相同,但是IoU值存在差异,与图2a中的A和B相比,IoU值的差异并不显著。

在图2a中,A和B之间的IoU值差异的原因在于它们的GT框有不同的形状,偏差方向分别对应长边和短边,对A来说,GT框长边方向的偏差对IoU值的影响较小,而对于B来说,短边方向的偏差对IoU值的影响较大。

与大规模边界框相比,小规模边界框对IoU值的变化更加敏感,GT框的形状对小规模边界框的IoU值有更大的影响。因为A和B的规模比C和D小,所以在形状和偏差相同时,IoU值的差异更加显著。

类似地,从形状偏差的视角分析边界框回归,可以发现回归样本中GT框的形状会影响其IoU值在回归过程中的变化。

根据以上的分析,可以得出以下结论:

  1. 假设GT框不是正方形,具有长边和短边,回归样本中的边界框形状和尺寸差异会导致在偏差和形状偏差相同时,其IoU值存在差异。
  2. 对于相同尺度的边界框回归样本,当偏差和形状偏差相同时且不为0时,边界框的形状将影响回归样本的IoU值。边界框在短边方向上的偏差和形状偏差对应的变化对IoU值的影响更为显著。
  3. 对于具有相同形状的回归样本,当回归样本的偏差和形状偏差相同时且不为0时,与较大尺度的回归样本相比,较小尺度边界框回归样本的IoU值更显著受到GT框形状的影响。

3.2 Shape-IoU

Shape-IoU的计算公式如图3所示:

图3

其中,scale是缩放因子,与数据集中目标的大小相关,wwhh分别表示水平方向和垂直方向上的权重系数,其值与GT框的形状有关。相应的边界框回归损失如下:

3.3 Shape-IoU在小目标上的应用

1) Shape-Dot Distance:将Shape-IoU的思想融入到点距离(Dot Distance)中,得到Shape-Dot Distance,其定义如下:

2) Shape-NWD: 同样地,将Shape-IoU的思想融入到归一化Normalized Wasserstein Distance(NWD)中,得到Shape-NWD,其定义如下:

4.实验

4.1 PASCAL VOC上的YOLOv8和YOLOv7

PASCAL VOC数据集是目标检测领域最流行的数据集之一,本文使用VOC2007和VOC2012的训练集和val作为包含16551张图像的训练集,使用VOC2007的测试集作为包含4952张图像的测试集。在本实验中,我们选择了最先进的单级检测器YOLOv8s和YOLOv7-tiny对VOC数据集进行对比实验,并选择SIoU作为实验的对比方法。实验结果见表1:

表1:SIoU和Shape-IoU损失函数在Yolov7和Yolov8上的表现

4.2 VisDrone2019在YOLOv8上

VisDrone2019是目标检测领域最受欢迎的无人机航拍图像数据集,与一般数据集相比,它包含了大量的小目标。本实验选择YOLOv8s作为检测器,比较方法为SIoU。实验结果如下:

表2:SIoU和Shape-IoU损耗在Yolov8上的表现

4.3 AI-TOD在YOLOv5上

AI-TOD是遥感图像数据集,与一般数据集不同的是,它包含了大量的微小目标,目标的平均大小仅为12.8像素。本实验选择YOLOv5s作为检测器,对比方法为SIoU。实验结果如表三所示:

表3:SIoU和Shape-IoU损耗在Yolov5上的表现

5.结论

在本文中总结了现有边界框回归方法的优势和劣势,指出现有研究方法主要考虑GT框和预测框之间的几何约束,而忽略了边界框自身的几何因素(如形状和尺寸)对回归结果的影响。然后,通过分析边界框的回归特性发现了边界框自身几何因素可以影响回归的规则。基于上述分析提出了Shape-IoU方法,该方法可以专注于边界框自身的形状和尺寸来计算损失,从而提高准确性。最后,在不同尺度的数据集上使用最先进的单阶段检测器进行了一系列比较实验,实验结果表明Shape-IoU优于现有方法,并实现了最先进的性能。

  • 27
    点赞
  • 31
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 3
    评论
Siou Loss是一种用于边界框回归的损失函数,它比传统的平方损失函数更强大。 边界框回归是目标检测任务中的重要组成部分,它的目标是预测图像中物体的位置和大小。传统的平方损失函数在边界框回归中常被使用,但它在处理物体尺寸变化和不均衡数据上存在一些问题。而Siou Loss通过解决这些问题,提供了更强大的学习能力。 Siou Loss通过引入IoU(Intersection over Union)来度量预测边界框和真实边界框之间的相似度。IoU是指预测边界框和真实边界框的交集区域与并集区域的比值,它能更好地描述边界框的匹配度。 Siou Loss不仅考虑了预测边界框和真实边界框之间的位置差异,还考虑了它们之间的尺度差异。这使得Siou Loss在处理物体尺寸变化时更加灵活,能够更好地适应不同尺寸的物体。 此外,Siou Loss还能够解决数据不均衡的问题。在目标检测任务中,负样本(非物体区域)通常远远多于正样本(物体区域),这导致传统的平方损失函数在训练过程中很难平衡正负样本之间的关系。而Siou Loss通过IoU作为权重,可以有效地平衡正负样本之间的重要性,提高了模型对于正样本的关注程度。 综上所述,Siou Loss作为一种更为强大的学习方法,在边界框回归任务中具有优势。它通过引入IoU来度量相似度,并解决了尺度变化和数据不均衡的问题,提高了模型的学习能力和预测准确性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

长沙有肥鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值