Progressive End-to-End Object Detection in Crowded Scenes-拥挤场景下的渐进式端到端目标检测

在这里插入图片描述

题目:Progressive End-to-End Object Detection in Crowded Scenes
作者:Anlin Zheng1,3*,Yuang Zhang2*,Xiangyu Zhang1,Xiaojuan Qi3,Jian Sun1
发表单位:旷世科技,上海交通大学,港大
关键词:端到端物体检测,基于查询query_based , 拥挤场景行人检测 , 一对一标签分配
论文:Progressive End-to-End Object Detection in Crowded Scenes
代码:https://github.com/megvii-model/Iter-E2EDET

1 Motivation

考虑先前的基于查询的检测器通常有两个缺点:

  • 拥挤场景下,单个目标产生多个预测
    (绿色-真阳性;红色-假阳性)
    在这里插入图片描述
  • 随解码阶段深度的增加,性能趋于饱和

因此,由一对一标签分配的性质,论文提出了一种渐进式预测方法解决上述问题。具体来说:

首先选择易于产生真阳性预测的已接受查询,然后根据已接受的查询细化剩余的噪声查询
(在下面这张测试图片中论文消除了单个目标的假阳性,使结果中每个对象只被检查到一次!)在这里插入图片描述

总的来说,高置信度的(如>0.7)预测中可以准确预测很大比例的目标对象,其中包含少量的假阳性(重复预测);低置信度的预测中真假阳性都相当多;高置信度的预测更可能产生真阳性,因此作为可接受的查询;低置信度的预测比较混杂作为噪声查询;**本文目的是“使噪声查询具有‘感知’其目标是否已被可接受的查询检测到了,比如目标A,如果已被可接受的查询(置信度高)检测到,就降低A的噪声查询的置信度(更低),以过滤掉这个A的低置信度查询。”**这样一来,A的重复框就少了,假阳性也就降低了。
在这里插入图片描述

2 Method

本文的渐进式目标检测器如下图示,主要包括预测选择器、关系信息提取器查询更新器、以及新的一对一标签分配规则
在这里插入图片描述

2.1 预测选择器

选择那些易于生成具有准确预测的高置信度分数的预测的查询作为可接受的查询,而剩下的查询作为需要进一步细化的噪声查询。

2.2 关系信息提取器

为了使这些有噪声的查询具备感知其目标是否被检测到的能力,我们开发了一个关系信息提取器,以对有噪声的预测与其接受的邻居之间的空间关系进行建模/交互。
(下图是关系信息提取器R的详细设计)

在这里插入图片描述
下图是关系信息提取器的数学推导式组,总的来说,就是先找到与噪声查询与其对应的可接受查询(称为噪声查询的邻居,通过iou匹配找到的),然后对噪声查询与其邻居之间的空间几何关系建模。

在这里插入图片描述

2.3 查询更新器

为了进一步细化有噪声查询的特征,开发了一个查询更新器
在这里插入图片描述
由于 D t − 1 {D}_{t-1} Dt1lKaTeX parse error: Double superscript at position 12: {D}_{t-1}^h^̲ 的数据分布不同于Dt−1,因此首先引入了一组新的可学习查询,以通过按元素求和来补充关系特征。然后,将该组补充的噪声查询作为输入查询qt−1,以执行新的局部自关注LMSAt−1和Equ中给出的后续动态卷积。(1). 因为对象检测主要关注图像中的局部区域。我们设计了一个新的局部自我关注模块LMSAt来更新有噪声的查询qt−1。它确保每个查询只与本地邻居交互,而不是整个图像上的整个查询。本地自我关注首先根据值大于0的框的IoU查找每个查询的邻居。然后,它以与MSA相同的方式执行“qkv”机制。为此,我们在本地而非全球执行自我关注。

2.4 一对一标签分配规则

下图是论文提出的新的一对一标签分配的算法;与已有匹配规则的区别在于匹配成本计算与原始版本略有不同采用空间先验来计算匹配成本C,即边界框bt的中心需要落在相应的目标框中。
在这里插入图片描述

针对端到端的对象检测,论文引入了一种新的一对一标签分配规则来逐步分配样本。具体来说,①首先将可接受的预测 D t − 1 {D}_{t-1} Dt1h与物体的地面真值集G进行匹配,然后移除那些已经匹配的目标;②主要考虑有噪声预测 D t − 1 {D}_{t−1} Dt1l 和剩余的地面真相对象集 G t {G}_{t} Gtl 之间的二分匹配。
(下图是我的一个理解)
在这里插入图片描述

3 结论

在本文中,我们提出了一种渐进式预测方法,以提高基于查询的对象检测器在处理拥挤场景时的性能。配备了我们的方法,两种代表性的基于查询的方法稀疏RCNN[37]和可变形DETR[52]在重度、中度和轻度拥挤的数据集[35,47,26]上实现了一致的改进,这表明我们的方法对拥挤具有鲁棒性。由于稀疏RCNN[37]和可变形DETR[52]需要大量计算资源,因此我们的方法很难部署在计算能力有限的设备上。如何开发计算效率端到端检测器仍在探索中。此外,我们发现对于有噪声的查询,决策边界是不清楚的。我们认为,如果采用更好的特征工程方法或损失函数,则可以进一步提高性能然而,这超出了这项工作的目的。

  • 9
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值