题目:Progressive End-to-End Object Detection in Crowded Scenes
作者:Anlin Zheng1,3*,Yuang Zhang2*,Xiangyu Zhang1,Xiaojuan Qi3,Jian Sun1
发表单位:旷世科技,上海交通大学,港大
关键词:端到端物体检测,基于查询query_based , 拥挤场景行人检测 , 一对一标签分配
论文:Progressive End-to-End Object Detection in Crowded Scenes
代码:https://github.com/megvii-model/Iter-E2EDET
1 Motivation
考虑先前的基于查询的检测器通常有两个缺点:
- 拥挤场景下,单个目标产生多个预测
(绿色-真阳性;红色-假阳性)
- 随解码阶段深度的增加,性能趋于饱和
因此,由一对一标签分配的性质,论文提出了一种渐进式预测方法解决上述问题。具体来说:
首先选择易于产生真阳性预测的已接受查询,然后根据已接受的查询细化剩余的噪声查询。
(在下面这张测试图片中论文消除了单个目标的假阳性,使结果中每个对象只被检查到一次!)
总的来说,高置信度的(如>0.7)预测中可以准确预测很大比例的目标对象,其中包含少量的假阳性(重复预测);低置信度的预测中真假阳性都相当多;高置信度的预测更可能产生真阳性,因此作为可接受的查询;低置信度的预测比较混杂作为噪声查询;**本文目的是“使噪声查询具有‘感知’其目标是否已被可接受的查询检测到了,比如目标A,如果已被可接受的查询(置信度高)检测到,就降低A的噪声查询的置信度(更低),以过滤掉这