论文下载链接:https://arxiv.org/abs/2404.00653
代码链接:https://github.com/MCG-NJU/DualDETR
单位:南京大学(王利民团队), 港中大, 上海AI Lab
摘要
时间动作检测(TAD)旨在在未修剪的视频中识别动作边界及其对应的类别。受到DETR在目标检测中的成功启发,一些方法已将基于查询的框架应用到TAD任务中。然而,这些方法通常遵循DETR以在实例级别(即通过其中心点识别每个动作)预测动作,导致边界定位不够优化。
为了解决这个问题,我们提出了一种新的双级别基于查询的TAD框架,称为DualDETR,用于检测实例级别和边界级别的动作。在不同级别的解码需要不同粒度的语义,因此我们引入了一个两分支解码结构。这种结构为不同级别构建了独特的解码过程,有助于在每个级别上明确捕获时间线索和语义。
除了两分支设计外,我们提出了一种联合查询初始化策略来对齐来自两个级别的查询。具体而言,我们使用编码器提案以一对一的方式匹配来自每个级别的查询。然后,匹配的查询使用来自匹配动作提议的位置和内容先验进行初始化。在随后的解码过程中,对齐的双级别查询可以利用互补的线索对匹配的提议进行细化。我们在三个具有挑战性的多标签TAD基准上评估了DualDETR。实验结果表明DualDETR优于现有的最先进方法,在det-mAP下实现了显著的改进,并在seg-mAP下取得了令人印象深刻的结果。
结论
在本文中,我们介绍了DualDETR,一种新颖的双级别基于查询的TAD框架。DualDETR将实例级别和边界级别的解码整合在一起,以实现对时间边界的更精确定位。为了实现对每个级别语义的明确建模,我们提出了一个两分支解码结构,它允许我们捕获每个级别的独特特征。同时,为了实现对动作提议的互补细化,我们引入了查询对齐,它以一对一的方式将双级别查询与编码器提议进行匹配。此外,我们提出了联合查询初始化策略,利用匹配提议的丰富先验进一步增强了对齐。由于双级别设计,DualDETR在各种多标签TAD基准上均表现优异,无需进行NMS后处理。