【论文推荐】时序动作检测：Dual DETRs for Multi-Label Temporal Action Detection(CVPR 2024)-CSDN博客

本文链接：https://blog.csdn.net/zhang_JZ1/article/details/137875720

代码链接：https://github.com/MCG-NJU/DualDETR

单位：南京大学(王利民团队), 港中大, 上海AI Lab

摘要

时间动作检测（TAD）旨在在未修剪的视频中识别动作边界及其对应的类别。受到DETR在目标检测中的成功启发，一些方法已将基于查询的框架应用到TAD任务中。然而，这些方法通常遵循DETR以在实例级别（即通过其中心点识别每个动作）预测动作，导致边界定位不够优化。

为了解决这个问题，我们提出了一种新的双级别基于查询的TAD框架，称为DualDETR，用于检测实例级别和边界级别的动作。在不同级别的解码需要不同粒度的语义，因此我们引入了一个两分支解码结构。这种结构为不同级别构建了独特的解码过程，有助于在每个级别上明确捕获时间线索和语义。

除了两分支设计外，我们提出了一种联合查询初始化策略来对齐来自两个级别的查询。具体而言，我们使用编码器提案以一对一的方式匹配来自每个级别的查询。然后，匹配的查询使用来自匹配动作提议的位置和内容先验进行初始化。在随后的解码过程中，对齐的双级别查询可以利用互补的线索对匹配的提议进行细化。我们在三个具有挑战性的多标签TAD基准上评估了DualDETR。实验结果表明DualDETR优于现有的最先进方法，在det-mAP下实现了显著的改进，并在seg-mAP下取得了令人印象深刻的结果。

结论

在本文中，我们介绍了DualDETR，一种新颖的双级别基于查询的TAD框架。DualDETR将实例级别和边界级别的解码整合在一起，以实现对时间边界的更精确定位。为了实现对每个级别语义的明确建模，我们提出了一个两分支解码结构，它允许我们捕获每个级别的独特特征。同时，为了实现对动作提议的互补细化，我们引入了查询对齐，它以一对一的方式将双级别查询与编码器提议进行匹配。此外，我们提出了联合查询初始化策略，利用匹配提议的丰富先验进一步增强了对齐。由于双级别设计，DualDETR在各种多标签TAD基准上均表现优异，无需进行NMS后处理。