【论文推荐】时序动作检测:Dual DETRs for Multi-Label Temporal Action Detection(CVPR 2024)

论文下载链接:https://arxiv.org/abs/2404.00653

代码链接:https://github.com/MCG-NJU/DualDETR

单位:南京大学(王利民团队), 港中大, 上海AI Lab

摘要

时间动作检测(TAD)旨在在未修剪的视频中识别动作边界及其对应的类别。受到DETR在目标检测中的成功启发,一些方法已将基于查询的框架应用到TAD任务中。然而,这些方法通常遵循DETR以在实例级别(即通过其中心点识别每个动作)预测动作,导致边界定位不够优化。

为了解决这个问题,我们提出了一种新的双级别基于查询的TAD框架,称为DualDETR,用于检测实例级别和边界级别的动作。在不同级别的解码需要不同粒度的语义,因此我们引入了一个两分支解码结构。这种结构为不同级别构建了独特的解码过程,有助于在每个级别上明确捕获时间线索和语义。

除了两分支设计外,我们提出了一种联合查询初始化策略来对齐来自两个级别的查询。具体而言,我们使用编码器提案以一对一的方式匹配来自每个级别的查询。然后,匹配的查询使用来自匹配动作提议的位置和内容先验进行初始化。在随后的解码过程中,对齐的双级别查询可以利用互补的线索对匹配的提议进行细化。我们在三个具有挑战性的多标签TAD基准上评估了DualDETR。实验结果表明DualDETR优于现有的最先进方法,在det-mAP下实现了显著的改进,并在seg-mAP下取得了令人印象深刻的结果。

结论

在本文中,我们介绍了DualDETR,一种新颖的双级别基于查询的TAD框架。DualDETR将实例级别和边界级别的解码整合在一起,以实现对时间边界的更精确定位。为了实现对每个级别语义的明确建模,我们提出了一个两分支解码结构,它允许我们捕获每个级别的独特特征。同时,为了实现对动作提议的互补细化,我们引入了查询对齐,它以一对一的方式将双级别查询与编码器提议进行匹配。此外,我们提出了联合查询初始化策略,利用匹配提议的丰富先验进一步增强了对齐。由于双级别设计,DualDETR在各种多标签TAD基准上均表现优异,无需进行NMS后处理。

  • 3
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值