[Transformer] TransVOD: End-to-End Video Object Detection with Spatial-Temporal Transformers

Cherry_qy

已于 2022-02-28 14:58:05 修改

阅读量4.9k

点赞数 3

分类专栏： Transformer backbone 文章标签： transformer 目标检测深度学习

于 2022-02-28 14:57:53 首次发布

本文链接：https://blog.csdn.net/weixin_46746665/article/details/123182623

版权

Transformer backbone 专栏收录该内容

18 篇文章

订阅专栏

该文介绍了如何将DETR和DeformableDETR的Transformer架构扩展到视频对象检测（TransVOD），减少人工设计组件，如光流、RNN和关系网络。TransVOD通过TemporalTransformer结合时空信息，实现端到端的检测，无需后处理。网络结构包含SpatialTransformer、TemporalDeformableTransformerEncoder、TemporalQueryEncoder和TemporalDeformableTransformerDecoder，其中TemporalDeformableAttention关注关键采样点以提高效率。损失函数采用一对一匹配规则，避免后处理。文章对比了与传统方法的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2022年1月

https://arxiv.org/abs/2201.05047v3

https://github.com/SJTU-LuHe/TransVOD.

DETR《End-to-End Object Detection with Transformers》

Deformable DETR《Deformable Transformers for End-to-End Object Detection》

TransVOD 《End-to-End Video Object Detection with Spatial-Temporal Transformers》

标题一脉相承

本文笔记基于2021.5版本，比较老；新版的论文加入了TransVOD++，在此并未详述。

1 简介

DETR和Deformable DETR用于Object Detection，可以在减少人工设计的组件（非最大抑制、Anchor生成）的情况下仍然取得较好的效果。

下图为DETR示意图

而TransVOD就是将这种思想运用到VOD（video object detection）中，减少人工设计组件的数量，例如光流、RNN以及关系网络等。另外，本文的方法不需要进行后处理。

2 网络结构

对于当前帧，使用一系列视频帧作为输入，输出当前帧的检测结果。

在DETR的基础上加上一个Temporal transformer。

Temporal transformer由三个部分构成， Temporal Deformable Transformer Encoder (TDTE) ，Temporal Query Encoder (TQE) ，and Temporal Deformable Transformer Decoder （TDTD）。对于每一帧，这几个模块都是共享的，并通过端到端的方式进行训练。