1. BaseInfo
Title | Referred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation |
Adress | https://arxiv.org/pdf/2305.16318 |
Journal/Time | AAAI 2024 |
Author | 复旦、上海人工智能实验室、港中文 |
Code | https://github.com/OpenGVLab/MUTR |
2. Creative Q&A
- 帧间时间和参考交互,参考 DETR 。
- low-level multi-modal temporal aggregation (MTA), and high-level multi-object temporal interaction (MTI). 低级多尺度聚合和高级多目标交互.
3. Concrete
3.1. Model
3.1.1. Input
视频 + 文本 + 音频
3.1.2. Backbone
类似 DETR 结构的
视觉 Backbone : ResNet 和 Swin
语言 Backbone : RoBERTa
音频 Backbone : VGGish
3.1.3. Module
- Multi-scale Temporal Aggregation(MTA)
F r F_r Fr 是文本和语音特征,主要是 交叉注意力的使用。
特征图 2,3,4 是第一个特征图 1x1 得到的
特征图 5 是用 4 做 3x3 得到的
利用 F r F_r Fr 做 Q。
- Multi-object Temporal Interaction
包含一个 Encoder 和 Decoder
3.1.4. Decoder
Segmentation Head
参考 Language as Queries for Referring Video Object Segmentation
Hungarian Matching
3.1.5. Loss
cls + box(L1 + GIoU) + mask(Dice + Binary focal loss)
3.2. Training
Ref-YouTube-VOS for training (10,093 clips (5 frames per clip) out of 72,920)
3.2.1. Resource
3.2.2 Dataset
Ref-YouTube-VOS + AVSBench S4
Ref-DAVIS 2017.
AV-VOS
3.3. Eval
3.4. Ablation
- 两个模块的有效性
4. Reference
5. Additional
感觉没什么特别有新意的东西,但是效果挺好。是因为 CVPR 2024 的 MeViS 赛道的前两名都用的这个方案。