[VL | VOS]MUTR:A Unified Temporal Transformer for Multi-Modal Video Object Segmentation

13 篇文章 0 订阅

1. BaseInfo

TitleReferred by Multi-Modality: A Unified Temporal Transformer for Video Object Segmentation
Adresshttps://arxiv.org/pdf/2305.16318
Journal/TimeAAAI 2024
Author复旦、上海人工智能实验室、港中文
Codehttps://github.com/OpenGVLab/MUTR

2. Creative Q&A

  1. 帧间时间和参考交互,参考 DETR 。
  2. low-level multi-modal temporal aggregation (MTA), and high-level multi-object temporal interaction (MTI). 低级多尺度聚合和高级多目标交互.

3. Concrete

3.1. Model

在这里插入图片描述

3.1.1. Input

视频 + 文本 + 音频

3.1.2. Backbone

类似 DETR 结构的
视觉 Backbone : ResNet 和 Swin
语言 Backbone : RoBERTa
音频 Backbone : VGGish

3.1.3. Module

  1. Multi-scale Temporal Aggregation(MTA)
    F r F_r Fr 是文本和语音特征,主要是 交叉注意力的使用。
    特征图 2,3,4 是第一个特征图 1x1 得到的
    特征图 5 是用 4 做 3x3 得到的
    利用 F r F_r Fr 做 Q。
    在这里插入图片描述
  2. Multi-object Temporal Interaction
    在这里插入图片描述
    包含一个 Encoder 和 Decoder

3.1.4. Decoder

Segmentation Head
参考 Language as Queries for Referring Video Object Segmentation
Hungarian Matching

3.1.5. Loss

cls + box(L1 + GIoU) + mask(Dice + Binary focal loss)
在这里插入图片描述

3.2. Training

Ref-YouTube-VOS for training (10,093 clips (5 frames per clip) out of 72,920)

3.2.1. Resource

3.2.2 Dataset

Ref-YouTube-VOS + AVSBench S4
Ref-DAVIS 2017.
AV-VOS

3.3. Eval

3.4. Ablation

  1. 两个模块的有效性在这里插入图片描述

4. Reference

5. Additional

感觉没什么特别有新意的东西,但是效果挺好。是因为 CVPR 2024 的 MeViS 赛道的前两名都用的这个方案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值