1. BaseInfo
Title | Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation |
Adress | https://arxiv.org/pdf/2404.03645v1 |
Journal/Time | CVPR 2024 |
Author | 南洋理工 、复旦 |
Code | https://github.com/heshuting555/dshmp |
2. Creative Q&A
- 之前的工作将句子作为一个整体来处理,并直接在视频级别进行识别,将静态图像级线索与时间运动线索混合。-> 将视频级引用表达式,将句子理解解耦为静态和动态感知,并特别强调增强时间理解。
3. Concrete
3.1. Model
- an expression-decoupling module 表达式解耦模块 : 使静态线索和运动线索发挥其独特的作用,缓解了句子嵌入忽略运动线索的问题。
- a hierarchical motion perception module 分层运动感知模块 : 有效地捕捉不同时间尺度的时间信息。
- employ contrastive learning 对比学习区分视觉上相似的物体的运动
3.1.1. Input
视频和文本
3.1.2. Backbone
Mask2Former
3.1.3. Neck
消融实验中显示这个模块的提升最高。分三层最好。
文本部分都是利用了 CrossAttention
3.1.4. Decoder
3.1.5. Loss
3.2. Training
详见 4.2 节。
3.2.1. Resource
3.2.2 Dataset
MeViS [8], Ref-YouTubeVOS [47], Ref-DAVIS17 [23], A2D-Sentences [14], and JHMDB-Sentences [21].
3.3. Eval
J 、 F 、J&F
3.4. Ablation
4. Reference
5. Additional
写的略显潦草。看了代码,DsHmp/dshmp/modeling/transformer_decoder/dshmp_decoder.py 主要是在这个里。多层的 cross 。想找找对文本做处理再和视觉融合的论文。