[VL | RVOB] Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation

最新推荐文章于 2024-10-18 11:21:51 发布

Xy-unu

最新推荐文章于 2024-10-18 11:21:51 发布

阅读量278

点赞数 3

分类专栏： Paper # VL 文章标签：人工智能计算机视觉论文阅读深度学习

本文链接：https://blog.csdn.net/weixin_45863274/article/details/142451869

版权

21 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

1. BaseInfo


Title	Decoupling Static and Hierarchical Motion Perception for Referring Video Segmentation
Adress	https://arxiv.org/pdf/2404.03645v1
Journal/Time	CVPR 2024
Author	南洋理工、复旦
Code	https://github.com/heshuting555/dshmp

之前的工作将句子作为一个整体来处理，并直接在视频级别进行识别，将静态图像级线索与时间运动线索混合。-> 将视频级引用表达式,将句子理解解耦为静态和动态感知，并特别强调增强时间理解。

视频和文本

Mask2Former

在这里插入图片描述
消融实验中显示这个模块的提升最高。分三层最好。
文本部分都是利用了 CrossAttention

在这里插入图片描述

详见 4.2 节。

MeViS [8], Ref-YouTubeVOS [47], Ref-DAVIS17 [23], A2D-Sentences [14], and JHMDB-Sentences [21].

J 、 F 、J&F

写的略显潦草。看了代码，DsHmp/dshmp/modeling/transformer_decoder/dshmp_decoder.py 主要是在这个里。多层的 cross 。想找找对文本做处理再和视觉融合的论文。

关注

专栏目录