[VL | RIS] ReMamber: Referring Image Segmentation with Mamba Twister

最新推荐文章于 2024-10-12 21:43:17 发布

Xy-unu

最新推荐文章于 2024-10-12 21:43:17 发布

阅读量753

点赞数 23

分类专栏： Paper # VL 文章标签： transformer 深度学习人工智能论文阅读论文笔记

本文链接：https://blog.csdn.net/weixin_45863274/article/details/142162498

版权

Paper 同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

1. BaseInfo


Title	ReMamber: Referring Image Segmentation with Mamba Twister
Adress	https://arxiv.org/pdf/2403.17839
Journal/Time	ECCV 2024
Author	上海交通、诺丁汉
Code	https://github.com/yyh-rain-song/ReMamber
Read	240912

2. Creative Q&A

把 Mamba 用在 RIS
Mamba Twister blocks 融合视觉语言

3. Concrete

a novel referring segmentation architecture with Mamba twister.

3.1. Model

在这里插入图片描述
Mamba Twister block ：几个 visual state space (VSS) layers 和 a Twisting layer
VSS 层最初提取视觉特征，Twisting 层将文本信息注入到视觉模态中。

Twisting 层：
1. vision-language interaction ：评估视觉和文本标记之间的相似性然后将它们映射到共享特征空间
2. hybrid feature cube ：连接视觉特征、多模态特征和全局文本特征来创建混合特征立方体
3. twisting mechanism ：沿通道和空间维度的两个连续 SSM 扫描
  
  在每个 Mamba Twister 块之后提取中间特征，并将其输入到解码器中进行最终分割。

3.1.1. Input

图 (大小 480) + 文

3.1.2. Backbone

用了 Vmamba 里的 Cross-Scan-Module ,生成视觉状态空间 (VSS) 层。
Mamba and VMamba
补丁大小为 4 和隐藏维度为 128 的补丁嵌入层，然后是 4 Mamba Twister 块。
每个 Twister 块由几个 VSS 层和一个 Twisting 层组成。VSS 层数配置设置为 2-2-15-2，隐藏维度分别为 128-256-512-1024。