1. BaseInfo
Title | ReMamber: Referring Image Segmentation with Mamba Twister |
Adress | https://arxiv.org/pdf/2403.17839 |
Journal/Time | ECCV 2024 |
Author | 上海交通、诺丁汉 |
Code | https://github.com/yyh-rain-song/ReMamber |
Read | 240912 |
2. Creative Q&A
- 把 Mamba 用在 RIS
- Mamba Twister blocks 融合视觉语言
3. Concrete
a novel referring segmentation architecture with Mamba twister.
3.1. Model
Mamba Twister block : 几个 visual state space (VSS) layers 和 a Twisting layer
VSS 层最初提取视觉特征,Twisting 层将文本信息注入到视觉模态中。
- Twisting 层 :
- vision-language interaction : 评估视觉和文本标记之间的相似性然后将它们映射到共享特征空间
- hybrid feature cube :连接视觉特征、多模态特征和全局文本特征来创建混合特征立方体
- twisting mechanism : 沿通道和空间维度的两个连续 SSM 扫描
在每个 Mamba Twister 块之后提取中间特征,并将其输入到解码器中进行最终分割。
3.1.1. Input
图 (大小 480) + 文
3.1.2. Backbone
用了 Vmamba 里的 Cross-Scan-Module ,生成视觉状态空间 (VSS) 层。
Mamba and VMamba
补丁大小为 4 和隐藏维度为 128 的补丁嵌入层,然后是 4 Mamba Twister 块。
每个 Twister 块由几个 VSS 层和一个 Twisting 层组成。VSS 层数配置设置为 2-2-15-2,隐藏维度分别为 128-256-512-1024。
3.1.3. Neck
- Hybrid Feature Cube.
全局交互和局部交互。
全局交互:文本扩展到和视觉相同的。
局部交互:利用矩阵乘法,语言和视觉的
最后拼接图像特征、全局特征和局部特征。 F c u b e F_{cube} Fcube
对 F c u b e F_{cube} Fcube 先通道再空间
- 上下文 : 在图像特征之前附加文本序列
- 注意力 : 交叉注意机制进行两种模态融合
- 适应器 : 使用 FiLM 调整规范层之后的尺度和偏差来整合文本输入。我们首先从文本序列中汇集全局表示,然后使用线性投影将其转换为层归一化的尺度和移位。
3.1.4. Decoder
简单的基于卷积的解码器。整个网络以端到端的方式进行训练。
ReMamber_Conv:具有 4 个残差块的渐进式上采样架构,每个残差块 2 个卷积层。
ReMamber_Mamba:与 ReMaber_Conv 类似,但使用 VSS 层而不是卷积层。
3.1.5. Loss
3.2. Training
3.2.1. Resource
3.2.2 Dataset
RefCOCO, RefCOCO+, and G-Ref
3.3. Eval
Precision@X (X∈ {50, 60, 70, 90})
3.4. Ablation
交叉注意力机制本质上不适合 Mamba 架构。Mamba 更重序列。
Adaptation 在计算尺度和偏差时,它只使用一个池化向量作为文本表示,而非整个序列。
先 Channel-Spatial 的组合会好一些。
解码头仅用了几个卷积层
含附录: 比 LAVT 速度快。