[VL | RIS] ReMamber: Referring Image Segmentation with Mamba Twister

12 篇文章 0 订阅

1. BaseInfo

TitleReMamber: Referring Image Segmentation with Mamba Twister
Adresshttps://arxiv.org/pdf/2403.17839
Journal/TimeECCV 2024
Author上海交通、诺丁汉
Codehttps://github.com/yyh-rain-song/ReMamber
Read240912

2. Creative Q&A

  1. 把 Mamba 用在 RIS
  2. Mamba Twister blocks 融合视觉语言

3. Concrete

a novel referring segmentation architecture with Mamba twister.

3.1. Model

在这里插入图片描述
Mamba Twister block : 几个 visual state space (VSS) layers 和 a Twisting layer
VSS 层最初提取视觉特征,Twisting 层将文本信息注入到视觉模态中。

  • Twisting 层 :
    1. vision-language interaction : 评估视觉和文本标记之间的相似性然后将它们映射到共享特征空间
    2. hybrid feature cube :连接视觉特征、多模态特征和全局文本特征来创建混合特征立方体
    3. twisting mechanism : 沿通道和空间维度的两个连续 SSM 扫描
      在这里插入图片描述
      在每个 Mamba Twister 块之后提取中间特征,并将其输入到解码器中进行最终分割。

3.1.1. Input

图 (大小 480) + 文

3.1.2. Backbone

用了 Vmamba 里的 Cross-Scan-Module ,生成视觉状态空间 (VSS) 层。
Mamba and VMamba
补丁大小为 4 和隐藏维度为 128 的补丁嵌入层,然后是 4 Mamba Twister 块。
每个 Twister 块由几个 VSS 层和一个 Twisting 层组成。VSS 层数配置设置为 2-2-15-2,隐藏维度分别为 128-256-512-1024。

3.1.3. Neck

  • Hybrid Feature Cube.
    全局交互和局部交互。
    全局交互:文本扩展到和视觉相同的。
    局部交互:利用矩阵乘法,语言和视觉的
    最后拼接图像特征、全局特征和局部特征。 F c u b e F_{cube} Fcube
    F c u b e F_{cube} Fcube 先通道再空间
    在这里插入图片描述
  1. 上下文 : 在图像特征之前附加文本序列
  2. 注意力 : 交叉注意机制进行两种模态融合
  3. 适应器 : 使用 FiLM 调整规范层之后的尺度和偏差来整合文本输入。我们首先从文本序列中汇集全局表示,然后使用线性投影将其转换为层归一化的尺度和移位。

3.1.4. Decoder

简单的基于卷积的解码器。整个网络以端到端的方式进行训练。
ReMamber_Conv:具有 4 个残差块的渐进式上采样架构,每个残差块 2 个卷积层。
ReMamber_Mamba:与 ReMaber_Conv 类似,但使用 VSS 层而不是卷积层。

3.1.5. Loss

3.2. Training

3.2.1. Resource

3.2.2 Dataset

RefCOCO, RefCOCO+, and G-Ref

3.3. Eval

Precision@X (X∈ {50, 60, 70, 90})

在这里插入图片描述

3.4. Ablation

交叉注意力机制本质上不适合 Mamba 架构。Mamba 更重序列。
Adaptation 在计算尺度和偏差时,它只使用一个池化向量作为文本表示,而非整个序列。
在这里插入图片描述
先 Channel-Spatial 的组合会好一些。
解码头仅用了几个卷积层
含附录: 比 LAVT 速度快。

4. Reference

5. Additional

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值