[RIS]Bridging Vision and Language Encoders

1. BaseInfo

TitleBridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation
Adresshttps://arxiv.org/pdf/2307.11545
Journal/TimeICCV 2023
Author中山大学 / 港中文(深圳) / 腾讯人工智能实验室 / 复旦大学人工智能创新与产业研究院
Codehttps://github.com/kkakkkka/ETRIS
Read20240815
Table#VisonLanguage #referring image segmentation #efficient tuning

2. GAP->Creative Q&A

  1. 参考图像分割的参数高效微调Parameter Efficient Tuning (PET),多数任务限定了单模态的微调或简单的分类任务 -> Bridger 引入特定任务信息,跨模态信息交互。(将一些已经训练好的 backbone 固定,只训练部分参数)
  2. 轻量解码头。
    方法对比简述

3. Concrete

网络整体结构

3.1. Model

  1. a frozen vision-language backbone 参数冻结的 Backbone。
  2. a tunable Bridger 可微调的桥接模块。
  3. a task-specific decoder 特定解码模块

3.1.1. Input

图片 416 × \times × 416 × \times × 3+文本 Token 长度 L (RefCOCO and RefCOCO+ 17 words, G-Ref 22 words)

3.1.2. Backbone

  1. Image :
    • 基于 CNN 的 ResNet; ResNet-50 / ResNet-101
    • 基于 Transformer 的 ViT;ViT-Base
  2. Text: CLIP

3.1.3. Neck

Bridger:(结合论文结构图中的相关部分一起看)

  1. 视觉特征通过 Zoom Layer(结合卷积提取特征) , 语言特征通过 Linear。
    在这里插入图片描述

  2. Interactor (ITA) 特征融合。
    在这里插入图片描述
    多头自注意力 + 交叉注意力 + FFN

  3. 视觉特征通过 Zoom Layer , 语言特征通过 Linear,维度映射回去,加在 Backbone 的特征图上。

3.1.4. Decoder

特定解码头

  1. 分层对齐模块。输入是不同尺度的视觉特征和最后得到的全局特征,利用 1x1 卷积聚合特征。
    在这里插入图片描述
  2. 全局对齐模块。
    Transformer Decoder + Projector

3.1.5. Loss

文本到像素的对齐损失。
![[Pasted image 20240807092249.png]]

3.2. Training

NameValue
epoch50
batch size32
optimizerAdam λ = 0.0001
Bridgerλ = 0.001 for ViT and λ = 0.0001 for ResNet. decrease the learning rate by 0.1 at the 35th epoch
TextEncoder64
Transformer Decoder3 层 ,each with 8 heads and a feed-forward hidden dimension of 512.
Projector卷积核为 3

推理时,将预测结果上采样到原始图像大小,并以 0.35 为阈值进行二值化处理,得出最终结果,而无需任何额外的后处理。

3.2.1. Resource

A100 * 2 with 40 GPU VRAM

3.2.2 Dataset

这三个自然图像领域参考图像分割的经典数据集了。

NameImages Numberreferencesreference expressions
RefCOCO19,99450,000142,209
RefCOCO+19,99249,856141,564
G-Ref26,71154,822104,560

3.3. Eval

Intersection over Union (IoU) and Precision@X ,X ∈ 0.5, 0.6, 0.7, 0.8, 0.9
表中结果是 oIoU
在这里插入图片描述

3.4. Ablation

  1. Effect of Bridger’s number and position, Bridger 数量和位置的作用: 范围的扩大能提高性能,而桥接器的数量则影响不大。
    在这里插入图片描述

  2. Effect of ZL’s component. Zoom Layer 的组成 :使用卷积层和解卷积层进行放大和缩小操作在性能和参数之间取得了最佳平衡。这些结果表明,通过利用基于卷积的操作,我们可以调整特征图的大小,以方便即将进行的注意力操作,并增强特征图的局部信息.
    在这里插入图片描述

  3. Effect of Bridger, Hierarchical Alignment Module (HA) and Global Alignment Module (GA). 解码头的 HA 、GA 和 Bridger 的有效性。
    在这里插入图片描述

4. Reference

论文Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation (刚开始接触这个领域的时候几乎看的都是这个博主的内容,写的都很好!)

CRIS: CLIP-Driven Referring Image Segmentation (CVPR2022)
Parameter-efficient transfer learning for nlp.
Vl-adapter: Parameter-efficient transfer learning for vision-and-language tasks.

5. Additional

含附录 :

分析:
将 MDETR 的视觉主干与文本编码器连接起来,同时固定双编码器的参数。此外,我们还加入了一个 FPN(特征金字塔网络),以有效合并来自不同阶段的特征图。融合后的特征图将被输送到解码转换器。 (1) 将类别名称视为文本进行语义分割;(2) 结合 FPN 网络进行对象检测;(3) 对解码器稍作修改进行分类。分数可达 88.37.

  1. Effect of Bridger’s hidden dim : 64 层最好。
  2. 和 Adapter 结合。
    在这里插入图片描述

在这里插入图片描述

局限性:
相似数字的混淆。 物体密度高时分割不稳定。
未来的研究工作可能需要侧重于增强模型对语言信息的理解能力,并提高其在多目标场景中准确分割被遮挡物体的应变能力。

目前在分割领域对遮挡物体,小目标的分割性能还是可以提升的。
实验还是挺充分的。

  • 26
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值