[VL | RIS]CrossVLT : Cross-aware Early Fusion with Stage-divided Vision and Language Transformer

1. BaseInfo

TitleCross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation
Adresshttps://ieeexplore.ieee.org/document/10345690
Journal/TimeIEEE TMM 2023
Author韩国 Sogang University
Codehttps://github.com/yubin1219/CrossVLT
Read20240830

2. Creative Q&A

  1. 融合方法和阶段上 - > 早期交叉感知
    在这里插入图片描述
    a 不能很好利用编码器的信息; b 都是单向的用视觉引导语言 ; c 在编码中双向交互。

  2. 在融合前模态对齐,仅利用最后一层特征的对比学习 -> 每一个中间层的特征都进行对齐

3. Concrete

Cross-aware early fusion with stage-divided Vision and Language Transformer encoders (CrossVLT)
阶段划分、交叉感知、早期融合、多阶段特征对齐
在这里插入图片描述

3.1. Model

  1. Stage-divided Vision and Language Encoders : backbone 部分。四个语言的特征,在 2、3、4 三个语言特征处把自注意力变为语言做 Q 的语言视觉交叉注意力。
  2. Cross-aware Early Fusion: CrossVLT/lib/vision_encoder.py 中的 FusionLayerbert/modeling_bert.py 中的 `
    在这里插入图片描述
  3. Feature-based Alignment
    在这里插入图片描述

3.1.1. Input

图 + 文

3.1.2. Backbone

Swin transformer - Base (ImageNet 初始化)+ BERT-base

3.1.3. Neck

3.1.4. Decoder

2 个 3x3 卷积,batch normalization 和 a ReLU function。
上采样使用 bilinear interpolation。
1 × 1 convolution 将最终的预测掩码变为 2 值分类。

3.1.5. Loss

交叉熵 CE + 对齐损失
在这里插入图片描述

有设计的对齐损失,图文之间的对比损失。
在这里插入图片描述

在这里插入图片描述

3.2. Training

  • batch size : 16
  • epoch: 40
  • AdamW Lr: 3e-4
  • polynomial learning rate decay scheduler
  • Input images 480 x 480
  • Sentence Token 20 + [cls] = 21

3.2.1. Resource

3.2.2 Dataset

NameImages NumberTaskNote
RefCOCO19,994 images with 142,209 language expressionsRIS
RefCOCO+19,992 images with 141,564 expressionsRIS
G-Ref26,711 images with 104,560 expressionsRIS

3.3. Eval

oIoU, precision at 0.5, 0.7, and 0.9 thresholds
在这里插入图片描述

3.4. Ablation

  1. 对齐和融合模块
    在这里插入图片描述
  2. 融合对齐模块位置、损失
    在这里插入图片描述
  3. 语言编码器块的设置
    在这里插入图片描述
  4. Backbone 和 Decoder 设置
    在这里插入图片描述

4. Reference

  1. VLT : Vision-Language Transformer and Query Generation for Referring Segmentation 2021 南洋理工
  2. ReSTR: Convolution-free Referring Image Segmentation Using Transformers 2022
  3. PLV : Progressive Language-Customized Visual Feature Learning for One-Stage Visual Grounding 2022
  4. CRIS: CLIP-Driven Referring Image Segmentation 2021

5. Additional

LAVT 真的很强,这个语言视觉双引导的分数在和 LAVT 比几乎也没高特别多。
消融实验也比较丰富,跑一下代码看看效果。
主要是对语言分支的一个改进和融合,双向引导。

  • 13
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值