LAVT-RIS

1. BaseInfo

TitleLAVT: Language-Aware Vision Transformer for Referring Image Segmentation
Adresshttps://arxiv.org/abs/2112.02244
Journal/TimeCVPR 2022
AuthorUniversity of Oxford, Shanghai AI Laboratory
Codehttps://github.com/yz93/LAVT-RIS
Read2024/07/29
Table#RS #Seg

2. Creative Q:A

  1. 特征编码后的融合只起到了模态对齐 -> 对视觉和语言同时编码
    在这里插入图片描述

3. Concrete

3.1. Model

![[LAVT-f2.png]]

在 encoder 里做融合

3.1.1. Input

图片+文本

3.1.2. Backbone

Swin Transformer + BERT
Swin Transformer 采用 pixel-word attention module (PWAM) 模块进行多模态融合

  • PWAM:conv 1x1 + ReLU 视觉特征和多模态注意力的结果做点乘
    ![[LAVT-f3.png]]

  • 语言门 Language gate (LG),用于管理语言在语言路径 Language pathway (LP) 上的信息流动。
    ![[LAVT-f4.png]]

3.1.3. Neck

3.1.4. Decoder

双线性上采样插值后的特征图和前一个拼接,以此类推。
拼接后的特征图做两个 conv 3x3 + Batch Norm + ReLU
最终利用 conv 1x1 做 2 分类

3.1.5. Loss

CE

3.2. Training

Swin Transformer - ImageNet-22K 维度 512
BERT,12层,维度 768
CE-loss,AdamW weight_decay: 0.01 lr: 0.00005
40 个 epoch,batch 32
img_size : 480 (no_augment)

3.2.1. Resource

3.2.2 Dataset

NameNumberSizeTaskNote
RefCOCO19,994-Referring Expression Segmentation
RefCOCO+19,992-
G-Ref26,711比前两个的句子表达长,object少

3.3. Eval

verall intersectionover-union (oIoU),
mean intersection-over-union (mIoU),
precision at the 0.5, 0.7, and 0.9 threshold values.

3.4. Ablation

  1. 语言路径 LP
  2. 像素-单词注意力模块 PWAM
  3. 语言门中的激活函数
  4. PWAM 中的归一化层
  5. 用于预测的特征
  6. 多模态注意力模块

4. Reference

[5] Ding-Jie Chen, Songhao Jia, Yi-Chen Lo, Hwann-Tzong Chen, and Tyng-Luh Liu. See-through-text grouping for referring image segmentation. In ICCV, 2019. 1, 2, 6
[13] Henghui Ding, Chang Liu, Suchen Wang, and Xudong Jiang. Vision-language transformer and query generation for referring segmentation. In ICCV, 2021. 1, 2, 6, 8
结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

5. Additional

5.1. RIS

参考图像分割 (RIS)和参考表达式理解(REC)
Referring Image Detection and Segmentation
Remote Sensing Referring Image Detection and Segmentation

5.3. Chatter

消融实验的内容非常充分。
语言模型中潜在的歧义。
建议使用 mIoU 更公平。

  • 22
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值