1. BaseInfo
Title | LAVT: Language-Aware Vision Transformer for Referring Image Segmentation |
Adress | https://arxiv.org/abs/2112.02244 |
Journal/Time | CVPR 2022 |
Author | University of Oxford, Shanghai AI Laboratory |
Code | https://github.com/yz93/LAVT-RIS |
Read | 2024/07/29 |
Table | #RS #Seg |
2. Creative Q:A
- 特征编码后的融合只起到了模态对齐 -> 对视觉和语言同时编码
3. Concrete
3.1. Model
在 encoder 里做融合
3.1.1. Input
图片+文本
3.1.2. Backbone
Swin Transformer + BERT
Swin Transformer 采用 pixel-word attention module (PWAM) 模块进行多模态融合
-
PWAM:conv 1x1 + ReLU 视觉特征和多模态注意力的结果做点乘
-
语言门 Language gate (LG),用于管理语言在语言路径 Language pathway (LP) 上的信息流动。
3.1.3. Neck
3.1.4. Decoder
双线性上采样插值后的特征图和前一个拼接,以此类推。
拼接后的特征图做两个 conv 3x3 + Batch Norm + ReLU
最终利用 conv 1x1 做 2 分类
3.1.5. Loss
CE
3.2. Training
Swin Transformer - ImageNet-22K 维度 512
BERT,12层,维度 768
CE-loss,AdamW weight_decay: 0.01 lr: 0.00005
40 个 epoch,batch 32
img_size : 480 (no_augment)
3.2.1. Resource
3.2.2 Dataset
Name | Number | Size | Task | Note |
---|---|---|---|---|
RefCOCO | 19,994 | - | Referring Expression Segmentation | |
RefCOCO+ | 19,992 | - | ||
G-Ref | 26,711 | 比前两个的句子表达长,object少 |
3.3. Eval
verall intersectionover-union (oIoU),
mean intersection-over-union (mIoU),
precision at the 0.5, 0.7, and 0.9 threshold values.
3.4. Ablation
- 语言路径 LP
- 像素-单词注意力模块 PWAM
- 语言门中的激活函数
- PWAM 中的归一化层
- 用于预测的特征
- 多模态注意力模块
4. Reference
[5] Ding-Jie Chen, Songhao Jia, Yi-Chen Lo, Hwann-Tzong Chen, and Tyng-Luh Liu. See-through-text grouping for referring image segmentation. In ICCV, 2019. 1, 2, 6
[13] Henghui Ding, Chang Liu, Suchen Wang, and Xudong Jiang. Vision-language transformer and query generation for referring segmentation. In ICCV, 2021. 1, 2, 6, 8
结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记
5. Additional
5.1. RIS
参考图像分割 (RIS)和参考表达式理解(REC)
Referring Image Detection and Segmentation
Remote Sensing Referring Image Detection and Segmentation
5.3. Chatter
消融实验的内容非常充分。
语言模型中潜在的歧义。
建议使用 mIoU 更公平。