LAVT-RIS

Xy-unu

已于 2024-07-30 21:42:38 修改

阅读量463

点赞数 22

分类专栏： Paper 文章标签： python

于 2024-07-29 23:11:59 首次发布

本文链接：https://blog.csdn.net/weixin_45863274/article/details/140783464

版权

1 篇文章 0 订阅

订阅专栏

1. BaseInfo


Title	LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
Adress	https://arxiv.org/abs/2112.02244
Journal/Time	CVPR 2022
Author	University of Oxford, Shanghai AI Laboratory
Code	https://github.com/yz93/LAVT-RIS
Read	2024/07/29
Table	#RS #Seg

![[LAVT-f2.png]]

在 encoder 里做融合

图片+文本

Swin Transformer + BERT
Swin Transformer 采用 pixel-word attention module (PWAM) 模块进行多模态融合

双线性上采样插值后的特征图和前一个拼接，以此类推。
拼接后的特征图做两个 conv 3x3 + Batch Norm + ReLU
最终利用 conv 1x1 做 2 分类

Swin Transformer - ImageNet-22K 维度 512
BERT，12层，维度 768
CE-loss，AdamW weight_decay: 0.01 lr: 0.00005
40 个 epoch，batch 32
img_size : 480 (no_augment)

Name	Number	Size	Task	Note
RefCOCO	19,994	-	Referring Expression Segmentation
RefCOCO+	19,992	-
G-Ref	26,711			比前两个的句子表达长，object少

verall intersectionover-union (oIoU),
mean intersection-over-union (mIoU),
precision at the 0.5, 0.7, and 0.9 threshold values.

[5] Ding-Jie Chen, Songhao Jia, Yi-Chen Lo, Hwann-Tzong Chen, and Tyng-Luh Liu. See-through-text grouping for referring image segmentation. In ICCV, 2019. 1, 2, 6
[13] Henghui Ding, Chang Liu, Suchen Wang, and Xudong Jiang. Vision-language transformer and query generation for referring segmentation. In ICCV, 2021. 1, 2, 6, 8
结合 Swin-Transformer 的 LAVT: Language-Aware Vision Transformer for Referring Image Segmentation 论文笔记

参考图像分割（RIS）和参考表达式理解（REC）
Referring Image Detection and Segmentation
Remote Sensing Referring Image Detection and Segmentation

消融实验的内容非常充分。
语言模型中潜在的歧义。
建议使用 mIoU 更公平。

关注