[VL | RIS]CrossVLT : Cross-aware Early Fusion with Stage-divided Vision and Language Transformer

Xy-unu

于 2024-08-30 10:22:58 发布

阅读量575

点赞数 13

文章标签： transformer 深度学习人工智能 python 论文阅读

本文链接：https://blog.csdn.net/weixin_45863274/article/details/141702299

版权

1. BaseInfo


Title	Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation
Adress	https://ieeexplore.ieee.org/document/10345690
Journal/Time	IEEE TMM 2023
Author	韩国 Sogang University
Code	https://github.com/yubin1219/CrossVLT
Read	20240830

Cross-aware early fusion with stage-divided Vision and Language Transformer encoders (CrossVLT)
阶段划分、交叉感知、早期融合、多阶段特征对齐
在这里插入图片描述

Stage-divided Vision and Language Encoders ： backbone 部分。四个语言的特征，在 2、3、4 三个语言特征处把自注意力变为语言做 Q 的语言视觉交叉注意力。
Cross-aware Early Fusion： CrossVLT/lib/vision_encoder.py 中的 FusionLayer 和 bert/modeling_bert.py 中的 `
Feature-based Alignment

图 + 文

Swin transformer - Base (ImageNet 初始化)+ BERT-base

2 个 3x3 卷积，batch normalization 和 a ReLU function。
上采样使用 bilinear interpolation。
1 × 1 convolution 将最终的预测掩码变为 2 值分类。

交叉熵 CE + 对齐损失
在这里插入图片描述

有设计的对齐损失，图文之间的对比损失。
在这里插入图片描述

在这里插入图片描述

Name	Images Number	Task
RefCOCO	19,994 images with 142,209 language expressions	RIS
RefCOCO+	19,992 images with 141,564 expressions	RIS
G-Ref	26,711 images with 104,560 expressions	RIS

oIoU, precision at 0.5, 0.7, and 0.9 thresholds
在这里插入图片描述

VLT ： Vision-Language Transformer and Query Generation for Referring Segmentation 2021 南洋理工
ReSTR: Convolution-free Referring Image Segmentation Using Transformers 2022
PLV ： Progressive Language-Customized Visual Feature Learning for One-Stage Visual Grounding 2022
CRIS: CLIP-Driven Referring Image Segmentation 2021

LAVT 真的很强，这个语言视觉双引导的分数在和 LAVT 比几乎也没高特别多。
消融实验也比较丰富，跑一下代码看看效果。
主要是对语言分支的一个改进和融合，双向引导。

关注