[RIS]ReLA GRES: Generalized Referring Expression Segmentation-CSDN博客

本文链接：https://blog.csdn.net/weixin_45863274/article/details/141686376

1. BaseInfo


Title	GRES: Generalized Referring Expression Segmentation
Adress	https://arxiv.org/pdf/2306.00968
Journal/Time	CVPR2023
Author	南洋理工
Code	https://github.com/henghuiding/ReLA
Read	20240829
Table	VisonLanguage

2. Creative Q&A

考虑结果多目标和无目标，基于 Mask2Former，能够指向任意数量的目标类别
数据集 gRefCOCO 构建，包含单目标、多目标和无目标。
ReLA

3. Concrete

在这里插入图片描述
主要是多目标和无目标的改进。
prediction ：图像、文本、GT Mask、预测结果、有无目标。

        out = {
            'pred_logits': predictions_class[-1], # [B, Q, num_classes + 1]
            'pred_masks': tgt_mask, # [ B, num_classes + 1, H/4, W/4]
            'all_masks': outputs_mask,
            'nt_label': nt_label # [B, 2]
        }

3.1. Model

arch
将视觉和语言特征输入 ReLA 模块。
在这里插入图片描述

3.1.1. Input

图片+文本

3.1.2. Backbone

Swin-Transformer + BERT

3.1.3. Neck

3.1.4. Decoder

在 RelA 后就是很简单的 MLP

3.1.5. Loss

交叉熵损失

3.2. Training

3.2.1 Dataset

RefCOCO
RefCOCO+
G-Ref
gRefCOCO

3.3. Eval

cumulative IoU (cIoU) and Precision@X (Pr@X), we further introduce No-target accuracy (N-acc.), Target accuracy (T-acc.), and generalized IoU (gIoU) for GRES.