[RIS]GRES: Generalized Referring Expression Segmentation

1. BaseInfo

TitleGRES: Generalized Referring Expression Segmentation
Adresshttps://arxiv.org/pdf/2306.00968
Journal/TimeCVPR2023
Author南洋理工
Codehttps://github.com/henghuiding/ReLA
Read20240829
TableVisonLanguage

2. Creative Q&A

  1. 考虑结果多目标和无目标,基于 Mask2Former,能够指向任意数量的目标类别
    在这里插入图片描述
  2. 数据集 gRefCOCO 构建,包含单目标、多目标和无目标。
  3. ReLA

3. Concrete

在这里插入图片描述
主要是多目标和无目标的改进。
prediction : 图像、文本、GT Mask、预测结果、有无目标。

        out = {
            'pred_logits': predictions_class[-1], # [B, Q, num_classes + 1]
            'pred_masks': tgt_mask, # [ B, num_classes + 1, H/4, W/4]
            'all_masks': outputs_mask,
            'nt_label': nt_label # [B, 2]
        }

3.1. Model

arch
将视觉和语言特征输入 ReLA 模块。
在这里插入图片描述

3.1.1. Input

图片+文本

3.1.2. Backbone

Swin-Transformer + BERT

3.1.3. Neck

3.1.4. Decoder

在 RelA 后就是很简单的 MLP

3.1.5. Loss

交叉熵损失

3.2. Training

3.2.1 Dataset

RefCOCO
RefCOCO+
G-Ref
gRefCOCO

3.3. Eval

cumulative IoU (cIoU) and Precision@X (Pr@X), we further introduce No-target accuracy (N-acc.), Target accuracy (T-acc.), and generalized IoU (gIoU) for GRES.

  1. 在 gRefCOCO 上的
    在这里插入图片描述

3.4. Ablation

  1. 数据集的必要性
  2. RIA 和 RLA 的必要性
  3. P 的数量 10 最佳

4. Reference

RES 系列 GRES: Generalized Referring Expression Segmentation 论文阅读笔记

5. Additional

有点吃显存。
简单读一下,后面 ReLA 还是没怎么看懂。后面再结合代码读的时候再详细写吧…

  • 18
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值