[VG] TransVG++

1. BaseInfo

TitleTransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer
Adresshttps://arxiv.org/pdf/2206.06619
Journal/Time202206 IEEE TPAMI
Author中科大
Codehttps://github.com/djiajunustc/TransVG
Read20240717/ 0829
TableVisonLanguage

2. Creative Q&A

  1. 将融合模块变为 Transformer 块。
  2. 将视觉任务当做回归任务。直接回归 box 的坐标进行定位而不是选择候选的 boxes。

3. Concrete

在这里插入图片描述

  • 两阶段方法:首先产生一组区域 proposal,然后根据区域-表达式的匹配结果选择最合适的 proposal。
  • 单阶段方法:在目标检测器的中间层执行视觉语言融合,输出最高分数的 box。
  • TransVG :图和语言分别送入两个分支, 将融合结果送入视觉-语言 Transformer 块直接回归出指代目标的 box。
  • TransVG++ :语言引导的视觉 Transformer (移除了单独的融合模块,移除CNN,完全基于 Transformer)

3.1. Model

在这里插入图片描述
TransVG 四个模块, TransVG++ 三个模块
相比来说都含语言和视觉两个分支,以及 Prediction Head。
之前的 TransVG 是多了融合模块,TransVG++ 是把语言分支得到的特征再返回到视觉中的 Transformer。
Language Conditioned Vision Transformer (LViT)
含可学习的 [REG] token

在这里插入图片描述
两个不同的是,Pre-norm 在多头注意力和 FFN 前先层归一化。

3.1.1. Input

图片 +文本
图片输入尺寸 : 640 × 640
文本 token 38 + [CLS] + [SEP] = 40

3.1.2. Backbone

ViT + BERT

3.1.3. Neck

3.1.4. Decoder

利用输入状态 [REG] token 作为预测头的输入。一个包含两个 ReLU 激活函数的 MLP 和一个线性输出层组成。预测头的输出为 box 坐标。

3.1.5. Loss

分别为 smooth L1 损失和 GIoU 损失,λ=1 平衡这两个损失的 GIoU 权重系数。

3.2. Training

视觉语言分支 初始学习率 1x10-5
融合模块 和 预测头 1x10-4
权重衰减 1x10-4
Transformer 中的 dropout ratio 默认为 0.1。
BatchSize 64

3.2.1. Resource

3.2.2 Dataset

NameImages Numberreferencesreference expressionsTaskNote
RefCOCO19,99450,000142,209Referring Expression Segmentation
RefCOCO+19,99249,856141,564
RefCOCOg2579949856
ReferItGame20000
Flickr30K Entities31783

3.3. Eval

在这里插入图片描述

3.4. Ablation

  1. REG Token
  2. Transformer 的设计
  3. 融合策略
  4. Transformer 的位置
  5. Transformer 的数量

4. Reference

RIS 系列 TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer 论文阅读笔记
RIS 系列:TransVG

5. Additional

基于 TransVG 的扩充版。一般会议发的不错的且引用比较高的会做些补充实验发在 TPAMI 上。
VG 领域的开山之作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值