[VL | Vision Grounding] PLV:Progressive Language-Customized Visual Feature Learning for One-Stage

12 篇文章 0 订阅

1. BaseInfo

TitleProgressive Language-Customized Visual Feature Learning for One-Stage Visual Grounding
Adresshttps://ieeexplore.ieee.org/document/9798762
Journal/TimeTIP 2022
Author北航、阿里巴巴
Code在补充材料里 未在 github 开源

2. Creative Q&A

  1. 语言视觉单独提取,再融合 -> 在语言视觉提取过程中融合
  2. 渐进语言自定义视觉特征学习 PLV 的单阶段框架 : 由 PLVE 和 grounding module 组成。
  3. 语言引导模块 CLIM
    在这里插入图片描述
    a. 两阶段的;b. 单阶段后融合;c. 单阶段中间融合;d.本文渐进式的。

3. Concrete

在这里插入图片描述

3.1. Model

3.1.1. Input

图片512 × 512 + 文本
数据增强:scale and crop, and colour jitter.

3.1.2. Backbone

ResNet 101 + uncased 12-layer BERT
ImageNet pre-trained weights + BERT pre-trained weights.

3.1.3. Neck

  1. Channel-wise Language-guided Interaction Module (CLIM)
    激活函数用 tanh 代替 ReLU : 保持以下相似度计算的负值,也可以替换为 sigmoid 激活函数。
    特征取平均生成了语言引导的 t k t_k tk
    用元素乘得到特征图,用了 L2 范数。
    在这里插入图片描述

3.1.4. Decoder

在这里插入图片描述

简单上采样,构成 FPN (256) 或者 FCN(256, 128, 64) 形式的。以 CenterNet 的方式(含一个反卷积层和可变形卷积)

3.1.5. Loss

中心点损失
在这里插入图片描述
在这里插入图片描述

3.2. Training

batch size of 64
40 epochs including 5 warm-up epochs
on 8 NVIDIA V100 32GiB GPUs (only 7.4 GiB graphci memory used per GPU).
AdamW The learning rate starts from 1e−6 and reaches 1e−4 at the end of the warm-up,
StepLR is used to scale the learning rate by 0.1 on epoch 28 and 35.

3.2.1. Resource

3.2.2 Dataset

RefCOCO/RefCOCO+/RefCOCOg:
RefItGame
Flickr30K Entities
Evaluation Metric

3.3. Eval

在这里插入图片描述

3.4. Ablation

  1. 结构在这里插入图片描述
  2. 融合阶段
  3. CLIM 的输入维度
  4. 融合模块
    在这里插入图片描述
  5. 表达式的长度
  6. Backbone 初始化

4. Reference

5. Additional

文章结构挺清晰的,而且参数量不大,效果挺好。消融实验也很充分。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值