1. BaseInfo
Title | Progressive Language-Customized Visual Feature Learning for One-Stage Visual Grounding |
Adress | https://ieeexplore.ieee.org/document/9798762 |
Journal/Time | TIP 2022 |
Author | 北航、阿里巴巴 |
Code | 在补充材料里 未在 github 开源 |
2. Creative Q&A
- 语言视觉单独提取,再融合 -> 在语言视觉提取过程中融合
- 渐进语言自定义视觉特征学习 PLV 的单阶段框架 : 由 PLVE 和 grounding module 组成。
- 语言引导模块 CLIM
a. 两阶段的;b. 单阶段后融合;c. 单阶段中间融合;d.本文渐进式的。
3. Concrete
3.1. Model
3.1.1. Input
图片512 × 512 + 文本
数据增强:scale and crop, and colour jitter.
3.1.2. Backbone
ResNet 101 + uncased 12-layer BERT
ImageNet pre-trained weights + BERT pre-trained weights.
3.1.3. Neck
- Channel-wise Language-guided Interaction Module (CLIM)
激活函数用 tanh 代替 ReLU : 保持以下相似度计算的负值,也可以替换为 sigmoid 激活函数。
特征取平均生成了语言引导的 t k t_k tk
用元素乘得到特征图,用了 L2 范数。
3.1.4. Decoder
简单上采样,构成 FPN (256) 或者 FCN(256, 128, 64) 形式的。以 CenterNet 的方式(含一个反卷积层和可变形卷积)
3.1.5. Loss
中心点损失
3.2. Training
batch size of 64
40 epochs including 5 warm-up epochs
on 8 NVIDIA V100 32GiB GPUs (only 7.4 GiB graphci memory used per GPU).
AdamW The learning rate starts from 1e−6 and reaches 1e−4 at the end of the warm-up,
StepLR is used to scale the learning rate by 0.1 on epoch 28 and 35.
3.2.1. Resource
3.2.2 Dataset
RefCOCO/RefCOCO+/RefCOCOg:
RefItGame
Flickr30K Entities
Evaluation Metric
3.3. Eval
3.4. Ablation
- 结构
- 融合阶段
- CLIM 的输入维度
- 融合模块
- 表达式的长度
- Backbone 初始化
4. Reference
5. Additional
文章结构挺清晰的,而且参数量不大,效果挺好。消融实验也很充分。