[VL | Vision Grounding] PLV:Progressive Language-Customized Visual Feature Learning for One-Stage

最新推荐文章于 2024-10-13 19:46:09 发布

Xy-unu

最新推荐文章于 2024-10-13 19:46:09 发布

阅读量821

点赞数 12

分类专栏： Paper # VL 文章标签： transformer 深度学习人工智能 python 论文阅读

本文链接：https://blog.csdn.net/weixin_45863274/article/details/142032710

版权

Paper 同时被 2 个专栏收录

21 篇文章 1 订阅

订阅专栏

12 篇文章 0 订阅

订阅专栏

1. BaseInfo


Title	Progressive Language-Customized Visual Feature Learning for One-Stage Visual Grounding
Adress	https://ieeexplore.ieee.org/document/9798762
Journal/Time	TIP 2022
Author	北航、阿里巴巴
Code	在补充材料里未在 github 开源

2. Creative Q&A

语言视觉单独提取，再融合 -> 在语言视觉提取过程中融合
渐进语言自定义视觉特征学习 PLV 的单阶段框架：由 PLVE 和 grounding module 组成。
语言引导模块 CLIM

a. 两阶段的；b. 单阶段后融合；c. 单阶段中间融合；d.本文渐进式的。

3. Concrete

在这里插入图片描述

3.1. Model

3.1.1. Input

图片512 × 512 + 文本
数据增强：scale and crop, and colour jitter.

3.1.2. Backbone

ResNet 101 + uncased 12-layer BERT
ImageNet pre-trained weights + BERT pre-trained weights.

3.1.3. Neck

Channel-wise Language-guided Interaction Module (CLIM)
激活函数用 tanh 代替 ReLU ：保持以下相似度计算的负值，也可以替换为 sigmoid 激活函数。
特征取平均生成了语言引导的 $t_k$
用元素乘得到特征图，用了 L2 范数。

3.1.4. Decoder

在这里插入图片描述

简单上采样，构成 FPN (256) 或者 FCN(256, 128, 64) 形式的。以 CenterNet 的方式(含一个反卷积层和可变形卷积)

3.1.5. Loss

中心点损失
在这里插入图片描述

3.2. Training

batch size of 64
40 epochs including 5 warm-up epochs
on 8 NVIDIA V100 32GiB GPUs (only 7.4 GiB graphci memory used per GPU).
AdamW The learning rate starts from 1e−6 and reaches 1e−4 at the end of the warm-up,
StepLR is used to scale the learning rate by 0.1 on epoch 28 and 35.