【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations（perVL）论文原理

最新推荐文章于 2024-07-22 14:10:07 发布

一个很菜的小猪

最新推荐文章于 2024-07-22 14:10:07 发布

阅读量609

点赞数 26

分类专栏：提示学习文章标签：学习人工智能深度学习

本文链接：https://blog.csdn.net/weixin_51293984/article/details/136903385

版权

提示学习专栏收录该内容

20 篇文章 2 订阅

订阅专栏

文章介绍了ECCV2022中提出的PerVL方法，针对个性化视觉和语言问题，通过学习反演映射、个性化初始化和微调，实现在个性化图像检索和分割任务中的有效性。方法涉及COCO数据、对比循环损失和对齐矩阵等技术。

摘要由CSDN通过智能技术生成

文章目录

“This is my unicorn, Fluffy”Personalizing frozen vision-language representations（ECCV 2022）
1 Introduction
2 Related work
3 A new setup, Personalized Vision & Language
4 Methods
5 Evaluation datasets for PerVL
- 5.1 使用DeepFashion2进行个性化时尚项目检索
- 5.2 Youtube-VOS用于个性化检索和分割
6 Experiment

“This is my unicorn, Fluffy”Personalizing frozen vision-language representations（ECCV 2022）

ECCV 2022
提出perVL方法，解决个性化视觉与语言问题
包括三个主要步骤：学习反演映射、初始个性化和微调
通过在两个新的个性化基准数据集上进行实验，证明了在个性化图像检索和分割任务上的有效性

1 Introduction

在这里插入图片描述

2 Related work

3 A new setup, Personalized Vision & Language

提出了“个性化视觉和语言”(PerVL)，这是一种新的表征学习设置，用于个性化具有少量正面图像示例的预训练模型，而无需对下游任务进行监督
Encoder PerVL： $h (S, I) = cos (h T (S) ， h I (I))$ ：模型 $h$ 在句子 $S$ 和图像 $I$ 之间应用余弦相似度
其中 $h^I$ 和 $h^T$ 是CLIP图像和文本编码器。

4 Methods

Notation

$I$ ：CLIP中的图像嵌入空间
$T$ ：CLIP中的文本嵌入空间
$z_k$ ：通过函数 $z_k = h^I(I_k)$ 得到，表示图像 $l_k$ 的嵌入
$S$ ：表示一个句子
$h_T(S)$
$W$ ：将输入单词嵌入的空间

流程：

提出一个反演映射 $f (θ)$ 通用的映射模型，将CLIP的图像空间中的点映射到单词嵌入输入空间中的点，解决从图像到单词嵌入的映射问题，如下图
初始个性化：基于给定的图像示例集合，学习一个新的个性化概念的单词嵌入。使用第一步的 $f (θ)$ ，将这些图像示例映射到单词嵌入空间，如下图，得到 $w^0_c$

模板句子嵌入 $\hat{z}_c$ 与图像嵌入平均值 $\overline{z}_c$ 最大相似度

微调：使用梯度下降更新初始的 $w^0_c$ ,最大化模板文本嵌入与图片示例的相似性，同时将其与super-concept的嵌入进行对比

4.1 Learning the inversion mapping $f (θ)$

训练 $f (θ)$ 的参数，以便它能够准确地将图像示例映射到适当的个性化概念嵌入

1 对比循环损失

作者使用对比循环损失的方法来训练映射：
在这里插入图片描述

对比循环损失：
在这里插入图片描述

$z_1,…,z_k$ ：图像嵌入点的集合， $k$ 是图像样本的数量
$w^0_c$ ：通过映射得到，表示个性化概念 $c$ 的初始单词嵌入
$T_c$ ：表示一个模板句子，例如 “A photo of a [CONCEPT]”，其中 [CONCEPT] 是要填充的个性化概念
$\hat{z}_c$ ：表示模板句子 $T_c$ 的嵌入
$\overline{z}_c$ ：所有图像嵌入的平均值

每一项含义：

第一项：计算 $\hat{z}_c$ 与 $\overline{z}_c$ 的相似度，并进行归一化到一个概率分布上
第二项：计算 $\hat{z}_c$ 与其他概念 $\overline{z}_{c^{'}}$ 的相似度

总损失函数：

$l_{GT}$ 是一个正则化项，目的是最大化预测的 $w^0_c$ 与其ground truth之间的相似度

2 用图像训练 $f (θ)$

在这里插入图片描述

作者使用了COCO数据集的变体
选择了最频繁出现的 1000 个概念
在每个训练批次中，作者随机选择了 $C$ 个概念，然后为每个概念随机选择了 $K$ 个图像
这些图像被映射到 CLIP 图像空间，形成了每个概念的一组图像嵌入 $w_c^0$
得到 ${{z^k}}^K_1={h^I(I_k)}^K_1$

3 用文本训练 $f (θ)$

在这里插入图片描述

使用 COCO 图像进行训练不足以很好地推广到 COCO 词汇表之外的概念
作者提出了一种方法：通过使用 COCO 中的概念生成额外的训练样本，并用一个预定义的大型词汇表中最相似的概念替换概念类型，然后将这些合成的文本描述嵌入到共享的嵌入空间中
最后，作者使用这些增强的文本表示进行训练，发现这种方法显著提高了模型的性能

4 学习对齐矩阵 $A$

在CLIP空间中，文本和图像的编码分布不重叠
用CLIP标题的嵌入训练 $f (θ)$ 并不能很好地推广到图像输入
为了解决这个问题，提出一个对齐矩阵 $A$ ，它将文本的CLIP表示映射到其假定的图像对应部分，这个对齐矩阵A是与 $f (θ)$ 联合学习
仅在学习个性化标记时使用，而在推断时不使用

4.2 Personalization: 学习个性化概念的嵌入过程

不调整 $f (θ)$ 的参数，而是优化实际的个性化概念嵌入向量 $w_c$ ，使其能够与模板句子的文本嵌入和概念类型的文本嵌入保持一致

具体步骤：

首先将图像通过 $h_I$ 编码器得到图像嵌入
将图像嵌入输入反演映射 $f (θ)$ ，映射到初始的概念嵌入 $w^0_c$
将初始的概念嵌入 $w^0_c$ 嵌入到模板句子中
通过文本编码器 $h_T$ 映射到CLIP文本空间

4.3 Inference

5 Evaluation datasets for PerVL

评估 PerVL 的两个新个性化基准数据集：

DeepFashion2 图像标注集：包含了丰富的时尚相关图像
Youtube-VOS 视频帧标注集

5.1 使用DeepFashion2进行个性化时尚项目检索

在这里插入图片描述

5.2 Youtube-VOS用于个性化检索和分割

选取了每个视频（场景）的最后一帧进行评估，并将出现在帧中的对象实例作为目标概念

6 Experiment

在这里插入图片描述

一个很菜的小猪

关注

26
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations（perVL）论文原理

提出perVL方法，解决个性化视觉与语言问题。包括三个主要步骤：学习反演映射、初始个性化和微调。通过在两个新的个性化基准数据集上进行实验，证明了在个性化图像检索和分割任务上的有效性。
复制链接

扫一扫