【提示学习论文】“This is my unicorn, Fluffy”Personalizing frozen vision-language representations(perVL)论文原理

文章介绍了ECCV2022中提出的PerVL方法,针对个性化视觉和语言问题,通过学习反演映射、个性化初始化和微调,实现在个性化图像检索和分割任务中的有效性。方法涉及COCO数据、对比循环损失和对齐矩阵等技术。
摘要由CSDN通过智能技术生成

“This is my unicorn, Fluffy”Personalizing frozen vision-language representations(ECCV 2022)

  • ECCV 2022
  • 提出perVL方法,解决个性化视觉与语言问题
  • 包括三个主要步骤:学习反演映射、初始个性化和微调
  • 通过在两个新的个性化基准数据集上进行实验,证明了在个性化图像检索和分割任务上的有效性

1 Introduction

在这里插入图片描述

2 Related work

3 A new setup, Personalized Vision & Language

  • 提出了“个性化视觉和语言”(PerVL),这是一种新的表征学习设置,用于个性化具有少量正面图像示例的预训练模型,而无需对下游任务进行监督
  • Encoder PerVL: h ( S , I ) = c o s ( h T ( S ) , h I ( I ) ) h(S, I) = cos(h T (S), hI (I)) h(S,I)=cos(hT(S)hI(I)):模型 h h h在句子 S S S和图像 I I I之间应用余弦相似度
  • 其中 h I h^I hI h T h^T hT是CLIP图像和文本编码器。

4 Methods

Notation

  • I I I:CLIP中的图像嵌入空间
  • T T T:CLIP中的文本嵌入空间
  • z k z_k zk:通过函数 z k = h I ( I k ) z_k = h^I(I_k) zk=hI(Ik)得到,表示图像 l k l_k lk的嵌入
  • S S S:表示一个句子
  • h T ( S ) h_T(S) hT(S)
  • W W W:将输入单词嵌入的空间

流程:

  1. 提出一个反演映射 f ( θ ) f(θ) f(θ)通用的映射模型,将CLIP的图像空间中的点映射到单词嵌入输入空间中的点,解决从图像到单词嵌入的映射问题,如下图
    在这里插入图片描述
  2. 初始个性化:基于给定的图像示例集合,学习一个新的个性化概念的单词嵌入。使用第一步的 f ( θ ) f(θ) f(θ),将这些图像示例映射到单词嵌入空间,如下图,得到 w c 0 w^0_c wc0
    在这里插入图片描述
    在这里插入图片描述
  • 模板句子嵌入 z ^ c \hat{z}_c z^c与图像嵌入平均值 z ‾ c \overline{z}_c zc最大相似度
  1. 微调:使用梯度下降更新初始的 w c 0 w^0_c wc0,最大化模板文本嵌入与图片示例的相似性,同时将其与super-concept的嵌入进行对比

4.1 Learning the inversion mapping f ( θ ) f(θ) f(θ)

训练 f ( θ ) f(θ) f(θ)的参数,以便它能够准确地将图像示例映射到适当的个性化概念嵌入

1 对比循环损失

作者使用对比循环损失的方法来训练映射:
在这里插入图片描述

​对比循环损失:
在这里插入图片描述

  • z 1 , … , z k z_1,…,z_k z1,,zk:图像嵌入点的集合, k k k是图像样本的数量
  • w c 0 w^0_c wc0:通过映射得到,表示个性化概念 c c c的初始单词嵌入
  • T c T_c Tc:表示一个模板句子,例如 “A photo of a [CONCEPT]”,其中 [CONCEPT] 是要填充的个性化概念
  • z ^ c \hat{z}_c z^c:表示模板句子 T c T_c Tc的嵌入
  • z ‾ c \overline{z}_c zc:所有图像嵌入的平均值

每一项含义:

  • 第一项:计算 z ^ c \hat{z}_c z^c z ‾ c \overline{z}_c zc的相似度,并进行归一化到一个概率分布上
  • 第二项:计算 z ^ c \hat{z}_c z^c与其他概念 z ‾ c ′ \overline{z}_{c^{'}} zc的相似度

总损失函数:

  • l G T l_{GT} lGT是一个正则化项,目的是最大化预测的 w c 0 w^0_c wc0与其ground truth之间的相似度
    在这里插入图片描述

2 用图像训练 f ( θ ) f(θ) f(θ)

在这里插入图片描述

  • 作者使用了COCO数据集的变体
  • 选择了最频繁出现的 1000 个概念
  • 在每个训练批次中,作者随机选择了 C C C 个概念,然后为每个概念随机选择了 K K K 个图像
  • 这些图像被映射到 CLIP 图像空间,形成了每个概念的一组图像嵌入 w c 0 w_c^0 wc0
  • 得到 z k 1 K = h I ( I k ) 1 K {{z^k}}^K_1={h^I(I_k)}^K_1 zk1K=hI(Ik)1K

3 用文本训练 f ( θ ) f(θ) f(θ)

在这里插入图片描述

  • 使用 COCO 图像进行训练不足以很好地推广到 COCO 词汇表之外的概念
  • 作者提出了一种方法:通过使用 COCO 中的概念生成额外的训练样本,并用一个预定义的大型词汇表中最相似的概念替换概念类型,然后将这些合成的文本描述嵌入到共享的嵌入空间中
  • 最后,作者使用这些增强的文本表示进行训练,发现这种方法显著提高了模型的性能

4 学习对齐矩阵 A A A

  • 在CLIP空间中,文本和图像的编码分布不重叠
  • 用CLIP标题的嵌入训练 f ( θ ) f(θ) f(θ)并不能很好地推广到图像输入
  • 为了解决这个问题,提出一个对齐矩阵 A A A,它将文本的CLIP表示映射到其假定的图像对应部分,这个对齐矩阵A是与 f ( θ ) f(θ) f(θ)联合学习
  • 仅在学习个性化标记时使用,而在推断时不使用

4.2 Personalization: 学习个性化概念的嵌入过程

不调整 f ( θ ) f(θ) f(θ)的参数,而是优化实际的个性化概念嵌入向量 w c w_c wc,使其能够与模板句子的文本嵌入和概念类型的文本嵌入保持一致

具体步骤:

  • 首先将图像通过 h I h_I hI编码器得到图像嵌入
  • 将图像嵌入输入反演映射 f ( θ ) f(θ) f(θ),映射到初始的概念嵌入 w c 0 w^0_c wc0
  • 将初始的概念嵌入 w c 0 w^0_c wc0嵌入到模板句子中
  • 通过文本编码器 h T h_T hT映射到CLIP文本空间

4.3 Inference

5 Evaluation datasets for PerVL

评估 PerVL 的两个新个性化基准数据集:

  • DeepFashion2 图像标注集:包含了丰富的时尚相关图像
  • Youtube-VOS 视频帧标注集

5.1 使用DeepFashion2进行个性化时尚项目检索

在这里插入图片描述

5.2 Youtube-VOS用于个性化检索和分割

选取了每个视频(场景)的最后一帧进行评估,并将出现在帧中的对象实例作为目标概念

6 Experiment

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 26
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值