BLIP-2学习笔记

按照两阶段策略预训练轻量级查询 Transformer 以弥合模态差距。第一阶段从冻结的图像编码器引导视觉语言表示学习。第二阶段从冻结的LLM引导视觉语言生成学习,从而实现零镜头指示的图像到文本生成
按照两阶段策略预训练轻量级查询 Transformer 以弥合模态差距。第一阶段从冻结的图像编码器引导视觉语言表示学习。第二阶段从冻结的LLM引导视觉语言生成学习,从而实现零镜头指示的图像到文本生成。
Q-Former是一个轻量级转换器,它使用一组可学习的查询向量从冻结的图像编码器中提取视觉特征。它充当冻结图像编码器和冻结LLM之间的信息瓶颈,它为LLM提供最有用的视觉特征来输出所需的文本。

实现方法

(左)Q-Former和BLIP-2的第一阶段视觉语言表示学习目标的模型架构。我们联合优化三个目标,强制查询(一组可学习的嵌入)以提取与文本最相关的视觉表示。(右)每个目标的自我注意掩蔽策略来控制查询-文本交互。(左)Q-Former和BLIP-2的第一阶段视觉语言表示学习目标的模型架构。我们联合优化三个目标,强制查询(一组可学习的嵌入)以提取与文本最相关的视觉表示。(右)每个目标的自我注意掩蔽策略来控制查询-文本交互。

提出Q-Former作为可训练模块来弥合冻结图像编码器和冻结LLM之间的差距。它从图像编码器中提取固定数量的输出特征,独立于输入图像分辨率。如图 2 所示,Q-Former 由两个共享相同自注意力层的转换器子模块组成:(1)与冻结图像编码器交互以进行视觉特征提取的图像转换器,(2)一个可以充当文本编码器和文本解码器的文本转换器。我们创建了一组可学习的查询嵌入作为图像转换器的输入。查询通过自注意力层相互交互,并通过交叉注意力层(插入所有其他变压器块)与冻结图像特征交互。查询还可以通过相同的自注意力层与文本交互。根据预训练任务,我们应用不同的自注意力掩码来控制查询-文本交互。我们使用 BERTbase (Devlin et al., 2019) 的预训练权重初始化 QFormer,而交叉注意力层是随机初始化的。总的来说,Q-Former 包含 188M 参数。请注意,查询被视为模型参数。
在表示学习阶段,我们将Q-Former连接到一个固定的图像编码器,并使用图像-文本对进行预训练。我们的目标是训练Q-Former,这样查询就可以学习提取文本中信息量最大的视觉表示。受BLIP (Li et al., 2022)的启发,我们共同优化了三个共享相同输入格式和模型参数的预训练目标。每个目标在查询和文本之间使用不同的注意力屏蔽策略来控制它们的交互
从冻结的LLM引导视觉到语言的生成学习
在生成预训练阶段,我们将QFormer(附带冻结图像编码器)连接到冻结的LLM,以获取LLM的生成语言能力。如图3所示,我们使用一个全连接(FC)层将输出查询嵌入Z线性投影到与LLM的文本嵌入相同的维度中。然后将投影的查询嵌入添加到输入文本嵌入中。它们作为软视觉提示,对由Q-Former提取的视觉表示进行条件约束。由于Q-Former已被预先训练以提取语言信息的视觉表示,因此它有效地充当信息瓶颈,为LLM提供最有用的信息,同时删除无关的视觉信息。这减少了LLM学习视觉语言一致性的负担,从而减轻了灾难性遗忘问题。
我们实验了两种类型的llm:基于解码器的llm和基于编码器-解码器的llm。对于基于解码器的LLM,我们使用语言建模损失进行预训练,其中冻结的LLM的任务是根据Q-Former的视觉表示生成文本。对于基于编码器-解码器的llm,我们使用前缀语言建模损失进行预训练,其中我们将文本分成两部分。前缀文本与可视化表示相连接,作为LLM编码器的输入。后缀文本用作LLM解码器的生成目标。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值