VILA: 视觉语言模型的预训练

23年12月来自Nvidia和MIT的论文“VILA: On Pre-training for Visual Language Models“。

随着最近大语言模型的成功,视觉-语言模型(VLM)发展很快。在视觉指令调整方面,人们越来越努力用视觉输入来扩展LLM,只是缺乏对视觉-语言预训练过程的深入研究。在该过程中,这个模型要学习在两种模态上进行联合建模。本文工作就是检查VLM预训练的设计选项,在逐步可控的比较中将LLM扩展到VLM。

本文介绍三个主要发现:(1)在预训练中冻结LLM可以获得良好的零样本表现,但缺乏上下文学习能力,这需要解冻LLM;(2) 交织的预训练数据是有益的,其中单独的图像-文本对不是最优的;(3) 在指令微调期间,将纯文本指令数据与图像文本数据重新混合,不仅解决了纯文本任务的退化问题,而且提高了VLM任务的准确性。通过增强的预训练方法,作者构建VILA,一个视觉-语言模型族,在主要基准测试中始终优于最先进的模型,例如LLaVA-1.5。多模态预训练也有助于揭示VILA的特性,包括多图像推理、增强的上下文学习和更好的世界知识。

如图所示:与最近的方法相比,VILA增强的视觉-语言预训练持续地提高下游任务的准确性。此外,预训练过程解锁了模型的几个有趣的能力,例如(i)多图像推理(尽管模型在SFT期间只看到单个图像-文本对),(ii)更强的上下文学习能力,以及(iii)增强的世界知识。

添加图片注释,不超过 140 字(可选)

多模态LLM通常可分为两种设置:基于交叉注意的[5,34]和基于自回归的[2,19,38]。后一种VLM族将图像token化为视觉 tokens,然后与文本tokens连接,并作为LLM的输入(即,将视觉输入视为一个外语)。它是纯文本LLM的自然扩展,通过视觉嵌入来增强输入,并且可以处理任意交错的图像-文本输入。

本研究重点放在自回归VLM的预训练。如图所示,自回归VLM由三个组件组成:一个视觉编码器、一个LLM和一个投影器,用于桥接来自两种模态的嵌入。投影器可以是简单的线性层[38]或功能更强大的Transformer块[6,17]。该模型接受视觉和文本输入并生成文本输出。更新LLM对于上下文学习能力至关重要,像论文[70](“Multimodal c4: An open, billion-scale corpus of images interleaved with text“)这样的交错语料库有助于预训练。使用纯文本数据的联合SFT有助于维护纯文本功能。
在这里插入图片描述

有两种流行的方法可以用视觉输入来增强预训练的纯文本LM:在视觉输入tokens上微调LLM[19,38],或者冻结LLM并仅训练视觉输入投影器作为提示调整[17,34]。后者很有吸引力,因为冻结LLM可以防止预训练的纯文本LLM退化。尽管如此,更新基本LLM对于继承一些有吸引力的LLM属性(如上下文学习)至关重要。

为了验证这一观点,文章比较了如表中的两个训练协议。在设置(a)-(c)时用Transformer块来代替单个线性层[38],这在冻结LLM时提供了足够的容量。用MMC4-core[70]进行比较。可注意到:

添加图片注释,不超过 140 字(可选)

(1) 尽管使用了高容量设计,但在SFT期间仅训练投影器会导致性能不佳(设置a)。在SFT期间微调LLM是值得的。
(2) 有趣的是,在预训练期间冻结LLM不会影响零样本性能,但会降低上下文学习能力(即,4-样本,比较设置b和c)。字幕数据集(COCO和Flickr)的差距甚至更大,因为它们是分布式的(指令调整数据大多与VQA相似),在冻结LLM时显示出较差的泛化能力。
(3) 当使用小容量投影器(线性层而不是Transformer块)时,精度略高(比较设置c和设置d)。假设一个更简单的投影器迫使LLM学习更多关于处理视觉输入的知识,从而获得更好的泛化能力。

为理解为什么微调LLM是有益的,假设调整视觉和实际潜嵌入的分布很重要(尤其是在更深的层中),这样模型就可以无缝地模拟两种模态之间的交互。至关重要的是确定在视觉-语言应用程序中能够继承LLM的一些好特性,比如上下文学习。

为了验证这一想法,计算不同层中视觉和文本嵌入的Chamfer距离,测量如图中的对齐程度。计算成对余弦相似度以排除大小的影响。从配置(b)到(d),更深层的相似性更高,因此4-样本精度也更高,显示了深度嵌入对齐与上下文学习之间的正关系。

添加图片注释,不超过 140 字(可选)

工作的目标是“增强”LLM以支持视觉输入,而不是训练一个只适用于视觉-语言输入的模型。因此,保留LLM的纯文本功能是至关重要的。数据混合是一个关键因素,无论是预训练还是指令调整。

预训练数据集选项。由于广泛的可用性和巨大的多样性(例如,LAION[52],COYO[10]),大多数VLM预训练[34,38,61]依赖于图像-文本对(即,图像和字幕)。另一方面,与纯文本语料库相比,交错的图像-文本数据集(MMC4[70],M3W[5])遵循更相似的分布,并且被发现在Flamingo风格的模型训练中很重要[5]。假设当LLM主干被更新以适应视觉输入时,交织数据集对VLM来说更加重要。为了更好地理解这两种数据类型,比较下表中的统计数据:用两个图像文本语料库做预训练,COYO字幕通常很短,与LLM训练的纯文本语料库相比,其分布不同;选择具有高CLIP相似性的样本,对每个数据源进行采样,包含2500万张图像;由于伴随的文本取自Alt- text,COYO的文本分布较短。

添加图片注释,不超过 140 字(可选)

遵循相同的预训练+SFT过程,并做不同的预训练语料库消融实验。如表所示:与字幕数据(COYO)相比,对MMC4数据的预训练提供了更好的视觉-语言准确性(零样本和少样本)和纯文本准确性下降较小。好处来自交织特性,但不是更好的文本分布(MMC4和MMC4对)。混合交织和字幕数据提供了更好的多样性和下游精度。

添加图片注释,不超过 140 字(可选)

用图像-文本对(即COYO)进行预训练可能会导致灾难性的遗忘。纯文本准确性(MMLU)下降了17.2%。视觉-语言准确性也比MMC4预训练差得多。值得注意的是,4-样本的准确度甚至比零样本差,这表明该模型无法正确地进行视觉-语言输入的上下文学习(可能是因为在预训练期间从未看到多个图像)。假设灾难性的遗忘是由于基于文本的字幕分布,这些字幕通常非常简短。

相反,与纯文本语料库相比,像MMC4这样的数据集具有更接近的分布(例如,C4[49])。当用交织数据进行预训练时,MMLU的退化仅为5%。当用更大的基础LLM[19]时,退化会更小。通过适当的指令调整,可以完全恢复这种退化。它还促进了视觉上下文学习,与零样本相比,4-样本的准确度更高。

交错数据结构很重要,但与文本分布无关。自然进一步质疑这些好处是来自更好的文本分布(例如,更长)还是来自交错性质。为了对这一点做消融,构建一个新的MMC4变型,只保留图像及其相应的文本片段,不考虑交错性质,称为“MMC4对”。例如,MMC4样本可能看起来像:

它将被转换为两个MMC4对的样本:

然而,在MMC4对上的训练并没有带来令人满意的结果:它略微减少了由于一个较长文本分布而导致的MMLU退化,但与在COYO上的预训练相比,VLM的准确性甚至更低;上下文学习也没有改进。假设MMC4样本没有非常严格的图像-文本对应关系;图像仅为文本建模提供了边缘信息(即,大多数信息仍然来自纯文本建模;如图是一个示例)。

添加图片注释,不超过 140 字(可选)

如下图所示,与MMC4对(分解为图像-文本对的样本)相比,对MMC4预训练的损失较低,因为文本片段为语言建模提供了更多信息。在交错语料库上进行训练会导致更低的损失,这表明全文片段提供了更多的信息。因此,交错数据结构至关重要,它允许模型拣取与图像相关的信息,而不会过度强迫去学习不相关的文本建模。

添加图片注释,不超过 140 字(可选)

对图像-文本对的训练只会导致纯文本准确性的急剧下降(超过17%)。幸运的是,混合的语料库和图像-文本对可以在语料库中引入更多的多样性,同时也防止了严重的退化。MMC4+COYO上的训练进一步提高了视觉-语言基准测试的准确性。

尽管交错数据有助于保持纯文本功能,但仍有5%的准确性下降。一种潜在的方法是保持纯文本能力,即添加纯文本语料库(LLM预训练中使用的语料库)。然而,这样的文本语料库通常是专有的,即使对开源模型也是如此;目前还不清楚如何对数据进行亚采样以匹配视觉-语言语料库的规模。

幸运的是,纯文本功能暂时是隐藏的(hidden),但不会被遗忘(forgotten)。在SFT期间添加纯文本数据可以帮助弥补退化,尽管使用的规模与文本预训练语料库(通常为万亿规模)相比要小得多。

指令调整的常见方法是在一些视觉-语言数据集(VQA/Caption样式[17]或GPT生成[38])微调模型。混合纯文本的指令数据可以同时(i)恢复纯文本准确性的下降,以及(ii)提高视觉语言的准确性。为此,还混合了从FLAN[16]采样的1M纯文本指令调整数据,称之为联合SFT。进行联合SFT时,增益更大,如表所示:联合SFT(视觉+文本)不仅弥补了纯文本功能(MMLU acc.)的退化,还提高了视觉-语言任务(零样本和少样本)的性能。

添加图片注释,不超过 140 字(可选)

可以看到,纯文本SFT数据的混合不仅弥补了纯文本能力的下降(与相同的纯文本指令数据微调的原始Llama-2模型相比,MMLU的准确性不相上下),而且提高了视觉语言能力。假设纯文本指令数据提高了模型的指令跟从能力,这对视觉语言任务也很重要。有趣的是,在联合SFT中,混合COYO数据的好处更为显著。通过联合SFT,当使用短字幕进行预训练时,模型不再遭受纯文本的退化,从而释放出来自视觉多样性的全部好处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值