VILA: 视觉语言模型的预训练

最新推荐文章于 2025-01-10 00:10:58 发布

三谷秋水

最新推荐文章于 2025-01-10 00:10:58 发布

阅读量1.1k

点赞数 12

分类专栏：计算机视觉大模型文章标签：语言模型人工智能自然语言处理计算机视觉

本文链接：https://blog.csdn.net/yorkhunter/article/details/139585539

版权

大模型同时被 2 个专栏收录

722 篇文章

订阅专栏

计算机视觉

426 篇文章

订阅专栏

23年12月来自Nvidia和MIT的论文“VILA: On Pre-training for Visual Language Models“。

随着最近大语言模型的成功，视觉-语言模型（VLM）发展很快。在视觉指令调整方面，人们越来越努力用视觉输入来扩展LLM，只是缺乏对视觉-语言预训练过程的深入研究。在该过程中，这个模型要学习在两种模态上进行联合建模。本文工作就是检查VLM预训练的设计选项，在逐步可控的比较中将LLM扩展到VLM。

本文介绍三个主要发现：（1）在预训练中冻结LLM可以获得良好的零样本表现，但缺乏上下文学习能力，这需要解冻LLM；（2）交织的预训练数据是有益的，其中单独的图像-文本对不是最优的；（3）在指令微调期间，将纯文本指令数据与图像文本数据重新混合，不仅解决了纯文本任务的退化问题，而且提高了VLM任务的准确性。通过增强的预训练方法，作者构建VILA，一个视觉-语言模型族，在主要基准测试中始终优于最先进的模型，例如LLaVA-1.5。多模态预训练也有助于揭示VILA的特性，包括多图像推理、增强的上下文学习和更好的世界知识。

如图所示：与最近的方法相比，VILA增强的视觉-语言预训练持续地提高下游任务的准确性。此外，预训练过程解锁了模型的几个有趣的能力，例如（i）多图像推理（尽管模型在SFT期间只看到单个图像-文本对），（ii）更强的上下文学习能力，以及（iii）增强的世界知识。

添加图片注释，不超过 140 字（可选）

多模态LLM通常可分为两种设置：基于交叉注意的[5，34]和基于自回归的[2，19，38]。后一种VLM族将图像token化为视觉 tokens，然后与文本tokens连接，并作为LLM的输入（即，将视觉输入视为一个外语）。它是纯文本LLM的自然扩展，通过视觉嵌入来增强输入，并且可以处理任意交错的图像-文本输入。

本研究重点放在自回归VLM的预训练。如图所示，自回归VLM由三个组件组成：一个视觉编码器、一个LLM和一个投影器，用于桥接来自两种模态的嵌入。投影器可以是简单的线性层[38]或功能更强大的Transformer块[6，17]。该模型接受视觉和文本输入并生成文本输出。更新LLM对于上下文学习能力至关重要，像论文[70]（“Multimodal c4: An open, billion-scale corpus of images interleaved with text“）这样的交错语料库有助于预训练。使用纯文本数据的联合SFT有助于维护纯文本功能。
在这里插入图片描述

有两种流行的方法可以用视觉输入来增强预训练的纯文本LM：在视觉输入tokens上微调LLM[19，38]，或者冻结LLM并仅训练视觉输入投影器作为提示调整[17，34]。后者很有吸引力，因为冻结LLM可以防止预训练的纯文本LLM退化。尽管如此，更新基本LLM对于继承一些有吸引力的LLM属性（如上下文学习）至关重要。

为了验证这一观点，文章比较了如表中的两个训练协议。在设置（a）-（c）时用Transformer块来代替单个线性层[38]，这在冻结LLM时提供了足够的容量。用MMC4-core[70]进行比较。可注意到：

添加图片注释，不超过 140 字（可选）

（1）尽管使用了高容量设计，但在SFT期间仅训练投影器会导致性能不佳（设置a）。在SFT期间微调LLM是值得的。
（2）有趣的是，在预训练期间冻结LLM不会影响零样本性能，但会降低上下文学习能力（即，4-样本，比较设置b和c）。字幕数据集（COCO和Flickr）的差距甚至更大，因为它们是分布式的（指令调整数据大多与VQA相似），在冻结LLM时显示出较差的泛化能力。
（3）当使用小容量投影器（线性层而不是Transformer块）时，精度略高（比较设置c和设置d）。假设一个更简单的投影器迫使LLM学习更多关于处理视觉输入的知识，从而获得更好的泛化能力。

为理解为什么微调LLM是有益的，假设调整视觉和实际潜嵌入的分布很重要（尤其是在更深的层中），这样模型就可以无缝地模拟两种模态之间的交互。至关重要的是确定在视觉-语言应用程序中能够继承LLM的一些好特性，比如上下文学习。

为了验证这一想法，计算不同层中视觉和文本嵌入的Chamfer距离，测量如图中的对齐程度。计算成对余弦相似度以排除大小的影响。从配置（b）到（d），更深层的相似性更高，因此4-样本精度也更高，显示了深度嵌入对齐与上下文学习之间的正关系。

添加图片注释，不超过 140 字（可选）

工作的目标是“增强”LLM以支持视觉输入，而不是训练一个只适用于视觉-语言输入的模型。因此，保留LLM的纯文本功能是至关重要的。数据混合是一个关键因素，无论是预训练还是指令调整。

预训练数据集选项。由于广泛的可用性和巨大的多样性（例如，LAION[52]，COYO[10]），大多数VLM预训练[34，38，61]依赖于图像-文本对（即，图像和字幕）。另一方面，与纯文本语料库相比，交错的图像-文本数据集（MMC4[70]，M3W[5]）遵循更相似的分布，并且被发现在Flamingo风格的模型训练中很重要[5]。假设当LLM主干被更新以适应视觉输入时，交织数据集对VLM来说更加重要。为了更好地理解这两种数据类型，比较下表中的统计数据：用两个图像文本语料库做预训练，COYO字幕通常很短，与LLM训练的纯文本语料库相比，其分布不同；选择具有高CLIP相似性的样本，对每个数据源进行采样，包含2500万张图像；由于伴随的文本取自Alt- text，COYO的文本分布较短。

添加图片注释，不超过 140 字（可选）

遵循相同的预训练+SFT过程，并做不同的预训练语料库消融实验。如表所示：与字幕数据（COYO）相比，对MMC4数据的预训练提供了更好的视觉-语言准确性（零样本和少样本）和纯文本准确性下降较小。好处来自交织特性，但不是更好的文本分布（MMC4和MMC4对）。混合交织和字幕数据提供了更好的多样性和下游精度。

添加图片注释，不超过 140 字（可选）

用图像-文本对（即COYO）进行预训练可能会导致灾难性的遗忘。纯文本准确性（MMLU）下降了17.2%。视觉-语言准确性也比MMC4预训练差得多。值得注意的是，4-样本的准确度甚至比零样本差，这表明该模型无法正确地进行视觉-语言输入的上下文学习（可能是因为在预训练期间从未看到多个图像）。假设灾难性的遗忘是由于基于文本的字幕分布，这些字幕通常非常简短。

相反，与纯文本语料库相比，像MMC4这样的数据集具有更接近的分布（例如，C4[49]）。当用交织数据进行预训练时，MMLU的退化仅为5%。当用更大的基础LLM[19]时，退化会更小。通过适当的指令调整，可以完全恢复这种退化。它还促进了视觉上下文学习，与零样本相比，4-样本的准确度更高。

交错数据结构很重要，但与文本分布无关。自然进一步质疑这些好处是来自更好的文本分布（例如，更长）还是来自交错性质。为了对这一点做消融，构建一个新的MMC4变型，只保留图像及其相应的文本片段，不考虑交错性质，称为“MMC4对”。例如，MMC4样本可能看起来像：

它将被转换为两个MMC4对的样本：

，

然而，在MMC4对上的训练并没有带来令人满意的结果：它略微减少了由于一个较长文本分布而导致的MMLU退化，但与在COYO上的预训练相比，VLM的准确性甚至更低；上下文学习也没有改进。假设MMC4样本没有非常严格的图像-文本对应关系；图像仅为文本建模提供了边缘信息（即，大多数信息仍然来自纯文本建模；如图是一个示例）。

添加图片注释，不超过 140 字（可选）

如下图所示，与MMC4对（分解为图像-文本对的样本）相比，对MMC4预训练的损失较低，因为文本片段为语言建模提供了更多信息。在交错语料库上进行训练会导致更低的损失，这表明全文片段提供了更多的信息。因此，交错数据结构至关重要，它允许模型拣取与图像相关的信息，而不会过度强迫去学习不相关的文本建模。

添加图片注释，不超过 140 字（可选）

对图像-文本对的训练只会导致纯文本准确性的急剧下降（超过17%）。幸运的是，混合的语料库和图像-文本对可以在语料库中引入更多的多样性，同时也防止了严重的退化。MMC4+COYO上的训练进一步提高了视觉-语言基准测试的准确性。

尽管交错数据有助于保持纯文本功能，但仍有5%的准确性下降。一种潜在的方法是保持纯文本能力，即添加纯文本语料库（LLM预训练中使用的语料库）。然而，这样的文本语料库通常是专有的，即使对开源模型也是如此；目前还不清楚如何对数据进行亚采样以匹配视觉-语言语料库的规模。

幸运的是，纯文本功能暂时是隐藏的（hidden），但不会被遗忘（forgotten）。在SFT期间添加纯文本数据可以帮助弥补退化，尽管使用的规模与文本预训练语料库（通常为万亿规模）相比要小得多。

指令调整的常见方法是在一些视觉-语言数据集（VQA/Caption样式[17]或GPT生成[38]）微调模型。混合纯文本的指令数据可以同时（i）恢复纯文本准确性的下降，以及（ii）提高视觉语言的准确性。为此，还混合了从FLAN[16]采样的1M纯文本指令调整数据，称之为联合SFT。进行联合SFT时，增益更大，如表所示：联合SFT（视觉+文本）不仅弥补了纯文本功能（MMLU acc.）的退化，还提高了视觉-语言任务（零样本和少样本）的性能。

添加图片注释，不超过 140 字（可选）

可以看到，纯文本SFT数据的混合不仅弥补了纯文本能力的下降（与相同的纯文本指令数据微调的原始Llama-2模型相比，MMLU的准确性不相上下），而且提高了视觉语言能力。假设纯文本指令数据提高了模型的指令跟从能力，这对视觉语言任务也很重要。有趣的是，在联合SFT中，混合COYO数据的好处更为显著。通过联合SFT，当使用短字幕进行预训练时，模型不再遭受纯文本的退化，从而释放出来自视觉多样性的全部好处。