让大模型理解百万级视频和语言数据_大模型识别视频内容-CSDN博客

本文链接：https://blog.csdn.net/yetzi1975/article/details/142098313

人工智能咨询培训老师叶梓转载标明出处

目前大模型在理解非文字描述的内容方面仍然存在局限，尤其是在处理复杂、长篇幅的任务时。例如，视频序列因其提供的时间信息而在联合建模语言时显得尤为重要。但是，从数百万的文本和视频序列中学习面临着内存限制、计算复杂度大和数据集有限等挑战。

为了解决这些问题，加州大学伯克利分校的研究团队提出了一种新的方法。他们通过创建大型多样化视频和书籍数据集，并利用Blockwise RingAttention技术，可扩展地训练长序列，逐步将上下文大小从4K增加到1M个token。这项研究的主要贡献包括：

训练了迄今为止上下文大小最大的神经网络之一，该网络能够处理长视频和语言序列，为困难的检索任务和长视频理解设定了新的基准。
提供了克服视觉-语言训练挑战的解决方案，包括使用掩蔽序列打包混合不同序列长度、损失加权平衡语言和视觉，以及为长序列聊天生成的模型生成QA数据集。
高度优化的实现，包括RingAttention、Blockwise Transformers、掩蔽序列打包等关键特性，用于训练百万长度的多模态序列。
完全开源了一家7B参数的模型系列，能够处理超过1M个token的长文本文档（LWM-Text, LWM-Text-Chat）和视频（LWM, LWM-Chat）。

LWM模型能够回答超过1小时YouTube视频汇编中的问题。这张图是对LWM-Chat-1M与Gemini Pro Vision、GPT-4V和开源模型进行的定性比较。它展示了LWM模型在理解超过500个视频片段的1小时长YouTube视频方面的能力

图3为多模态训练阶段的结构和流程。在第一阶段，即LLM上下文扩展，研究者们专注于通过使用Books3数据集来扩展上下文大小，从32K增长到1M。第二阶段，即视觉-语言训练，则专注于不同长度的视觉和视频内容的训练。这个过程中，研究者们详细分配了495B个token在图像、短视频和长视频以及33B个文本数据token之间。

第一阶段：学习长上下文语言模型

研究者们面对的挑战是如何让模型学习并理解数百万token序列中的长期依赖关系。为了实现这一目标，他们需要能够对这些长文档进行可扩展的训练，并且需要稳定地扩展他们基础语言模型的上下文。

研究者们使用了Blockwise RingAttention技术，这是一种可以处理长序列的注意力机制，它通过分块变换器和序列并行性，理论上可以扩展到无限上下文，只要有足够的设备支持。这种技术的使用，使得模型能够处理比以往更长的文档，而不会因内存限制而变得不可行。

为了进一步优化性能，研究者们还将Blockwise RingAttention与FlashAttention结合起来，使用Pallas框架进行优化，相比于使用XLA编译器，这种方法在性能上有所提升。在设备上每个token数目足够大的情况下，通信成本与计算可以完全重叠，从而避免了额外的开销。

研究者们从LLaMA-2 7B模型开始，然后通过5个阶段逐步增加模型的有效上下文长度。每个阶段都使用不同过滤版本的Books3数据集进行训练，并且每个连续的运行都是从前一个序列长度的运行开始初始化的。

表1提供了每个训练阶段的详细信息，包括参数数量、序列长度、RoPE θ值、每批次的token数、总token数、训练时间以及使用的计算资源等。例如，在32K阶段，序列长度为215，RoPE θ设为1M，每批次处理4M个token，总共处理4.8B个token，训练时间为8小时。

研究者们采用了一种启发式的方法，即首先在较短的序列长度上训练模型，然后逐步增加序列长度至1M。这种方法允许模型首先学习较短距离的依赖性，然后再处理更长的序列，从而在计算上更加高效。通过这种方法，研究者们能够在保持计算效率的同时，训练出能够处理长文本序列的模型。

图5展示了LWM-Text-Chat-1M模型在1M上下文窗口中的检索任务表现，显示出在不同位置的近乎完美的准确率。这表明，通过逐步增加上下文长度的训练方法，模型能够有效地理解和检索长文档中的信息。

研究者们从Books3数据集中将文档分割成固定大小的1000个token块，然后输入到短上下文语言模型中，提示模型生成有关该段落的一个问题和答案对。接着，给定一个上下文长度，例如32K，通过连接相邻的块以及在序列末尾以聊天形式添加相关的QA对，构建一个单一的32K token示例。

对于聊天微调，研究者们将每个模型在UltraChat和自定义QA数据集的混合上进行训练，比例大约是7:3。他们发现将UltraChat数据预先打包到训练序列长度，并将其与QA数据的例子分开是至关重要的。因为UltraChat数据通常有更高比例的损失token（密集打包的短聊天序列），而QA数据每个序列的损失token百分比要低得多（<1%），因为在给定上下文中的长文档没有损失。表2展示了每个运行的进一步训练细节。值得注意的是，聊天模型并没有在每个聊天模型上执行渐进式训练，而是从具有相同上下文长度的各自预训练模型初始化。

研究者们在流行的"Needle In A Haystack"任务上进行评估，该任务的一个更易评估的版本是找到并检索上下文中分配给随机城市的随机数字。图5展示了在1M上下文模型的整个上下文中近乎完美的检索准确率。图2显示，与当前可用的最佳大型语言模型(LLMs)相比，本方法可以扩展到更大的上下文。

研究者们还检查了模型在更复杂的针检索任务变体上的性能，通过混合多个针，并尝试检索它们的特定子集。图6展示了在不同设置下的多针检索结果。模型在从上下文中的多个针中检索单个针时表现良好，当被要求检索多个针时性能略有下降。表3显示了本模型、Gemini Pro和GPT-4之间的多针比较，本模型在检索一个针时的表现与GPT-4相当或更好，或在检索多个针时性能略低。此外本的模型也能够表现良好，并扩展到长达1M tokens的更长上下文长度。然而，在增加针检索任务的难度时，准确率会下降，这表明在利用1M上下文的模型上还有改进的空间。

表4对具有4K上下文的Llama2-7B模型和其上下文扩展版本（从32K到1M）进行了比较分析，涵盖了各种语言任务，表明扩展上下文大小并不会损害短上下文任务的性能。结果表明具有更大上下文容量的模型在这些任务上表现得同样好，甚至更好。这说明上下文扩展没有负面影响，突出了模型适应不同任务要求的能力，而不会在较短的上下文中失去效率。

研究者们还在MT-Bench上评估了模型的对话能力。表5展示了每个模型的MT-Bench得分。表6展示了聊天和事实检索任务的混合与MT-Bench得分和针检索准确率之间的关系。随着聊天比例的增加和事实检索的减少，MT-Bench得分提高，表明通过MT-Bench测量的聊天性能更好。相反，针检索准确率下降，表明增加聊天交互能力可能会降低系统从输入上下文中检索特定信息或“针”的精度。在不同的上下文大小中，支持更长输入序列的模型在MT-Bench得分上遇到了轻微的下降。假设这是因为在更长序列训练中选择了较少的示例，并且可以通过简单地训练更多数据来改进。此外，通过获取更高质量的长上下文聊天数据，这种权衡可以得到解决，这些数据更接近UltraChat数据集的聊天分布。

第二阶段：学习长上下文视觉-语言模型

为了将视觉输入整合到模型中，研究者们对LWM和LWM-Chat的架构进行了一些修改。他们使用了预训练的VQGAN模型，该模型能够将256×256像素的输入图像转换为16×16的离散tokens。对于视频，VQGAN逐帧应用并连接这些codes。为了在生成过程中区分不同模态，并知道何时切换，研究者们引入了新的机制来标记文本生成的结束和视觉生成的开始，反之亦然。他们引入了新的tokens <eof> 和 <eov>，分别代表每一帧视频的结束（不是序列中的最后一个帧）和每个单一图像或视频最后一帧的视觉结束。为了定义文本生成的结束，他们使用 <vision> 和 </vision>（作为文本）文本tokens包裹视觉tokens。模型通过交错连接视觉和文本tokens进行训练，并自回归预测。

研究者们从LWM-Text-1M文本模型开始，对大量结合的文本-图像和文本-视频数据进行类似的逐步训练过程。与之前不同，由于RoPE θ已经支持到1M上下文，他们没有进一步扩展RoPE θ。表7展示了每个训练阶段的详细信息，模型从先前较短序列长度的阶段开始初始化。在每个阶段，他们训练了以下数据：

LWM-1K：在包含LAION-2B和COYO-700M数据集的大型文本-图像数据集上训练，过滤条件是图像至少有256分辨率，总共大约有10亿个文本-图像对。在训练过程中，他们连接文本-图像对，并随机交换模态顺序，以模拟文本-图像生成、无条件图像生成和图像字幕生成。他们将文本-图像对打包成1K tokens的序列。
LWM-8K：在WebVid10M和InternVid10M的文本-视频数据集混合上训练。与以前的工作类似，他们以50-50的比例联合训练图像和视频。他们将图像打包成8K tokens的序列，视频为30帧，每秒4帧。与图像训练类似，他们为每个文本-视频对随机交换模态顺序。
LWM-Chat-32K/128K/1M：在最后三个阶段，他们训练了每个下游任务的聊天数据组合：(1) 文本-图像生成，(2) 图像理解，(3) 文本-视频生成，和 (4) 视频理解。他们通过在预训练数据的随机子集上采样并增加聊天格式来构建文本-图像和文本-视频聊天数据的简单版本。对于图像理解，他们使用了ShareGPT4V的图像聊天指导数据。最后，对于视频理解聊天数据，他们使用了Valley-Instruct-73K和Video-ChatGPT-100K指导数据的组合。对于所有短上下文数据（图像生成、图像理解、视频生成），他们将序列打包到训练上下文长度。在打包过程中，他们发现将注意力遮蔽，使每个文本-视觉对只关注自身是至关重要的，并且重新加权损失，使计算与非打包+填充训练制度相同。对于视频理解数据，如果视频太长，他们均匀地采样最大数量的帧以适应模型的训练上下文长度。在训练过程中，他们为每个批次分配了25%给四个下游任务。

在LWM-1K和LWM-8K的前两个训练阶段，他们还额外混合了16%的批次为OpenLLaMA的纯文本数据，因为他们发现在训练视觉数据时保留语言能力是有益的。

尽管视觉-语言模型可以摄入长视频，但这通常是通过执行大范围的时间抽样视频帧来完成的，由于上下文长度有限。例如，Video-LLaVA限制为从视频中均匀采样8帧，无论原始视频有多长。因此，模型可能会丢失对准确回答有关视频的任何问题都很重要的更细粒度的时间信息。与此相反，研究者的模型是在1M tokens的长序列上训练的，因此可以同时关注数千帧视频，以检索短时间内的细粒度信息。图1展示了他们的模型正确回答有关一个长达1小时的YouTube编译的问题的例子，该编译包含500多个单独的剪辑。然而，他们的基线方法通常由于帧数有限而难以回答问题。更多的结果展示在图7中。

尽管研究者展示了他们的模型可以在复杂、长形式的视频中执行QA，但在所有1M tokens上更好地利用上下文仍然有改进的空间，因为模型生成的答案不总是准确的，模型仍然在需要对视频有更高层次理解。

表8和表9显示了图像理解和短视频理解的常见基准上的结果。研究者的模型在基线中表现平均，并且比SOTA模型表现差。这可能是由于文本-图像和文本-视频对齐训练有限，而基线可以利用已经经过更广泛、大规模基于CLIP的训练的视觉骨干。与此相反，本模型使用VQGAN tokens，需要从头开始学习文本-图像对齐，并且通常在OCR任务上挣扎，因为VQGAN重建图像中的文本的能力较差。但本模型将为未来的VQ-based架构提供有希望的方向，并且可以通过更严格的训练和学习更好的tokenizers来表现良好。