大世界模型
Large World Model
(LWM)
大世界模型(LWM)是一种通用的大型上下文多模态自回归模型。它使用 RingAttention 在一个包含各种长视频和书籍的大型数据集上进行训练,可以进行语言、图像和视频的理解和生成。
目前的语言模型在理解“世界上难以用言语描述的方面”存在不足,而且在复杂的长篇任务中也很吃力。视频序列提供了语言和静态图像所不具备的宝贵的时间信息,因此非常适合与语言联合建模。这种模型可以发展出对人类文字知识和物理世界的理解,从而实现更广泛的人工智能辅助人类的能力。然而,由于内存限制、计算复杂性和数据集有限等原因,从数以百万计的标记视频和语言序列中进行学习是一项挑战。为了应对这些挑战,我们策划了一个包含各种视频和书籍的大型数据集,利用 RingAttention 技术对长序列进行可扩展的训练,并逐步将上下文大小从 4K 增加到 100万 标记。本文的贡献如下:
(a)最大上下文大小的神经网络: 我们在长视频和语言序列上训练了一个最大的上下文大小转换器,为困难的检索任务和长视频理解设定了新的基准。
(b)克服视觉-语言训练挑战的解决方案,包括使用掩码序列打包混合不同的序列长度、损失加权以平衡语言和视觉,以及模型生成的长序列聊天 QA 数据集。
(c)采