51c多模态~合集4_maven: an effective multi-granularity hybrid visua-CSDN博客

本文链接：https://blog.csdn.net/weixin_49587977/article/details/145193427

我自己的原文哦~ https://blog.51cto.com/whaosoft/12701288

#分解原子步骤以解决复杂数学推理

多模态慢思考

本文作者来自中山大学、香港科技大学、上海交通大学和华为诺亚方舟实验室等机构。第一作者项鲲为中山大学博士生，刘智立为香港科技大学博士生，姜子昊为上海交通大学硕士研究生。

AtomThink 是一个包括 CoT 注释引擎、原子步骤指令微调、政策搜索推理的全流程框架，旨在通过将 “慢思考 “能力融入多模态大语言模型来解决高阶数学推理问题。量化结果显示其在两个基准数学测试中取得了大幅的性能增长，并能够轻易迁移至不同的多模态大模型当中。

论文：https://arxiv.org/abs/2411.11930

主页（即将开源）：https://github.com/Quinn777/AtomThink

背景与挑战

在人工智能研究领域，高阶数学推理一直是一项极具挑战的任务。之前的一些工作通过精心设计 prompt 来激发模型生成思维链（CoT），而最近大热的 OpenAI o1 的推出更是标志着强人工智能的巨大飞跃，它擅长通过利用扩展推理链和放大测试时间来解决复杂问题，即 “慢思考”。

然而，在视觉数学任务中由于信息建模的数据和计算资源需求显著增加，将慢思考技术应用于多模态大语言模型（MLLM）具有挑战性。尽管之前的一些工作说明激发模型固有 CoT 能力能够改善推理，但他们并未考虑推理链中间步骤的质量，也缺乏对多模态 CoT 每个节点对应能力的细粒度分析，因此很难应用测试时间缩放策略来进行针对性的性能提升。

原子步骤质量评估

因此，本研究率先提出了一种原子步骤质量评估策略（如上图所示），为慢思考能力提供新的分析视角。原子步骤是语义维度的最小推理步骤。考虑到人类可能利用不同的认知能力来解决数学问题，首先从 GPT-4o 的推理行为分布中构建一个规范的推理能力集合，代表高级智能模型在进行思考时所使用的不同能力。最后，将候选模型输出应用结果监督和重映射来估计其对应能力的综合得分。

下图所示的结果表明当前开源模型的平均原子步骤质量较差，特别是在图像识别、变量定义和计算等能力项上存在明显缺陷。这一发现进一步促使我们关注现有模型执行单步推理的能力，并通过提高原子推理步骤的质量来引入更强大的慢思考。

AtomThink 慢思考框架

因此，为了解决开源 MLLM 原子步骤质量较差的问题，本文提出了 AtomThink 慢思考框架，通过引入多模态 CoT 注释引擎、原子步骤微调策略和政策搜索策略，旨在通过仔细训练来增强 MLLM 的解码能力，并结合采样后搜索来识别最佳预测节点，以逐步生成一条高质量的推理路径。

1. 多模态注释引擎

首先文中从数据角度引入了动态提示和短 CoT 增强策略来构建数据引擎。动态提示策略促使已有 LLM 迭代地构建状态推理路径。每个路径节点代表一个推理步骤，包括前一阶段、当前状态和可能的动作。可能的行动包括继续推理、验证和得出结论，这由 LLM 自身决定。为充分利用现有 VQA 数据集的短 CoT 注释和答案，本文还使用 GPT-4o 来执行原子化分割和注释增强，这允许我们通过简单的提示来将原始推理过程从语义上划分为多个离散的步骤。

通过上述方式，本文从公开数据集中采样数学问题并生成长思维链，通过人工筛查和后处理去除不正确的节点，最终制作了 AtomMATH 数据集。它包括 AMATH-SFT 和 AMATH-PRM 两个子集，分别用于监督指令微调和过程监督训练。

上表 2 中显示了该数据集的质量较高，甚至在 GPT-4o 的评分中超越了人工标注的 PRM800k 数据集。

2. 原子步骤微调

该部分包括对现有 MLLM 的指令微调和对 PRM 的对齐训练。首先通过将输入数据重构为独立的历史状态和当前动作，让多模态大模型学习近似马尔可夫决策的输出格式。而在 PRM 的训练则基于已有 LLM 来执行后训练对齐，通过最小化下面的交叉熵损失函数来进行优化：

3. 策略搜索

由于扩大测试时间会产生多个候选步骤，文中将现有的策略分为路径维度搜索和步骤维度搜索。路径维度搜索包括：

1）多数投票：通过选择多个推理路径中最常见的结果来选择最优。

2）Best-of-N：计算每个候选路径的所有节点得分，通过不同聚合策略来将密集分数映射到整条路径。聚合策略包括最坏动作、最后动作和平均得分。

步骤维度搜索包括：

1）贪心算法：侧重于在推理过程的每一步做出局部最优选择。它根据当前状态选择最佳的即时行动（步骤），而不考虑未来的后果。

2）Beam Search：在每个推理动作中探索多个分支，并为每个推理阶段维护固定数量的较优候选原子步骤。它在探索不同的推理链和当前最优步骤之间取得了平衡。

实验结果

实验测试了四种不同的推理范式，包括：

1）直接输出：直接输出答案。

2）CoT 输出：设计 CoT 提示来一次性产生中间推理步骤和答案。

3）QuickThink：逐步产生一条原子推理路径而不进行搜索，推理时间较短。

4）SlowThink：使用 Beam Search 来搜索和剪枝一棵搜索树，推理时间较长。

上表展示了本文框架的性能。首先在只使用 QuickThink 时，对于 LLaVA-Llama3-8B 其 AtomThink 版本就大大超越了基线模型，在 MathVista 上实现了约 10% 的改进，在 MathVerse 上实现了 19% 的提升。这表明，当模型具有原子推理能力时，它已经可以利用快速思考进行更准确的数学推理。

实验结果还证明了纯语言模型也能对多模态推理提供有效的过程监督。在和 LLaVA-Llama3-8B 与 EMOVA-8B 的对比中 SlowThink 都获得了一致的性能提升，特别是对比 CoT 输出的性能甚至提升了一倍，表明该框架具有强大的可扩展性。

对于不同的搜索策略本文也做出了细致比较，实验证明 Best-of-N 和 Beam Search 比多数投票和贪心算法的提升明显，特别是基于平均得分聚合的 Best-of-N 在 MathVista-Math 任务中获得了最高的 58.7% 的精度。

通过改变候选步骤数量，文章还探讨了多模态数学推理任务中 Test-time scaling law 的存在。随着候选步骤的增加，两个模型都呈现出不断增强的趋势，其中较弱的 LLaVA 模型即使推理时间增加十倍也没有呈现出边际效应。

总结

本文将原子思维能力引入多模态大语言模型，以解决困难的数学推理问题。文中发布了一个高质量的长 CoT 数据集以及一个关注于提升原子步骤质量的慢思考框架。该方法在解决问题的每一步都始终保持着较高的推理质量，从而提高了各种多模态数学任务的推理性能，为开发广义慢思考模型铺平了道路。

#MaVEn

面向多模态大模型多图理解的连续/离散视觉混合编码策略

本篇分享 NeurIPS 2024 论文MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model，北大联合阿里提出 MaVEn：面向多模态大模型多图理解的连续/离散视觉混合编码策略。

论文地址：https://arxiv.org/pdf/2408.12321
代码地址：https://github.com/orgs/X-PLUG/repositories

研究动机与背景

近年来，多模态大语言模型（Multimodal Large Language Models, MLLMs）在处理复杂的视觉-语言任务上表现出巨大潜力。通过结合自然语言处理和计算机视觉技术，这些模型在单图像描述生成、视觉问答等任务中取得了突破。然而，随着实际应用需求的不断增长，当前的MLLMs在多图像推理任务上仍然面临重大挑战。这些挑战主要表现在以下几个方面：

视觉信息冗余与序列长度问题
多图像任务（如多视角事件推理、多图像关系分析）通常涉及多张图像输入。这会导致视觉特征序列过长，不仅增加了模型的计算开销，还可能引入大量冗余信息，削弱模型对关键语义的捕获能力。例如，传统视觉编码方式常将图像的每一局部特征以连续序列的形式输入到模型中，当输入图像数量增加时，序列长度呈指数级增长，极大地限制了推理效率。
语义抽象能力不足
当前的MLLMs在处理视觉信息时，大多依赖连续特征（如卷积神经网络或视觉Transformer生成的特征向量）。虽然这种方式能够捕获图像的细节信息，但在语义层次上的抽象能力较弱，尤其是在多图像场景中，难以精准地建模图像间的高层语义关联。此外，这种特征表示容易受到无关细节的干扰，限制了模型在语义推理任务中的表现。
多模态对齐与跨图像推理的困难
多图像任务要求模型不仅能够提取单张图像的语义，还需要综合多张图像的语义信息，进行逻辑推理和关系建模。这种跨图像的语义关联需要更强大的多粒度信息融合能力，而现有模型在这方面存在明显不足。例如，多图像任务中的图像间关系可能涉及时间序列、空间分布或抽象事件的因果关联，单一粒度的视觉表征很难全面捕捉这些复杂关系。

基于上述挑战，作者提出了一种名为 MaVEn（Multi-granularity Hybrid Visual Encoding Framework 的混合视觉编码框架。该框架旨在通过整合离散和连续的视觉表征方式，以多粒度的语义建模来提升MLLMs在多图像任务中的推理能力，并通过动态序列压缩机制解决计算效率问题。

图1：多图像场景下的模型性能比较

图1. 我们对比了经典的单图像任务训练的多模态大语言模型 LLaVA1.5和Mavenn在三种多图像场景（多图像推理、基于知识的视觉问答和视觉关系推断）中的性能表现。LLaVA1.5 在多图像场景下表现出显著的局限性

方法（Method）

本文提出了一种基于多粒度视觉特征的多模态大语言模型（MLLM）架构，如图2所示，该架构能够有效增强多图像理解能力。图像输入被编码为离散符号序列和连续高维向量序列两种形式。

离散视觉符号序列提取了图像中粗粒度的核心视觉概念，而连续向量序列则保留了图像的细粒度信息。此外，为了减少多图像场景中连续视觉序列的冗余信息和无关表示，并缩短输入上下文长度，框架还引入了一种基于文本语义引导的动态视觉特征缩减策略。以下为该方法的具体模块和机制。

图2：多粒度混合视觉编码框架结构

图2. 子图(a)展示了多粒度混合视觉编码框架的结构示意图；子图(b)展示了在离散视觉信息指导下的连续视觉特征缩减机制

1.多粒度混合编码（Multi-Granularity Hybrid Encoding）

如图2 所示，假设输入为，其中表示张图像的集合，为对应的文本内容。对于每张图像（），分别采用离散视觉编码器（）和连续视觉编码器（）进行编码。

1.1 离散视觉编码（Visual Discrete Encoding）

离散化过程：

图像通过离散视觉标记器，例如（）被离散化为一组视觉符号序列：
其中，，是视觉离散编码词汇表的大小。

统一多模态词汇：

将视觉离散词汇与文本词汇合并形成统一的多模态词汇。假设语言模型的词汇表大小为，视觉词汇表大小为，则多模态词汇表大小为。
视觉离散序列被重新对齐到多模态词汇表的索引中，最终离散编码形式为：
其中，。
同时，语言模型嵌入层的权重矩阵从扩展到，从而能够同时嵌入视觉和文本离散符号。

最终视觉表示：

将连续视觉特征与离散视觉特征进行序列拼接，形成输入到 LLM 的最终视觉表示：

1.2连续视觉编码（Visual Continuous Encoding）

编码过程：

使用视觉变换器（Vision Transformer, ViT）对输入图像进行编码。假设图像尺寸为，首先将其划分为大小为的图像块（patch），生成个图像块。
这些图像块通过 ViT 编码器被编码为连续视觉特征序列：
其中，，是维度为的连续向量。

特征缩减：

使用基于文本语义的补丁（patch）缩减模块，对中与输入文本内容无关的特征进行动态裁剪。
得到缩减后的特征序列：
最后，使用类似于 LLaVA 1.5 的多层感知机（MLP）投影器将投影到与语言模型（LLM）嵌入层一致的语义空间中。

2.连续视觉特征缩减机制（Continuous Visual Tokens Reduction Mechanism）

动机：
连续视觉特征序列中存在较多冗余或重复语义信息。为了避免这些信息影响模型的推理效率，本文提出了一种在离散视觉信息指导下的连续特征缩减机制，以实现语义协同。
离散视觉信息的全局表示：

在获得离散视觉符号序列后，添加一个 <EOS> 符号。
将输入 LLM，获取最后一层的 <EOS> 输出隐状态，作为离散视觉信息的全局表示。

相关性评分与缩减：

将每个图像块特征与进行拼接，构造输入。
通过多层感知机（MLP）预测每个图像块与离散视觉信息的相关性评分：
根据相关性评分，选择前个关键图像块特征，未被选中的特征将被丢弃。这里是控制选择比例的超参数。

伪标签构造：

使用 Grounding SAM 对图像进行文本引导的语义分割，生成像素级掩码。
计算每个图像块与掩码的重叠面积，重叠的图像块被标注为 1，否则标注为 0，以此构造块级伪标签。

图3. Maven 训练范式示意

3.模型训练范式（Training Paradigm）

模型的训练分为以下四个阶段：

第一阶段：训练补丁选择器（Patch Selector）。

利用 COCO 和 Visual Genome 数据集生成的语义分割伪标签，冻结其他参数，仅训练补丁选择器。

第二阶段：扩展 LLM 嵌入层以适应多模态词汇表。

使用单图像数据集（如 LLaVA 558K）训练模型的离散视觉编码部分。

第三阶段：优化视觉投影器（Visual Projector）。

使用连续视觉特征生成图像描述，调整视觉投影器与多模态词汇表语义空间的对齐。

第四阶段：全模型微调。

使用 LLaVA 665K 指令微调数据集，解冻除视觉编码器和补丁选择器外的所有参数。

如图3所示，各阶段有机结合，逐步优化模型的多模态语义表示能力。

实验结果

为验证 Maven 在多图像场景中的有效性，我们评估了其在多图像视觉理解和推理方面的表现。在多图像视觉理解任务中，采用了 DemonBench 和 SEED-Bench 作为评估基准。

1.Maven 在多图像视觉理解任务中的表现

1.1 DemonBench 测试结果

表1

如表 1 所示，我们在 DemonBench 上对 Maven 进行了评估，并与多图像数据训练的多模态大语言模型（如 Openflamingo、Otter、VPG-C）以及单图像场景模型进行了比较。

实验结果显示，Maven 在多个任务中表现优异，例如视觉关系推理（Visual Relation Inference）、多模态填空（Multi-Modal Cloze）、富文本图像问答（Text-Rich Images QA）、知识支撑问答（Knowledge-Grounded QA）和多图像推理（Multi-Image Reasoning）。

此外，在视觉故事生成（Visual Storytelling）和多模态对话（Multi-Modal Dialogue）任务中，Maven 的表现与现有最优方法相当。

1.2 SEED-Bench 测试结果

Maven 在单图像视觉理解任务中的表现

表3

我们还探讨了 Maven 对单图像视觉理解和生成能力的提升效果。在此背景下，我们选用了常见基准（如视觉问答 VQA 数据集）以及最近设计的多模态基准（如 MME、MMBench 和 MM-Vet）进行评估。

3.消融实验

3.1 多粒度混合编码的有效性

表4

为验证多粒度混合编码的有效性，我们分别采用仅使用视觉离散编码和仅使用视觉连续编码的模型进行训练，并将其结果与多粒度混合编码模型的性能进行了对比。结果如表 4 所示：

仅使用视觉离散编码的模型在多图像和单图像场景中的表现较差。这是因为离散视觉特征编码在捕获图像高维语义信息的同时，丢失了大量低维细粒度细节信息，从而导致编码过程存在损耗。
仅使用视觉连续编码的模型也未能实现最优性能，尤其是在多图像任务中。这表明单一的视觉连续编码方法不适合复杂的多图像场景。
采用多粒度混合编码的模型在所有基准上的表现均显著优于上述单一编码方法，验证了其在保留语义细节和高效推理方面的优势。

3.2 连续视觉特征缩减机制的效率

图4. 不同保持比例下模型的性能变化

为验证补丁缩减机制的有效性，我们在不同保持比例（Keeping Ratio）下，比较了视觉标记长度的变化以及模型在多种基准任务上的表现。

实验结果如图4 所示：

当保持比例为 0.1 时，视觉标记数量大幅减少至 89，但模型性能显著下降。
当保持比例为 0.25 时，视觉标记数量适中且性能较为稳定，模型在多种基准任务中的表现均达到较高水平。因此，我们最终选择保持比例为 0.25。

4. 定性分析

4.1 离散与连续视觉标记的语义粒度

图5. 视觉离散字典索引可视化

为研究离散标记的语义，我们从视觉离散字典中随机选择一个索引值（例如索引值 4568），并在 CC/SUB 数据集中搜索含有该索引的图像。如图 5 所示，我们发现包含索引 4568 的图像均描绘了雪人。这表明索引 4568 可表示高层语义（如雪人或白雪）。

4.2 离散与连续视觉表示的语义协同

如图5所示，通过补丁选择器的相关性评分以及保持比例为 0.25 时选中的图像块，我们观察到补丁选择器倾向于选择与离散视觉语义相关的图像块。这些补丁补充了离散标记中缺失的低级细节信息，进一步验证了多粒度混合编码在实现语义协同方面的有效性。

4.3 离散视觉标记在多图像推理中的作用

图6. 使用离散视觉编码与不使用离散视觉编码两种情况下模型内部Cross Attention 权重可视化

如图6 所示，在仅使用连续视觉标记时，模型推理过程中主要关注文本标记，忽视了视觉标记。而采用多粒度混合编码后，模型在回答问题时建立了与离散视觉标记的注意力关联。这表明离散视觉标记在多图像推理过程中引导语言模型关注视觉信息。

#MobileAgent

一直以来，让 AI 成为手机操作助手都是一项颇具挑战性的任务。在该场景下，AI 需要根据用户的要求自动操作手机，逐步完成任务。

随着多模态大语言模型（Multimodal Large Language Model，MLLM）的快速发展，以 MLLM 为基础的多模态 agent 逐渐应用于各种实际应用场景中，这使得借助多模态 agent 实现手机操作助手成为了可能。

最新的利用多模态 agent 实现 AI 操作手机的研究《Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception》。

项目：https://github.com/X-PLUG/MobileAgent
论文：https://arxiv.org/abs/2401.16158v1

多模态agent时代已经到来，目前已有不少有趣的应用，今天来介绍一个用多模态agent实现手机操作助手的工作Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception，通过纯视觉方案实现AI操作手机。

所谓手机操作助手，即用户输入指令，agent自动完成一系列手机上的操作，例如下面的这几个例子：

用浏览器查询比赛结果并写一个新闻

下面是一个在 YouTube 里找相关视频并发表评论的例子，用户的要求是在 YouTube 里搜索视频，找到一个和某个明星相关的视频，然后发表评论。在整个过程中，Mobile-Agent 没有出现任何错误、不必要或无效的操作，完美地完成了任务。

在TikTok刷短视频并且评论

接下来是一个操作多 App 的例子，用户的要求是先去查询今天的比赛结果，然后根据结果写一个新闻。这个任务的挑战性在于，前后要使用两个 App 完成两个子任务，并且需要将第一个子任务的结果作为第二个子任务的输入。Mobile-Agent 首先完成了查询比赛结果，随后退出浏览器并打开笔记，最后将比赛结果精准地写出，并以新闻的方式呈现。

在YouTube搜索视频并且评论

最后展示一个短视频平台评论的例子，用户的需求是在短视频平台中刷视频，如果刷到了宠物猫相关的视频，就点一个喜欢。在该例子中，Mobile-Agent 出现了两次错误的操作（红色字体指示），然而 Mobile-Agent 及时感知到了错误并且采取了补救措施，最终也完成了任务。

Mobile-Agent是如何完成这些任务的？下面将详细介绍方法。

从上述的例子中可以看出，Mobile-Agent 有以下三个能力：

（1）操作定位。对于需要点击特定图标和文本的操作，Mobile-Agent 能够准确点击到对应的位置。

（2）自我规划。根据用户指令和当前屏幕截图，Mobile-Agent 能够自动规划每一步的任务，直到任务完成。

（3）自我反思。如果出现了错误操作或者无效操作，Mobile-Agent 能够及时发现问题并进行补救。

操作空间

我们首先介绍Mobile-Agent的操作空间。为了便于将文本描述的操作转化为屏幕上的操作，Mobile-Agent生成的操作必须在一个定义好的操作空间内。这个空间共有8个操作，分别是：

打开App（App名字）
点击文本（文本内容）
点击图标（图标描述）
打字（文本内容）
上翻、下翻
返回上一页
退出App
停止

为了能够实现将操作输出到手机屏幕，我们针对需要定位的两个操作：点击文本和点击图标设计了输入参数。Mobile-Agent在使用这两个操作时，必须输出括号内的参数。这个参数将用于下面介绍的操作定位。

操作定位

在大多数情况下，MLLM已经具备输出正确操作的能力，这体现在提供手机截图和用户指令后，这些模型往往能够生成正确的操作。然而，虽然MLLM可以产生正确的操作，但当要求MLLM输出这些操作将要在屏幕上发生的位置时，MLLM往往无法提供准确的坐标。即使是GPT-4V，也无法将某个图标或文字在屏幕上的坐标准确输出。

为了实现定位，如上图所示，我们针对文本和图标设计了两个模块。首先是文本识别模块，Mobile-Agent借助OCR工具来定位出指定文本。如果指定文本在屏幕中多次出现，则会将这些区域裁剪出来并绘制检测框，OCR工具返回的多个区域将会以多图输入的方式重新做一次选择。

随后我们介绍图标识别模块。Mobile-Agent首先借助检测模型，使用检测词“图标”将屏幕中所有图标区域裁剪出来，随后根据Mobile-Agent提供的图标描述，利用CLIP计算这些裁剪区域于描述的相似度，并选择最高的区域作为点击的坐标。

自我规划

Mobile-Agent以迭代方式完成每一步操作。在迭代开始之前，用户需要输入一个指令。我们根据指令生成整个流程的系统提示。在每次迭代开始时，Mobile-Agent会获取手机屏幕的截图，通过观察系统提示、操作历史和当前屏幕截图，输出下一步操作。

如果Mobile-Agent输出的是结束，则停止迭代；否则，继续新的迭代。Mobile-Agent利用操作历史记录了解当前任务的进度，并根据系统提示对当前屏幕截图进行操作，从而实现迭代式自我规划流程。

自我反思

在迭代过程中，Mobile-Agent可能会遇到错误，导致无法完成指令。为了提高指令的成功率，我们引入了一种自我反思方法。这种方法将在两种情况下生效。

第一种情况是生成了错误或无效的操作，导致进程卡住。当Mobile-Agent注意到某个操作后截图没有变化，或者截图显示了错误的页面时，它会尝试其他操作或修改当前操作的参数。

第二种情况是忽略某些复杂指令的要求。当通过自我规划完成所有操作后，Mobile-Agent会分析操作、历史记录、当前截图和用户指令，以确定指令是否已完成。如果没有，它需要继续通过自我规划生成操作。

Mobile-Eval

为了全面评估 Mobile-Agent 的能力，作者引入了 Mobile-Eval，这是一个基于当前主流应用程序的 benchmark。Mobile-Eval 共包含 10 个移动设备上常用的应用程序。为了评估多应用程序使用能力，作者还引入了需要同时使用两个应用程序的指令。作者为每个应用程序设计了三种指令。第一条指令相对简单，只要求完成基本的应用程序操作。第二条指令在第一条指令的基础上增加了一些额外要求，使其更具挑战性。第三条指令涉及抽象的用户指令，即用户不明确指定使用哪个应用程序或执行什么操作，让 agent 自己做出判断。下面的表中介绍了 Mobile-Eval 中使用的应用程序和指令。

实验结果

下表中展示了Mobile-Agent的评测结果。其中SU代表指令是否完成，PS代表正确操作占所有操作的比例，RE代表Mobile-Agent和人类完成指令时分别用了多少步，CR是Mobile-Agent能够完成的操作占人类操作的百分比。

在3种指令上，分别达到了91%、82%和82%的成功率，在完成度上，3种指令都达到了90%以上，并且Mobile-Agent可以达到90%人类的效果。

值得注意的是，虽然PS平均只有85%左右，但是在总共的33个任务上，Mobile-Agent能够完成28个，这也说明了自我反思的重要性，即使会出现错误操作，也能够及时发现并纠正，最终完成任务。

中文能力

下面两个例子展示了中文场景下的表现。虽然GPT-4V在中文识别上还有待加强，但是在文字不多的简单场景下Mobile-Agent也可以完成任务。

#CMMMU

近期，随着多模态大模型（LMM）的能力不断进步，评估 LMM 性能的需求也日益增长。与此同时，在中文环境下评估 LMM 的高级知识和推理能力的重要性更加突出。更适合中文LMM体质的基准CMMMU来了：超过30个细分学科，12K专家级题目.

在这一背景下，M-A-P 开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多学科多模态理解和推理基准 CMMMU（Chinese Massive Multi-discipline Multimodal Understanding and Reasoning），用于评估基本模型在中文各种任务中的专家级多模式理解能力。

CMMMU 涵盖 6 个大类学科，包括艺术、商业、健康和医学、科学、人文与社会科学、技术与工程，跨越 30 多个细分领域学科。下图给出了每个细分领域学科的一个题目示例。CMMMU 是第一个在中文背景下的多模态基准，也是现有少数的考察 LMM 复杂理解和推理能力的多模态基准之一。

数据集构建

数据采集

数据采集分为三个阶段，第一阶段由研究者们为每一个科目收集满足版权许可要求的题目来源（网页或者书籍），同时避免题源重复，然后第二阶段，研究者们将题源转发给众包标注者以进行进一步的标注。所有的标注者都是本科生或更高的学位，以确保他们可以验证标注的问题和相关的解释。在标注过程中，研究者要求标注者严格遵循标注原则，比如过滤掉不用图片就能回答的问题、尽可能地过滤掉使用相同图像的问题与不需要专家知识来回答的问题等。最后第三阶段，研究者为了平衡数据集中每一科目题目数量，对问题收集较少的科目专门进行补充。

数据集清洗

为了进一步提高 CMMMU 的数据质量，研究者们遵循严格的数据质量控制协议。首先，每个问题都由至少一位论文作者手工验证。其次，考虑到数据污染问题，他们也过滤掉了在不借助 OCR 的情况下，几个 LLM 也可以回答出的问题。

数据集概览

CMMMU 由 12K 个题目组成，分为少样本开发集、验证集和测试集。少样本开发集包括每个学科 5 个左右的题目，验证集抽样出 900 个题目，测试集包括 11K 题目。题目中的图片包括病理图、乐谱图、电路图、化学结构图等等，共 39 种类型。他们根据逻辑难度而不是智力难度将数据分为简单 (30%)、中等 (58%) 和困难 (12%) 三种难度。更多题目统计信息在表 2 和表 3 中展示。

实验

团队测试了多种主流的中英文双语 LMM 以及几个 LLM 在 CMMMU 上的表现。其中包含了闭源和开源模型。评估过程使用 zero-shot 设置，而不是微调或者 few-shot 设置，以检查模型的原始能力。LLM 还加入了图片 OCR 结果 + text 作为输入的实验。所有的实验都是在 NVIDIA A100 图形处理器上进行的。

主要结果

表 4 展示了实验结果：

一些重要发现包括：

- CMMMU 比 MMMU 更具挑战性，且这是在 MMMU 已经非常具有挑战性的前提下。

GPT-4V 在中文语境下的准确率仅为 41.7% ，而在英语语境下的准确率为 55.7% 。这表明，现有的跨语言泛化方法甚至对于最先进的闭源 LMM 都不够好。

- 与 MMMU 相比，国内具有代表性的开源模型与 GPT-4V 之间的差距相对较小。

Qwen-VL-Chat 和 GPT-4V 在 MMMU 上的差异为 13.3% ，而 BLIP2-FLAN-T5-XXL 和 GPT-4V 在 MMMU 上的差异为 21.9% 。令人惊讶的是，Yi-VL-34B 甚至将 CMMMU 上开源双语 LMM 和 GPT-4V 之间的差距缩小到了 7.5% ，这意味着在中文环境下，开源双语 LMM 与 GPT-4V 相当，这在开源社区中是一个有希望的进步。

- 在开源社区中，追求中文专家多模态人工通用智能 (AGI) 的游戏才刚刚开始。

团队指出，除了最近发布的 Qwen-VL-Chat、 Yi-VL-6B 和 Yi-VL-34B 外，所有来自开源社区的双语 LMM 只能达到与 CMMMU 的frequent choice 相当的精度。

对不同题目难度和题型的分析

- 不同题目类型

Yi-VL 系列、 Qwen-VL-Plus 和 GPT-4V 之间的差异主要还是因为它们回答选择题的能力不同。

不同题目类型的结果如表 5 所示：

- 不同题目难度

结果中值得注意的是，最好的开源 LMM (即 Yi-VL-34B) 和 GPT-4V 在面对中等和困难的问题时存在较大的差距。这进一步有力地证明，开源 LMM 和 GPT-4V 之间的关键差异在于在复杂条件下的计算和推理能力。

不同题目难度的结果如表 6 所示：

错误分析

研究者们仔细分析了 GPT-4V 的错误答案。如下图所示，错误的主要类型有感知错误、缺乏知识、推理错误、拒绝回答和注释错误。分析这些错误类型是理解当前 LMM 的能力和局限性的关键，也可以指导未来设计和培训模型的改进。

- 感知错误 (26%) : 感知错误是 GPT-4V 产生错误示例的主要原因之一。一方面，当模型无法理解图像时，会引入对图像基本感知的偏差，从而导致不正确的响应。另一方面，当模型遇到特定领域知识、隐含意义或不明确的公式中的歧义时，它往往表现出特定领域的知觉错误。在这种情况下，GPT-4V 倾向于更多地依赖基于文本信息的回答 (即问题和选项) ，优先考虑文本信息而不是视觉输入，从而导致理解多模态数据的偏差。

- 推理错误 (26%) : 推理错误是 GPT-4V 产生错误例子的另一个主要因素。在模型正确地感知到图像和文本所传达的意义的情况下，在解决需要复杂逻辑和数学推理的问题时，推理过程中仍会出现错误。通常，这种错误是由于模型较弱的逻辑和数学推理能力造成的。

- 缺乏知识 (22%) : 缺乏专业知识也是 GPT-4V 错误作答的原因之一。由于 CMMMU 是评价 LMM 专家 AGI 的基准，因此需要不同学科和子领域的专家级知识。因此，将专家级知识注入 LMM 也是可以努力的方向之一。

- 拒绝回答 (12%) : 模型拒绝回答也是一种常见的现象。通过分析，他们指出模型拒绝回答问题的几个原因: (1) 模型未能从图像中感知到信息；(2) 是涉及宗教问题或个人现实生活信息的问题，模型会主动回避；(3) 当问题涉及性别和主观因素时，模型避免直接提供答案。

- 其他错误：其余的错误包括文本理解错误 (7%)、标注错误 (2%) 和答案提取错误 (5%)。这些错误是由于复杂的结构跟踪能力、复杂的文本逻辑理解、响应生成的局限性、数据标注的错误以及答案匹配提取中遇到的问题等多种因素造成的。

结论

CMMMU 基准测试标志着高级通用人工智能 (AGI) 开发的重大进展。CMMMU 的设计是为了严格评估最新的大型多模态模型 (LMMs) ，并测试基本的感知技能，复杂的逻辑推理，以及在特定领域的深刻专业知识。该研究通过比较中英双语语境下 LMM 的推理能力，指出其中的差异。这种详尽的评估对于判定模型水平与各个领域经验丰富的专业人员的熟练程度的差距至关重要。

#The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion

李飞飞团队统一动作与语言，新的多模态模型不仅超懂指令，还能读懂隐含情绪

人类的沟通交流充满了多模态的信息。为了与他人进行有效沟通，我们既使用言语语言，也使用身体语言，比如手势、面部表情、身体姿势和情绪表达。因此，为了理解和生成人类动作，理解这些多模态的行为至关重要，而且这一研究方向最近受到的关注也越来越多。

而多模态语言模型看起来颇具潜力，可将多种模态的不同任务统一在一个框架下。

近日，斯坦福大学李飞飞、Gordon Wetzstein 和 Ehsan Adeli 领导的一个团队也在这方面做出了贡献，探索了语音 - 文本 - 动作生成任务。并且他们还提出了一个全新的多模态语言模型，可以实现富有表现力的动作生成和理解。

这个模型可以同时接受音频和文本输入来生成动作。比如你指定这个人下半身的动作是绕圈走，并根据语音生成上半身动作，它就会配合你生成对应的动作。

更重要的是，它支持动作编辑，可以将原本的绕圈走动更换为其他动作序列（如后退、跳跃、前跑、后跑等）。更换了动作指令，模型生成的动作依然自然流畅，并与语音内容保持良好的协调性。

，时长00:28

很显然，这项研究对于李飞飞的长远「空间智能」目标大有裨益。这项研究有三位共同一作：Changan Chen（陈昌安）、Juze Zhang 和 Shrinidhi K. Lakshmikanth。

论文标题：The Language of Motion: Unifying Verbal and Non-verbal Language of 3D Human Motion
论文地址：https://arxiv.org/abs/2412.10523v1
项目页面：https://languageofmotion.github.io/

论文概览

首先，该团队指出，为了统一人类动作的言语和非言语语言，语言模型是至关重要的。他们给出了三点原因：

语言模型能自然地与其它模态连接起来；
语音富含语义，而「建模因笑话而发出的笑声」这样的任务需要强大的语义推理能力；
经过大量预训练之后，语言模型能够具备强大的语义理解能力。

基于这样的理解，该团队打造出了一种全新的多模态语言模型，如图 1 所示。

为了使用语言模型来建模动作，首先自然要想办法将动作变成 token。该团队的做法是针对不同的身体部位（脸、手、上身、下身）来实现动作的 token 化。事实上，之前已有研究表明，这种划分策略在建模人脸表情方面确实很有效。

之后，再搭配上现成可用的文本和语音 token 化策略，就可以将任何模态的输入都表示成 token 了。

为了训练这个使用多种模态的 token 的语言模型，该团队设计了一个两阶段式训练流程：

首先，进行预训练，目标是通过身体组合动作对齐与音频 - 文本对齐来对齐各种不同的模态。
预训练完成后，将下游任务编译成指令，并根据这些指令训练模型，使模型能够遵循各种任务指令。

该团队自然也进行了实验验证，结果发现新方法得到的多模态语言模型确实比其它 SOTA 模型更优。不仅如此，他们还发现，在严重缺乏数据的情况下，这种预训练策略的优势更为明显。

，时长00:48

与其他伴语手势生成模型的效果对比

，时长00:42

与其他文生动作模型的效果对比

尽管该模型在预训练期间从未见过语音 - 动作数据，但在用于数据相对较少的全新说话人时，它依然达到了颇具竞争力的性能，表现出了显著的泛化能力。

该团队表示：「就我们所知，这是首个构建多模态语言模型来统一 3D 人体动作的言语和非语言语言的工作。」

用于动作生成和理解的多模态语言模型

模型的整体结构如下图 2 所示。

作者使用针对特定模态的 tokenizer 来处理各种输入模态。具体来说，他们训练了一个组合式的身体动作 VQ-VAE，将面部、手部、上半身和下半身的动作 token 化为离散的 token，并将这些针对特定模态的词汇表（音频和文本）合并成一个统一的多模态词汇表。

在训练过程中，他们使用来自不同模态的混合 token 作为输入，并通过编码器 - 解码器语言模型生成输出。混合 token 被送入 transformer 编码器，而解码器则在每一步以自回归的方式预测下一个 token 的概率分布。

模态对齐预训练

现有的动作生成模型在针对下游任务训练时严重依赖成对数据。然而，收集高质量的成对动作数据既昂贵又耗时。与此同时，还有大量未配对的每种模态的数据可供探索。受此启发，作者引入了一个生成式预训练策略，如图 3 所示。具体来说，他们在预训练阶段实施了两种类型的模态对齐：组合动作对齐和音频 - 文本对齐。

1、组合动作对齐

我们的身体动作本质上是组合性的，即不同的身体部位是相互协调动作的。例如，当我们高兴时，我们的面部会展现出微笑，我们的手势也倾向于变得更加积极。不同身体部位动作之间的相关性是普遍的，超越了文化界限。这种共享的先验知识构成了论文所提方法的基础。为了探索这种对应关系，作者考虑了两种类型的动作对齐任务：空间和时间。

空间

为了建模这些不同身体部位之间的相关性，作者训练模型接收随机选择的身体部位组合（例如，上半身或上半身 + 面部）并预测另一个随机选择的其他身体部位组合（例如，下半身或下半身 + 手部）。这有助于模型学习身体部位之间的空间关系。下面是一个定义任务提示、条件和答案的示例模板。模型接收提示和条件作为输入，并按预期输出答案。

时间

预测动作如何随时间变化也是一个重要的自监督任务，它使模型能够捕捉动作的时间演变。作者通过随机遮盖（mask）某些动作帧来建模这一点，以帮助模型学习动作的时间先验。

2、音频 - 文本对齐

除了动作模态，作者还设计了音频和文本模态之间的翻译任务，以利用大量可用的数据。这些任务遵循「从模态 X 预测模态 Y」的格式。例如，「从音频预测文本」应该通过将音频嵌入映射到预训练良好的文本嵌入空间，来帮助模型提升「从音频预测动作」方面的性能。

指令遵循后训练

预训练之后，模型获得了对动作模态词汇中潜在的语法和句法的理解，以及音频和文本模态之间的良好对齐。然后他们使用成对数据在下游任务上对模型进行微调，例如伴语手势（co-speech gesture）生成或文本到动作生成。为了使模型在遵循自然人类指令的同时执行所需的下游任务，作者构建了一个多任务指令跟随模板，将几个关键任务（如音频到动作、文本到动作和情感到动作）格式化为指令。

具体来说，对于每个任务，他们编写了数十种不同的指令模板，结果产生了超过一千个不同的任务，每个任务都有其独特的指令提示。下面展示了一个指令模板示例。

实验结果

伴语手势生成

该团队在 BEATv2 数据集上评估模型的音频到动作生成能力。他们使用了 BEATv2 和 Librispeech 两个数据集（总共包含 1000 小时音频 - 文本数据和 60 小时动作数据）来训练模型（在预训练中，他们确保模型不会看到任何音频到动作的数据），并在特定说话者的数据上进行测试。他们通过三个指标来评估模型效果：手势的真实性（FGD）、与语音的同步性（BC）以及动作的多样性（Diversity），以全面衡量模型的表现。

实验结果显示，该模型在所有指标上均优于现有方法。得益于预训练语言模型的语义理解能力，无需额外特征辅助即可达到良好效果。实验证明，语言预训练和多模态预训练对模型性能至关重要，移除任一环节都会导致性能显著下降。图 4 展示的定性结果表明，模型能生成与语音同步的自然手势动作。

生成式预训练的效果

由于为说话者收集动作数据既耗时又依赖专业设备，研究团队首先验证了各个预训练任务的重要性，然后探究生成式预训练能否提升模型在新说话者上的泛化能力，从而减少所需的训练数据量。

为此，他们分别移除了音频 - 文本对齐任务 (w/o A2T)、空间身体动作对齐任务 (w/o spatial)、时序身体动作对齐任务 (w/o temporal) 以及整体身体对齐任务 (w/o motion)。

表 1 展示了实验结果。(w/o A2T) 降低了模型性能，说明音频与文本嵌入空间的对齐有助于语义理解和手势生成任务。移除空间动作预测、时序动作预测或同时移除两者都会损害模型的性能。这表明在预训练阶段，学习时空动作先验对下游任务很重要。

基于这些发现，该团队假设预训练策略可以捕获强大的多模态关联和动作先验，从而减少下游任务对配对数据的依赖。

为验证这一假设，研究团队遵循上一节中的设置，在预训练阶段限制模型可用的训练数据量。值得注意的是，在模型的预训练阶段，研究团队没有使用任何音频和对应动作的配对数据（即音频 - 动作对）来训练模型。研究团队将数据量设为 1/2^n (n∈[1...5])，并在每种设置下训练完整模型、无预训练模型和 EMAGE 基线直至收敛，并在相同测试集上评估。

实验结果如图 5 所示。仅使用 1/32 的配对训练数据，该团队的完整模型相比无预训练模型，FGD 分数更低。随着配对微调数据量增加，性能差距虽有所减小，但完整模型始终优于无预训练模型和 EMAGE 基线。这证明了预训练的价值以及模型在极度缺乏数据时的出色泛化能力。

统一音频和文本的可编辑动作生成

这个模型可以同时接受音频和文本输入来生成动作。首先，在 BEATv2 和 AMASS 两个动作数据集上训练动作分词器。预训练和后训练阶段分别采用统一的任务设置，后训练阶段整合了音频到动作和文本到动作的指令，文本部分使用 HumanML3D 的标注数据。

这种双重输入的设计让模型具备了可编辑动作生成的能力。模型可以根据语音内容和文本指令生成全身动作，比如生成一个边走边说话的人物动作。研究团队还实现了分别控制不同身体部位的动作，并能将它们自然地组合在一起。这项技术对游戏和 VR 等应用有重要价值。图 6 展示了几个实际 demo，说明模型能够准确响应音频和文本的双重指令。

根据动作预测情绪

凭借灵活的输入 / 输出模态，这种新的多模态语言模型还在一些新任务上展现出了出色的能力，比如不同身体部位或模态之间的转译。

该团队提出了一个新任务来考验这个新模型：根据动作预测情绪，也就是阅读人的肢体语言。

为此，他们提取了 BEATv2 的情绪标签（中性、愤怒、快乐、恐惧、厌恶、悲伤、轻蔑和惊讶），并将其转换为了训练指令。结果见表 3。

在这项任务上，MotionGPT 完全失败，其表现与随机乱猜差不多，因为它的训练目标就只是描述一般动作，而不是细微的手势动作和肢体语言。新模型的表现远远优于随机和 MotionGPT，这表明其能够根据动作预测情绪。以下动图展示了一个示例。

#北大&北航最新综述全面复盘近三年多模态工作

北大和北航等团队最新的多模态大模型综述。把2022年以来的多模态理解、多模态生成以及多模态理解和生成统一的文章做了比较全面的总结，对与之相关的Tokenizer也有比较多的叙述，仔细读完会对多模态理解和生成领域有比较全面的认识。

在自然语言处理中语言建模的基础上，Next Token Prediction（NTP）已经发展成为跨各种模态的机器学习任务的通用训练目标，取得了相当大的成功。随着大语言模型（LLM）的发展，在文本模态中统一了理解和生成任务，最近的研究表明，来自不同模态的任务也可以有效地封装在NTP框架中，将多模态信息转换为令牌，并在给定上下文的情况下预测下一个。这项调查引入了一个全面的分类法，通过NTP的视角统一了多模态学习中的理解和生成。所提出的分类法涵盖了五个关键方面：多模态tokenization、MMNTP模型架构统一任务表示、数据集和评估以及开放挑战。这种新的分类法旨在帮助研究人员探索多模态智能。

仓库链接：https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction
论文链接：https://arxiv.org/pdf/2412.18619

在图2中，我们使用图像模态作为示例来说明使用NTP的多模态学习（MMNTP）的工作流程。该过程可分为三个关键组成部分：标记化、建模和培训目标，将在调查的其余部分详细解释和讨论。对于视觉模态，图像和视频理解能力已在大型视觉语言模型中得到证明，如GPT4-V、QwenVL、LLaVA、Kosmos、Phi vision和Gemini，而Emu和Chameleon表明视觉生成可以通过NTP方式实现。同样，在基于NTP的模型中，如GPT4-o和Moshi，已经实现了端到端的音频理解和生成。

#Thinking in Space,多模态LLM如何感知记忆和回忆空间

论文标题：Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces

论文链接：https://arxiv.org/pdf/2412.14171

项目链接：https://vision-x-nyu.github.io/thinking-in-space.github.io/

作者单位：纽约大学耶鲁大学斯坦福大学

人类具备通过连续视觉观察记忆空间的视觉-空间智能。那么，是否经过大规模视频数据集训练的多模态大语言模型（MLLMs）也能够从视频中实现“在空间中思考”？ Thinking in Space提出了一个新颖的视频驱动视觉-空间智能基准（VSI-Bench），包含超过5000个问答对。研究发现，MLLMs表现出竞争力的——但仍低于人类水平的——视觉-空间智能。我们对模型进行探测，分析其如何以语言和视觉方式表达空间思考能力。结果表明，尽管空间推理能力是MLLMs提升基准性能的主要瓶颈，但局部世界模型和空间感知能力在这些模型中确实有所显现。值得注意的是，传统的语言推理技术（如chain-of-thought, self-consistency, tree-of-thoughts）未能提升性能，而在问答过程中明确生成认知地图则显著增强了

VSI-Bench介绍

在选购家具时，我们常常会试图回忆起自己的客厅，以想象某个心仪的柜子是否合适。然而，估算距离并不容易，但即便仅仅观察一次，人类也能在脑海中重构空间，回忆房间中的物体、它们的位置及尺寸。我们生活在一个感官丰富的三维世界中，周围充满视觉信号，这些信号为我们的感知、理解和互动提供了基础。

视觉-空间智能包括感知和在脑海中操控空间关系，这需要多种能力的支持，例如关系推理以及在自我中心（egocentric）和他人中心（allocentric）视角之间的转换能力。尽管大语言模型（LLMs）在语言智能方面取得了显著进展，但视觉-空间智能的研究仍然不足。然而其在机器人技术、自动驾驶和增强/虚拟现实（AR/VR）等领域具有重要意义。

多模态大语言模型（MLLMs）结合了语言和视觉能力，在开放式对话和实际任务（如web agents）中表现出强大的思考和推理能力。为了推动视觉-空间领域的智能发展，本文提出了 VSI-Bench，这是一个基于视频的基准，涵盖近290个真实室内场景视频，包含超过5000个问答对。视频数据通过捕捉连续的时序输入，不仅与我们观察世界的方式相似，还能比静态图像提供更丰富的空间理解和推理能力。对开源和闭源模型在VSI-Bench上的评估表明，尽管模型与人类之间仍存在显著的性能差距，但MLLMs在应对视频理解、文本理解和空间推理等挑战时，已经展现出初步的视觉-空间智能。

为了分析模型行为，我们借鉴了双编码理论，该理论认为语言处理与视觉处理是独立但互为补充的。这里引导选定模型生成自解释（语言）和认知地图（视觉）。对自解释的分析表明，与视觉感知、语言智能或时间处理相比，空间推理是模型在 VSI-Bench 上表现较弱的主要原因。“认知地图”是环境内部布局的表示，通过评估认知地图，我们发现 MLLMs 在构建局部空间模型方面表现较强，但在全局模型上表现较弱。此外，传统的语言推理技术未能提升模型在该基准上的性能，但在问答过程中明确生成并使用认知地图能够显著改善模型在空间距离问题上的表现。

表达视觉-空间智能即使对人类而言也十分困难（且常常是零散的）。通过本研究，旨在鼓励学术界探索将前沿模型与视觉-空间智能相结合的方法，并为这一研究方向开辟道路、提供指引。

图1 无论是在家中、工作场所还是其他环境中，感知空间、记住其布局，并能够按需检索这些空间信息以回答问题，是视觉-空间智能的关键方面。近年来，多模态大语言模型（MLLMs）已能够理解一般视频，但面对环境视频记录时，它们能否“进行空间思考”？它们能否构建准确且隐式的“认知地图”，以回答关于空间的问题？使用 MLLMs 增强空间智能的优势和局限性是什么？

我们通过以下方法深入探讨这些问题：

为 MLLMs 提供视频数据进行观察；
构建一个视频问答（VQA）基准以评估其记忆与回忆能力；
检验 MLLMs 实际记住和理解了什么内容。

视觉-空间智能

本文讨论了视觉-空间智能的基本概念和范围，以为后续分析提供背景和框架。

术语使用本文使用“智能”（intelligence）而非“认知”（cognition），因为前者范围更广，而“空间认知”（spatial cognition）是认知心理学的一个分支。本研究中，在“空间智能”之前加上“视觉”这一前缀，因为空间智能本身可以独立于感官模式存在（例如，盲人可以通过其他感官感知空间）。鉴于本文的研究重点是视频输入，因此讨论的是视觉-空间智能。

研究范围
尽管经典的空间智能测试也包括诸如心理旋转测试（Mental Rotation Test）等纸笔任务，本文的研究重点是视觉-空间智能在现实环境中的应用，尤其是在家庭、办公室和工厂等常见场景中的表现。

图2 视觉-空间智能能力分类法。

分类法
我们基于认知心理学研究以及在第3节中对基准任务的经验，提出了可能构成视觉-空间智能的能力分类（如图2所示）。在 VSI-Bench 中，视觉感知、语言智能、时间处理和空间推理是四个核心领域。例如，一些研究表明，视觉对象处理和空间处理在神经层面上是不同的，这促使本文将“视觉感知”和“空间推理”区分为独立领域。

我们将空间推理划分为两种主要能力：关系推理和自我中心-他人中心（egocentric-allocentric）视角转换。

关系推理
关系推理是指通过距离和方向识别物体之间关系的能力。这还包括基于视觉-空间常识推断物体之间的距离。例如，了解一个标准饮料罐约12厘米高，人类可以通过视觉比例比较估算其他物体的大小。

自我中心-他人中心转换
自我中心-他人中心（egocentric-allocentric）转换涉及在自我为中心的视角（egocentric）和以环境为中心的视角（allocentric）之间切换。在本文的设定中，每一帧自我中心的视频画面都映射到他人中心的物体位置和相机轨迹。当人类观察空间时，会将自我中心的感知转化为他人中心的心理地图，从而能够从不同视角进行透视——这对于相对方向判断或路径规划等任务至关重要。

这种转换依赖于两种能力：

可视化新视角
视觉-空间工作记忆
视觉-空间工作记忆是指存储和操控空间信息的能力，例如通过新的自我中心输入更新物体位置。

在 VSI-Bench 中的每一项任务都需要感知、语言和时间处理能力，以及不同程度的空间推理能力。例如，在路径规划任务中，自我中心-他人中心转换尤为重要，而在物体大小估算任务中则相对次要。这些因素为视觉-空间智能的复杂性提供了背景参考。

VSI-Bench的详细设计

VSI-Bench用于从自我中心视频中定量评估多模态大语言模型（MLLMs）的视觉-空间智能。VSI-Bench 包含超过5000个问答对，这些问答对基于288个真实视频生成。视频来源于公开的室内三维场景重建数据集（如 ScanNet、ScanNet++和 ARKitScenes）的验证集，涵盖多样化的环境，包括住宅空间、专业场所（如办公室、实验室）和工业空间（如工厂），以及多个地理区域。通过重新利用这些现有的3D重建和理解数据集，我们能够获得精确的物体级标注，这些标注不仅用于问题生成，还为研究 MLLMs 与3D重建的联系提供了可能性。

VSI-Bench 具有较高质量，经过多次迭代审查以尽量减少问题歧义并删除源数据集中可能传播的错误标注。

图3 VSI-Bench 任务示例

注：为提高清晰度与简洁性，上述问题已稍作简化。

任务类型
VSI-Bench 包含三类共八种任务：配置类、测量估算类和时空类。

配置类任务
包括物体计数、相对距离、相对方向和路径规划，测试模型对空间配置的理解，这些任务对人类来说较为直观（第4节详细比较了 MLLM 和人类的性能）。
测量估算类任务
包括物体大小、房间大小和绝对距离的估算，对于任何智能体都具有重要意义。尽管精确预测测量值对于人类和模型都非常困难，但对距离和其他测量的更好感知直观上与更强的视觉-空间智能相关，并支撑了需要空间意识的广泛任务，例如与物体交互和导航。
时空类任务
如出现顺序测试，评估模型对视频中所见空间的记忆能力。

请参阅图3了解 VSI-Bench 任务概览，以及图5获取数据集统计信息。

图4 基准数据集整理流程

该流程首先将多样化数据集统一为标准化格式和语义空间，以实现一致的处理。问答对通过人工标注和问题模板生成。在关键阶段实施人工验证，以过滤低质量视频、标注及模糊的问答对，从而确保数据集质量。

图5 基准统计信息

顶部：三大任务类别中各任务的分布情况。
底部：视频长度的统计分布。

实验结果分析

图6 性能比较

对比了启用视觉（Vision Enabled，具有视频输入）、禁用视觉（Vision Disabled，无视频输入）和随机水平（Chance Level，基于频率）的性能。

Enabled−Disabled 表示启用视觉与禁用视觉之间的性能差距。
Disabled−Chance 表示禁用视觉与随机水平之间的性能差距。

任务按 Enabled−Disabled 差距排序，以便更清晰地理解结果。

图7 MLLM 自解释示例

示例展示了 MLLM 的思考过程。从中可以看出，尽管 MLLM 在视频理解和语言推理能力方面表现出色，其空间推理能力仍处于发展阶段。

图8 按错误类型的人为分析

超过70%的错误源于空间推理能力的不足。

图9 CoT、Self-Consistency 与 Tree-of-Thought的相对改进

与基线相比，这三种常用的提示技术在本文的基准测试中平均未能取得提升，有些情况下甚至导致任务性能显著下降。这表明，仅依靠提升语言能力无法解决 VSI-Bench 中的任务。

图10 MLLM 与 GT 的认知地图可视化对比

图11 MLLM 预测认知地图的局部性

随着物体距离的增加，MLLM 的地图距离精度显著下降。

表1 VSI-Bench 的评估结果

左侧：深灰色表示所有模型中的最佳结果，浅灰色表示开源模型中的最佳结果。† 表示结果基于 VSI-Bench (tiny) 子集。
右侧：包括排名前3的开源模型的结果。

表2 Gemini-1.5 Pro 在 VideoMME 的500问子集上使用 CoT 的性能表现

表3 结合认知地图的相对距离任务性能表现

总结和未来方向

本文通过构建 VSI-Bench 并研究多模态大语言模型（MLLMs）的表现和行为，探索模型如何感知、记忆和回忆空间。对 MLLMs 在语言和视觉层面进行空间思考的分析揭示了其现有的优势（如显著的感知、时间处理和语言能力）以及视觉-空间智能的瓶颈（如自我中心-他人中心转换和关系推理）。尽管现有的语言提示方法未能提升空间推理能力，但明确构建认知地图确实增强了 MLLMs 在空间距离推理任务中的表现。

未来的改进方向包括：

任务特定的微调；
针对空间推理开发自监督学习目标；
为 MLLMs 设计适配视觉-空间的提示技术。

#VITA-1.5

Github揽获1.6K星！南大、腾讯发布: 迈向GPT-4o级实时视频-语音交互

南大和腾讯发布VITA-1.5模型，能够在视觉、文本和语音任务上实现高性能表现。VITA-1.5通过三阶段训练策略，逐步整合视觉和语音模态，实现了端到端的语音生成能力，并在实时交互能力上取得了显著进展，是目前开源领域最快的视觉-语音交互模型。

近年来，多模态大语言模型（MLLMs）主要聚焦在视觉和文本模态的融合上，对语音的关注较少。然而，语音在多模态对话系统中扮演着至关重要的角色。由于视觉和语音模态之间的差异，同时在视觉和语音任务上取得高性能表现仍然是一个显著的挑战。

论文标题：VITA-1.5: Towards GPT-4o Level Real-Time Vision and Speech Interaction

论文链接：https://arxiv.org/pdf/2501.01957

代码链接（Star数破千）：https://github.com/VITA-MLLM/VITA

视频 Demo Video：

VITA-1.5 的核心动机在于：

1. 增加语音模态：在视觉-语言多模态模型的基础上，增加语音输入和输出能力，使其能够高效处理视觉、文本和语音任务。

2. 快速端到端交互：避免使用独立的自动语音识别（ASR）和语音合成（TTS）模块与 LLM 级联的方案，显著提升交互时端到端响应速度。

VITA-1.5 的主要贡献如下：

1.多阶段训练方法：提出了一种精心设计的多阶段训练策略，逐步训练大语言模型 LLM 理解视觉和语音信息。这种策略使得模型在保留强大的视觉-语言能力的基础上，进一步获得了高效的语音对话能力。

2.端到端 Speech-to-Speech：采用端到端语音输入和语音输出方式，大幅提升了视觉-语音的性能表现。

3.实时交互能力：VITA-1.5 能够实现接近实时的视觉-语音交互，是目前开源领域最快的视觉-语音交互模型。

4.开源与社区支持：VITA-1.5 的训练和推理代码已开源，并在社区中获得了广泛关注（已取得 1.6K GitHub Star）。

VITA-1.5 致力于推动多模态交互系统的发展，向 GPT-4o 水平的实时交互迈出了重要一步。

模型架构

VITA-1.5 的整体架构包括输入侧的视觉编码器和音频编码器，以及输出侧的端到端语音生成模块。与上一版的 VITA-1.0 不同，VITA-1.5 不再级联外部独立的 TTS 模块，而是实现了端到端的语音生成能力。模型采用“多模态编码器-适配器-LLM” 的配置，旨在通过联合训练提升视觉、语言和语音的统一理解能力。

1.1 视觉模态

视觉编码器

VITA-1.5 使用 InternViT-300M 作为视觉编码器，输入图像大小为 448×448 像素，每张图像生成 256 个视觉 token。对于高分辨率图像，采用动态分块策略以捕获局部细节，从而提升图像理解的精度。

视频处理

视频被视为多帧图像的特殊输入：

视频长度小于 4 秒时，均匀采样 4 帧；
长度在 4 至 16 秒之间时，每秒采样 1 帧；
长度超过 16 秒时，均匀采样 16 帧。视频帧不使用动态分块，以避免生成过多视觉 token，影响处理效率。

视觉适配器

通过一个两层 MLP 将视觉特征映射为适合 LLM 理解的视觉 token。

1.2 音频模态

语音编码器

音频编码器由多个降采样卷积层（4 倍降采样）和 24 层 Transformer 块组成，隐藏层维度为 1024。降采样层降低了音频特征的帧率，从而提高了处理速度。编码器参数量约为 350M，输出帧率为 12.5Hz。音频输入采用 Mel-filter bank features。

语音适配器

由多个 2 倍降采样的卷积层组成，用于进一步处理音频特征。

语音解码器

语音解码模块采用 TiCodec 作为 Codec 模型，使用一个大小为 1024 的单一码本。这种设计简化了推理阶段的解码过程。编解码器负责将连续的语音信号编码为离散语音 token，并能解码回 24,000Hz 的语音信号。

为了让 LLM 能够输出语音 token，VITA-1.5 在文本 token 的基础上增加了两个语音解码器：

非自回归（NAR）语音解码器： 对文本token进行整体处理，建模语义特征，用于生成初始的语音 token 分布。
自回归（AR）语音解码器： 基于 NAR 解码器生成的语音信息，逐步生成高质量的语音 token。

最终生成的语音 token 序列通过 Codec 模型解码为连续的语音信号流。

02 训练数据

VITA-1.5 的多模态指令微调数据涵盖了多种类别，包括图像描述、问答数据，以及中英文数据。在不同训练阶段，选择性地使用数据子集以实现不同目标。主要数据类别如下：

1.图像描述数据：包括 ShareGPT4V、ALLaVA-Caption、SharedGPT4o-Image 和合成数据，用于训练模型生成图像的描述性语言。

2.图像问答数据：包括 LLaVA-150K、LLaVA-Mixture-sample、LVIS-Instruct、ScienceQA、ChatQA，以及从LLaVA-OV 中采样的子集（如一般图像问答和数学推理数据），用于训练模型回答基于图像的问题，并执行视觉推理任务。

3.OCR 与图表数据：包括 Anyword-3M、ICDAR2019-LSVT、UReader、SynDOG、ICDAR2019-LSVT-QA，以及从 LLaVA-OV 中采样的相关数据，用于支持模型理解 OCR 和图表内容。

4.视频数据：包括 ShareGemini 和合成数据，用于训练模型处理视频输入，并执行视频描述和基于视频的问答任务。

5.纯文本数据：增强模型的语言理解和生成能力，支持文本问答任务。

此外，还引入了以下语音数据：

11 万小时的内部语音-转录配对 ASR 数据（覆盖中英文），用于训练音频编码器并将其与 LLM 对齐。
3000 小时由 TTS 系统生成的文本-语音配对数据，用于训练语音解码器。

03 三阶段训练策略

为了确保 VITA-1.5 在视觉、语言和语音任务中表现出色，需要解决不同模态之间的训练冲突。例如，添加语音数据可能会对视觉内容的理解产生负面影响，因为语音特征与视觉特征差异显著，会在学习过程中造成干扰。

为了解决这个问题，设计了一个三阶段的训练策略。核心思想是逐步将不同模态引入模型，使其在增强新模态能力的同时，保持现有模态的能力。

3.1 阶段1：视觉-语言训练

阶段1.1 视觉对齐

目标是弥合视觉和语言之间的差距。视觉特征通过预训练的视觉编码器 InternViT-300M 提取，语言通过 LLM 引入。使用 20% 的描述性 Caption 数据进行训练，仅训练视觉适配器，其他模块冻结。这种方法使得 LLM 初步对齐视觉模态。

阶段1.2 视觉理解

目标是教会 LLM 转录视觉内容。使用全部描述性 Caption 数据，训练过程中视觉模块的编码器和适配器以及 LLM 都是可训练的。重点是通过学习关于视觉的描述性文本，使模型能够通过生成对应的自然语言描述。

阶段1.3 视觉指令微调

在阶段 1.2 之后，模型已获得对图像和视频的基本理解，但指令跟随能力仍有限，难以应对视觉问答任务。在这一阶段使用所有问答数据，同时保留 20% 的描述性 Caption 数据，以增加数据集的多样性和任务的复杂性。训练期间，视觉模块的编码器和适配器以及 LLM 都是可训练的，目标是使模型不仅能够理解视觉内容，还能够根据指令回答问题。

3.2 阶段2：音频输入微调

阶段2.1 音频对齐

完成阶段 1 的训练后，模型在图像和视频理解方面已打下坚实基础。本阶段目标是在阶段 1 的基础上减少语音和语言之间的差异，使 LLM 能够理解音频输入。训练数据包括 11,000 小时的语音-转录对。采用两步法：

（a）语音编码器训练：使用 CTC 损失函数训练语音编码器，目标是让编码器从语音输入中预测转录文本。确保音频编码器能够提取语音特征并将其映射到文本表示空间。

（b）语音适配器训练：训练语音编码器后，将其与 LLM 集成，使用音频适配器将音频特征引入 LLM 的输入层。本阶段的训练目标是使 LLM 输出语音数据的转录文本。此外，在步骤（b）中引入特殊的可训练输入 token，以引导语音理解过程，这些 token 提供额外的上下文信息，引导 LLM 执行 ASR 任务。

阶段2.2 音频指令微调

本阶段重点是引入语音问题和文本答案的问答功能。为此，从数据集中抽取 4% 的 Caption 数据和 20% 的问答数据。数据处理方面，大约一半的基于文本的问题被随机替换为其对应的语音版本，由外部的 TTS 系统生成。本阶段视觉编码器和适配器、音频编码器和适配器以及 LLM 均是可训练的，旨在提高模型对多模态输入的适应性。

此外，在 LLM 的输出中添加一个分类头，用于区分输入是来自语音还是文本，从而使模型能够更高效灵活地处理不同模态。

3.3 阶段3：音频输出微调

在前两个训练阶段，VITA-1.5 模型已经获得了多模态理解能力。然而，作为一个交互助手，语音输出是必不可少的功能。为了在不影响模型基本能力的情况下引入语音输出功能，采用了 3,000 小时的文本-语音数据，并使用两步训练方法：

阶段3.1 Codec 模型训练

目标是使用语音数据训练一个单一码本的 Codec 模型。Codec 的编码器能够将语音映射为离散 token，其解码器可以将离散 token 映射回语音信号。在 VITA-1.5 的推理阶段，仅使用 Codec 的解码器。

阶段3.2 NAR+AR 语音解码器训练

这一步使用文本-语音配对数据进行训练。其中，文本输入到 LLM 的 tokenizer 和 Embedding 层以获取其 Embedding 向量，而语音输入到 Codec 的编码器以获取其语音 token。

文本 Embedding 被送入非自回归语音解码器（NAR）以获得全局语义特征，然后这些特征被送入自回归语音解码器（AR），以预测相应的语音 token。LLM 在此阶段是完全冻结的，因此此前的多模态性能不受影响。

04 实验发现

4.1 视觉-语言评估

▲ 图像理解能力评测

▲ 视频理解能力评测

上表展示了 VITA-1.5 在图像理解性能上的对比。经过三阶段训练后，VITA-1.5 的表现可与最先进的开源图像-语言模型媲美，显示了 VITA-1.5 在图像-语言任务中的强大能力。在视频理解评估中，VITA-1.5 的表现与顶尖开源模型相当。但与私有模型仍有较大差距，这表明 VITA-1.5 在视频理解方面仍有较大的改进空间和潜力。

VITA-1.5 的一个亮点在于，在第二阶段（音频输入微调）和第三阶段（音频输出微调）训练后，VITA-1.5 几乎保留了其在第一阶段（视觉-语言训练）中的视觉-语言能力，尽量避免了因为引入语音信息导致多模态能力下降。

4.2 语音识别能力评估

基准模型

使用了以下三个基准模型进行比较：Wav2vec2-base、Mini-Omini2、Freeze-Omini 和 VITA-1.0。

评估基准

中文评估集包括三个数据集：aishell-1、test net 和 test meeting。这些数据集用于评估模型在中文语音上的表现，评估指标是字符错误率（CER）。英文评估集包括四个数据集：dev-clean、dev-other、test-clean 和 test-other，用于评估模型在英语语音上的表现，评估指标是词错误率（WER）。

ASR性能

评估结果表明，VITA-1.5 在中文和英文 ASR 任务中均达到了领先的准确性。这表明 VITA-1.5 成功整合了先进的语音能力，用以支持多模态交互。

05 未来工作

VITA-1.5 通过精心设计的三阶段训练策略整合视觉和语音。通过缓解模态之间的固有冲突，VITA-1.5 在视觉和语音理解方面实现了强大的能力，能够在不依赖于独立的 ASR 和 TTS 模块的情况下实现高效的 Speech-to-Speech 能力。不过其实验和文章内容也指出了一些可能的未来改进工作：

增强语音生成质量：虽然 VITA-1.5 已实现内置语音生成能力，但进一步提升生成语音的自然度和清晰度，尤其是带情绪的输出，仍是一个重要的研究方向。

多模态数据扩展：引入更多样化的多模态数据集，尤其是涵盖更多场景和语言的语音数据，将有助于进一步提升模型的泛化能力和适应性。

实时性和效率优化：在保持高性能的同时，进一步优化模型的计算效率和实时响应能力，以便在资源受限的环境中也能有效运行。

#ParGo

如何高效桥接视觉和语言，字节&中大提出全新多模态大模型连接器ParGo

在多模态大语言模型（MLLMs）的发展中，视觉 - 语言连接器作为将视觉特征映射到 LLM 语言空间的关键组件，起到了桥梁作用。因此，它几乎成为了所有多模态大语言模型中不可或缺的结构之一。然而，如何高效地将视觉特征映射到 LLM 的探索还有很大提升空间。

字节团队与中大合作提出的 ParGo 模型，通过巧妙地融合全局视野和局部细节，在多项权威基准测试（Benchmark）中表现出色，成功入选了 AAAI 2025。

论文地址：https://arxiv.org/abs/2408.12928
代码地址: https://github.com/bytedance/ParGo

过去，大多数研究主要依赖线性投影或多层感知机（MLP）将视觉特征直接映射，这种方法难以有效控制输入 LLMs 的视觉 token 数量，特别是在处理细粒度特征时，导致计算成本极高。另一类基于注意力机制的方法（如 Q-former）通过注意力操作将图像特征投射为固定数量的视觉 token，虽然大幅减少了计算成本，但往往使得生成的 token 集中在图像的显著区域，忽略了细节部分。

为了解决这一问题，ParGo 提出了一种创新的全局 - 局部投影器来连接视觉与文本，通过结合全局视野和局部细节的双重视角，克服了传统方法对显著区域的过度聚焦，使得视觉特征能够在更细腻的层面上得到全面展现，同时有能有效控制过长的 token 带来的计算成本的升高，进而实现了视觉特征和 LLM 的高效连接。

全局 + 局部视角联合

方法

ParGo (Partial-Global) 采用两种类型的可学习 token，利用 attention 机制，同时从局部和全局视角将视觉特征映射到大语言模型（LLM）中。该框架包含两个关键模块：Partial-Global Perception Block (PGP) 和 Cascaded Partial Perception Block (CPP)。这两个模块共同作用，实现了高效的视觉 - 语言连接，既捕捉了图像的全局信息，又能精细地提取局部特征，从而提升了多模态大语言模型的效果。

图 1: ParGo 模型框架图

核心模块

Partial-Global Perception Block （PGP）

在 ParGo 中，视觉编码器的特征被映射为两种不同类型的 token：Partial token 和 Global token，从而能够分别提取图像的局部和全局信息。具体来说：

Partial tokens：每个 token 仅与部分视觉特征进行交互，专注于图像的局部信息
Global tokens：全局 token 则与所有视觉特征进行交互，捕捉图像的全局信息

ParGo 采用了一种新的交叉注意力掩码设计（Partial-Global Attention Mask），如图 1 (b) 所示，来处理输入的视觉特征。该设计能够同时输出包含图像局部和全局信息的特征，即 Partial tokens 和 Global tokens。具体的公式如下：

Cascaded Partial Perception Block (CPP)

此外，考虑到不同局部物体在图像中的占比不同，为了进一步增强对多种局部信息的完整捕获能力，ParGo 在 Partial-Global Perception 模块之前引入了 Cascaded Partial Perception (CPP) 模块。

CPP 模块的核心是一个带有特殊设计掩码的自注意力机制，如图 1 (b) 中的 Cascaded Partial Attention Mask。随着层数的增加，每个 Partial token 能够访问到更多的相邻 token，从而逐步扩展其感知范围。该过程可以通过以下公式表示：

实验效果

论文重点对比了当前不同类型的 Projector（投射器），在一些通用的 MLLM 的 benchmark 的效果，均取得了优异的效果。

为了进一步进行公平对比，论文在相同数据集和实验参数下，比较了三种主流的投影器（Projector）。结果显示，ParGo 依然取得了最佳的性能表现。另外，在不同基座 LLM 下，ParGo 均表现良好，体现出了更好的泛化性能。

不同 Projector 之间的比较

换用不同的基座 LLM 的比较

案例分析

为了能进一步展现 ParGo 在控制 token 数量的情况下，依然能做到细粒度和空间关系的准确捕获，作者对比了 ParGo 和 Q-former 这两种均是基于注意力机制的 Projector（投射器）在相同 tokens 下的效果：

文字识别更加准确

图像的细节描述程度更好

局部元素识别效果更好

结论

本研究提出了 ParGo（局部 - 全局投影器），一种创新的视觉 - 语言投影方案，旨在提升多模态大语言模型（MLLMs）中视觉和语言模态的对齐效果。ParGo 通过结合局部 token 和全局 token，并使用精心设计的注意力掩码分别提取局部和全局信息，在控制 token 数量的同时增强了局部区域之间的关系建模，充分考虑了图像的细节与全局视角，从而克服了传统方法中忽视细节的问题。

#GEM

一种可泛化的多模态世界模型

24年12月来自瑞士EPFL、Bern大学、瑞士国家数据中心、苏黎世大学和ETH的论文“GEM: A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control”。

GEM 是一种可泛化的自我视觉多模态世界模型，它使用参考帧、稀疏特征、人体姿态和自我轨迹来预测未来帧。因此，模型可以精确控制目标动态、自我智体运动和人体姿态。GEM 生成 RGB 和深度成对的输出，实现更丰富的空间理解。引入自回归噪声调度，实现稳定的长期生成。数据集包含 4000 多个小时的多模态数据，涉及自动驾驶、以自我为中心的人类活动和无人机飞行等领域。伪标签用于获取深度图、自我轨迹和人体姿态。用一个全面的评估框架来评估可控性，包括一个新的目标操纵控制 (COM) 指标。实验表明，GEM 擅长生成多样化、可控的场景和长期的时序一致性。代码、模型和数据集完全开源：A Generalizable Ego-Vision Multimodal World Model for Fine-Grained Ego-Motion, Object Dynamics, and Scene Composition Control

如图所示概述该世界模型的功能：GEM 支持一系列功能，包括目标操作（移动和插入目标）、动态自我轨迹调整、人体姿态变化以及对多模态输出（即图像和深度图）和多个领域（即无人机和人类自我中心活动）的适应性。所有图像均由 GEM 生成。

可控视频生成。视频生成模型的最新进展使逼真的高质量视频渲染成为可能。一些开创性的模型利用大语言模型 (LLM) 进行文本-到-视频的生成 [42, 70]。自从扩散模型 [15, 51] 取得成功以来，基于扩散的视频生成已变得十分突出。方法可分为：文本-到-视频 [12, 20, 28, 29, 53, 60, 62] 或图像-到-视频 [4, 11, 80]。扩散模型可适应各种控制输入，如文本、边缘图和深度图 [78]；它们还提供卓越的真实感 [4]。然而，通用视频生成模型并未经过训练以编码以自我为中心环境的复杂动态 [71]，而且许多模型在生成过程中不提供详细的运动控制。

世界模型。世界模型是大规模生成模型，可根据过去的观察推断动态并预测合理的未来 [33, 40, 74]。它们在许多任务中都很有价值，例如现实世界模拟 [74, 87]、强化学习 [2, 21, 24, 45, 66]、模型预测控制 [22, 23] 和表征学习 [25, 43]。

自动驾驶世界模型。自动驾驶的世界模型使用传感器观测值（例如激光雷达生成的点云 [6, 76, 79, 85]）来表示世界，有限的数据集通常会限制其规模或图像 [16, 30, 39, 41, 61, 65, 71, 84]。最近的视觉世界模型使用 LLM 作为骨干 [35, 67, 84]，但这些模型严重依赖 LLM 的空间推理，而这仍然有限 [34, 47, 83]。这使得它们更适合高级场景控制，如天气或灯光调整，而不是精确的运动控制 [16]。相比之下，基于扩散的模型使用低级控制，如自我轨迹和地图 [16, 41, 61, 65, 71, 84]，但主要侧重于自我中心控制，这限制了它们生成复杂场景的能力，例如控制场景中的任何其他运动。此外，改进多模态世界模型以进行空间度量理解的努力 [6] 依赖于有限的基于模拟的点云数据集，这些数据集很难推广到现实世界数据。

以自我为中心的人类活动世界模型。最近的大规模自我中心视频数据集（例如 Ego4D [18] 和 Ego-Exo4D [19]）具有先进的人类自我中心视觉。然而，对该领域综合世界模型的研究仍然有限。UniSim [74] 是这个方向的第一个方法，它使用基于动作标签的视频扩散模型。

如图所示，GEM 有两种输出模式——图像和深度——和三个控制信号：自我轨迹、DINOv2 特征和人体姿态。

将世界模型的训练视为视频生成。因此，采用当前 SotA 开源图像-到-视频模型的stable video diffusion (SVD) [4] 作为 GEM 的主干，并在以自我为中心的数据上对其进行微调。在 SVD 中，视频表示为大小为 H × W 的 N 个 RGB 帧序列。这些帧被独立编码到预训练的自动编码器潜空间中，从而产生一系列 N 个特征图，每个特征图有 4 个通道，高度 H ̃ = H/8 ，宽度 W ̃ = W/8 。将数据集中编码视频的分布表示为 p/data(x)。SVD 在Elucidated Dif fusion Model (EDM) 框架 [36] 内运行，其中训练网络 D/θ (x; σ, C) 对噪声样本 x 进行去噪，给定噪声水平 σ 和条件变量 C，其中可能包括文本或视频/图像嵌入。在 SVD 的情况下，C = {x/0} 仅包含序列中第一帧的嵌入，从而实现图像-到-视频的合成。

控制自我视觉生成

将模型的控制空间分解为三个主要部分：1）自我运动，2）目标级控制，3）人体姿态控制。第一个组件允许通过自我轨迹指定自我智体的运动。第二个组件有助于特定目标的控制，通过调整目标特征的位置，可以跨空间和时间编辑场景构图和动态。这还可以插入新目标。最后一个组件可以控制行人的姿态。

自我运动控制

为了控制自我运动，用自我轨迹 c/traj 扩展网络 D/θ(x;σ,C) 中的条件变量集，即 C = {x/0, c/traj}。自我轨迹是二维位置的度量序列，它量化自我智体投影到鸟瞰平面时的运动。受 Vista [16] 的启发，为了将 c/traj 集成到网络中，首先将轨迹嵌入到固定维平面上，并使用傅里叶嵌入对其进行编码 [54]。由于自我运动控制仅提供全局上下文，并不在图像空间中编码直接空间信息，通过 UNet 主干网交叉注意层中的附加 LoRA 模块 [31] 将它们融合来对 c/traj 上的网络进行条件调节（见上图）。

目标级控制

目标级控制的训练以无监督方式进行。在训练期间，从给定视频 x ∼ p/data(x) 中随机抽取 k 帧 {x/t1,...,x/tk}。然后，用 DINOv2 处理原始帧，并提取相应的密集特征图 {z/t1 , . . . , z/tk }。从每个特征图中，随机屏蔽除 m ∼ U[0,M] tokens 之外的所有tokens，其中 M 是实验中设置为 32 的超参。然后用零图填充屏蔽的特征图，匹配原始帧数。因此，得到 c/dino = {z^masked/t1,...,z^masked/tk}。通过采用这种随机方法，促进对场景的空间组成和时间动态的学习。

使用 DINOv2 特征进行目标级控制时，一个挑战是插入的token在空间和特征方面都与参考帧中已经存在的目标视觉特征相似。这在移动现有目标或插入新目标之间产生歧义。为了解决这个问题，用学习的身份嵌入来关联随时间变化的各个token。这种方法如图所示，涉及在不同时间步中将相同的身份嵌入添加到表示相同移动实体的控制token中。

更具体地说，像以前一样从 {z^masked/t1, . . . , z^masked/tk} 开始，并将各个学习的身份嵌入 ID/φ : {1, ...L} → R^d 添加到每个特征图中的非零token。这里 L 被选择为足够大，以确保来自同一特征图的不同token不会接收相同的身份嵌入。然后，对于每个特征图，采样一个目标时间 τ/i > t/i，并使用帧 x/ti 和 x/τi 之间的光流将 token 从 z^masked+ID/ti 转换为 z/τi，如上图所示。

在推理时，可以通过在参考帧和目标帧中使用相同的身份嵌入来消除生成的歧义，以引导模型移动底层目标，而不是在所需位置引入新目标。

与自我运动相反，目标级控制对场景构图的细粒度细节进行编码。这会影响条件技术的设计，因为现在需要结合空间信息。首先使用具有与去噪 UNet 输入块类似架构的网络处理稀疏 DINOv2 特征图序列。此网络为 ObjectNet。ObjectNet 旨在捕获和修复稀疏 DINOv2 特征图中的空间和时间信息。与其他研究 [81] 类似，编码的tokens直接添加到 UNet 输入块的输出中。从经验上看，这种目标级控制技术优于通过交叉注意层输入 DINOv2 tokens，就像对自我运动控制所做的那样。此外，ObjectNet 的使用充当过渡层，弥合 DINOv2 和 UNet 内部特征空间之间的域差距，并且优于将纯 DINOv2 特征图融合到去噪器中。

人体姿态控制

上述目标级控制对于运动部件较少的目标表现良好。然而，生成准确的人体表征仍然是模型面临的挑战。尽管如此，为了实现安全导航和人机交互，准确地建模人体至关重要。因此，用人体姿态分量扩展目标级控制，即 C = {x0 ， c/traj ， c/dino ， c/pose }。为了根据提取的人体姿态去调节模型 D/θ，遵循先前生成人体运动的技术 [81]；在空图像平面上画骨架，并将其传递给 CNN PoseNet，以嵌入空间信息。然后，将人体姿态特征图添加到网络特征 D/θ，方式类似于目标级控制。

稳定的长视频生成

对于扩散模型来说，生成超出训练范围的长视频是一项具有挑战性的任务 [10, 13, 68, 82]。一种简单的方法是生成具有重叠帧的连续短片。然而，这会导致时间不连续性和场景突变 [68]。受近期研究 [10, 68] 的启发，引入渐进式去噪和自回归采样，使用一个每帧噪声调度来强化连续帧之间的因果关系。

采样的目标是在长范围内对所有帧进行自回归去噪。为此，采用动态每帧噪声调度，如图所示。该调度分为三个阶段：初始化、自回归和终止。最初，该调度控制每帧的噪声水平，以便仅在启动第 i-1 帧去噪后才开始第 i 帧的去噪。这使得每个帧的去噪能够受益于其前几帧中一些更清晰的信息。一旦一帧完全去噪，它就会被保存并替换当前参考帧。此时，自回归阶段开始，在每个步骤中，一个完全去噪的帧被移除，一个新的噪声帧被附加。这个过程一直持续到只剩下 N 个帧需要去噪，标志着终止阶段的开始。在这个阶段，没有添加新帧；完全去噪的帧被保存。

为了支持使用建议的自定义噪声调度进行推理，采取以下方式修改训练噪声分布。首先采样一个随机噪声水平 log(σ) ∼ N (p/mean, p/std)。使用 SVD 的噪声-到-时间步长映射（step mapping），计算相应的去噪时间步长 t/intercept。接下来，采样一个随机移位 t/shift ∼ Beta(α, β)，其中 α 和 β 的选择有利于较低的移位值。然后计算每帧时间步长为 t/intercept − ( i/N-1 − t/shift)，其中 i ∈ {0,...,N − 1}，确保噪声在帧轴上持续增加。为了增加可变性，在时间步长中添加小的随机噪声，随后将其转换回 σ 值。这种方法将基本信息保留在自回归组件的注意窗口内。

多模态生成

将深度作为额外的生成模态，利用其丰富的空间信息，事实证明，这可以增强场景感知、规划、目标定位等任务 [1, 63]。通过在 RGB 图像旁边生成深度，GEM 可以生成空间信息以及场景的结构上下文。为了对深度进行编码和解码，用与图像相同的 VAE，遵循 [32]，这表明 SVD 的预训练 VAE 在深度图像上的重建误差可以忽略不计。在输入处连接两种模态，并向去噪网络引入输出卷积投影层 (P/depth) 来预测深度噪声。D/θ 同时对两个输入进行去噪，确保两种模态之间的一致性。因此，最终的去噪器是 D/θ (x, x/depth; σ, {x/0 , c/traj , c/dino , c/pose})。

训练策略

为了提高效率，将训练分为两个不同阶段，第一阶段侧重于学习新的控制信号，第二阶段强调高分辨率生成。从预训练的 SVD [4] 开始，最初使用所有添加的控制信号和模态在低分辨率视频 (320×576) 上对其进行微调。在第二阶段，训练以相同的方式继续，但分辨率更高（576×1024）。在两个阶段都应用数据过滤来提高多样性和质量。

结合表中所示的不同域各种开源数据集。用从 YouTube 收集的 3211 小时驾驶视频、1000 小时人类自我中心视频和 27.4 小时无人机镜头。

数据管理。为了实现对目标运动的精确控制，训练数据必须包括 (1) 多样化的交互和动态，(2) 细粒度的目标细节。通过删除低质量和低运动序列、将视频分割成 2.5 秒片段以及应用两种类型的过滤器来管理数据集：质量和多样性。质量过滤使用来自 LAION 数据集 [52] 的美学分数和 PIQE 指标 [59] 排除相机质量差或模糊度高的片段，类似于 [48]。多样性过滤通过光流评估运动多样性，类似于 [17, 48]，并使用 DINO 特征编码 [44] 评估语义变化。排除剪辑内多样性低或剪辑间相似性高的剪辑，平衡运动和内容。

伪标记。鉴于标记数据集的稀缺性，用深度信息、自我轨迹和人体骨骼伪标记所有数据。用 Depth Anything V2 [73] 生成度量深度，用于轨迹标记和几何理解。使用 GeoCalib [58] 估计内参的自我轨迹，然后使用 DroidSLAM [56] 估计 RGB-D SLAM，使用伪深度解决尺度模糊性。最后，用 DW-Pose [75] 标记人体骨骼，以实现高效、高质量的姿势估计。

如下算法 1 引入动态噪声调度使用的采样技术。调度矩阵 S 控制帧间噪声水平的进展，其值根据调度索引和帧索引之间的时间关系进行调整。噪声调度动态调整为三个不同阶段：初始化、自回归和终止。初始化开始在不同时间步骤对帧进行去噪，直到第一帧完全去噪，最后一帧刚开始几个去噪步骤。自回归阶段在每个步骤获得一个完全去噪的帧，并将其保存，并为新帧添加一个新列。一旦无法再添加任何帧，就会开始终止，其余帧将逐步去噪，而无需添加新帧。

作为基准，使用具有 100 GB 内存的 H100 GPU。由于网络规模的扩大，用 DeepSpeed 库 [50] 加入激活检查点和优化器分片来缓解内存限制。

#2025年Next Token Prediction范式会统一多模态吗

全面探讨了Next Token Prediction（NTP）范式在多模态领域的应用，包括多模态的Tokenization技术、MMNTP模型架构设计、训练方法与推理策略、性能评测体系以及现存挑战与未来方向等方面

本文将介绍最近和来自北大，北航，港大，国科大等学校的同学以及阿里，Microsoft，Humanify 等研究机构呕心沥血的综述工作《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》。

论文标题：

Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey

论文链接：

https://arxiv.org/abs/2412.18619

Github链接：

https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

01 简介

过去一两年时间里，多模态（Multimodal）领域涌现了大量基于 Next Token Prediction（NTP）的模型，以下简称为 MMNTP，这些模型在多模态理解与生成任务上取得了显著的进展。

以图片模态举例，有以 LLaVA，QwenVL 为代表的图片理解模型，也有以 Unified-IO 系列，Chameleon，VAR为代表的基于离散 Token 的图片生成模型以及融合 NTP 和 Diffusion 架构的 Transfusion，MAR 等模型。音频部分则有 Moshi 为代表的基于 NTP 的音频理解和生成模型。

本文采用全新的自下而上视角，从 NTP 范式的构建出发，全面探讨了以下几个核心方面：

多模态的 Tokenization 技术
MMNTP 模型架构设计
训练方法与推理策略
性能评测体系
现存挑战与未来方向

综述的完整目录如下：

02 多模态的 Tokenization

我们认为多模态的 Tokenization 是 MMNTP 的基石和最重要的部分，它将各种模态的信息（如图像、视频和音频片段）分解为最小的单元序列（Token），以便 Transformer 结构为基础的 NTP 模型学习。

Tokenization 方法可以分为离散（Discrete Tokenization）和连续（Continuous Tokenization）两种。离散标记化通过量化将原始信息映射到有限的离散空间，而连续标记化则不涉及量化，保留了数据的连续性质。下面的图给出了两种方式的示意图。

2.1 Tokenizer 训练方法

本节针对图片，视频，音频领域的 Tokenization 训练方法进行了详细的梳理和比较。首先总结了几种常见的训练方法，例如对比学习，自编码器等，以及这些方法在不同模态上的应用与针对不同模态特点的改进，并按照不同的训练方法归纳整理了不同类型的 Tokenizers，如下表所示：

我们以表示能力（representation）和重建能力（reconstruction）为基点，重点讨论了 Tokenizers 在训练时存在的挑战，例如离散型编码器存在的编码表塌陷，信息损失的问题以及一些改进措施例如 FSQ，LFQ 等方案，以及以 CLIP 为代表的连续型编码器中主要存在的语义对齐，编码效率，以及对于不同模态的数据，大家提出了哪些针对性的改进措施。

03 MMNTP 模型

MMNTP 模型一般结构如上图所示，它主要由骨干模型（一般是一个 Transformer 模型），以及不同模态的 Tokenizer 与 De-Tokenizer 组成。Tokenizer将不同模态的信息转换为 Token 序列，De-Tokenizer 则将 Token 序列转换为原始模态的信息。

如上图所示，我们将 MMNTP 模型进一步分为两类，组合式（Compositional）和统一（Unified）式。组合模型依赖于强大的外部编码器例如 CLIP 和解码器例如 SD3 来理解和生成多模态信息，而统一模型则使用轻量级的编码器和解码器例如 VQVAE，将大部分理解和生成任务交给骨干模型。本文对这两种模型结构进行了详细讨论，并比较了它们的优缺点。

对于不同的多模态任务来说，MMNTP 模型可以以一种统一的方式处理不同任务，区别之处在于不同任务的输入输出不同。上图以图片模态为例子，列出来了同一个 MMNTP 模型结构如何进行图片理解例如 VQA，图片生成，以及基于文字指令的图片编辑任务。

只需要替换输入输出的组合形式，同一个模型架构就可以完成不同的任务，这体现了 MMNTP 模型在多模态任务上的统一性。本文针对图片，视频，音频模态的 MMNTP 模型进行了详细的讨论，并根据结构类型进行了梳理，如下表所示。

04 训练范式4.1 训练任务的类型

一旦将不同模态的内容转化为序列化的标 Tokens，就可以使用统一的骨 MMNTP 模型来训练，以解决各种理解和生成任务。

本文将训练任务按照生成的 Token 类型不同分为两类，离散 Token 预测和连续 Token 预测。二者的区别在于预测的 token 是离散的还是连续的，这会对应不同的训练任务，以及特殊的输出头的结构。

例如多模态理解任务往往以语言作为输出，则需要使用语言模型头作为输出头，进行离散 Token 预测。如果将 Diffusion 模型和 NTP 模型结合，则需要使用 Diffusion 模型头作为输出头，进行连续 Token 预测。

4.2 训练阶段

和语言模型类似，MMNTP 模型的训练也可以分为三个阶段，如上图所示，分别是模态对齐预训练，指令微调和偏好学习。

这里的预训练阶段，通常指的是在多模态数据-文本对数据上进行预训练，以将不同模态的信息对齐到语言空间。指令微调阶段是针对不同的下游任务，例如理解和生成类任务，用标注好的数据进行训练。偏好学习在 MMNTP 模型中的研究刚刚起步，主要将模型的输出和人类的偏好进行对齐。

本文详细这三个阶段的相关研究工作，并根据任务类型进行了归纳整理。

4.3 测试时的Prompt工程

Prompt 工程是提升 LLM 模型效果的重要手段，在 MMNTP 模型中，借助了 LLM 继基座模型的能力，Prompt 工程同样重要。本文对 MMNTP 模型中的 Prompt 工程进行了详细的讨论，如上图所示，分为多模态的上下文学习（Multimodal In-Context Learning）和多模态思维链（Multimodal Chain-of-Thought）两种方法。

如上图所示，多模态的上下文学习指的是在输入中加入多模态任务的例子，以帮助模型更好地理解任务。多模态思维链则是指在输入中加入一些思维链的提示，例如“感知”，“推理过程”等，以促使模型更好地进行多模态推理。我们将这些方法进行整理，如下表所示。

05 训练数据集与性能评测

在综述中，我们还对 MMNTP 模型的训练数据集进行了详细的讨论，包括数据集的构建，数据集的规模，以及数据集的多样性。同时，我们也比较了 NTP 模型和非 NTP 模型在多模态任务上的表现，如上图所示，在大规模理解任务例如 VQAv2，MMMU上，NTP 模型表现全面优于非 NTP 模型。

在生成任务评测数据例如 Imagenet，GenEval，我们观察到 NTP 模型在和纯 Diffusion 取得了不相上下的效果，甚至在某些任务上表现更好，这展示了 NTP 模型在统一不同多模态任务上的潜力。

06 存在的挑战

本文提出了四个目前尚未解决的挑战，主要源于 MMNTP 训练范式。这些挑战包括：

如何更好地利用无监督的多模态数据来扩展 MMNTP 模型
克服多模态干扰并增强协同作用
提高 MMNTP 模型的训练和推理效率
将 MMNTP 作为更广阔任务的通用接口。

这些挑战的解决对于 MMNTP 范式实现多模态智能的发展至关重要。

07 小结

本文从 NTP 范式的视角出发，全面梳理了多模态领域的最新进展。从 Tokenization 到模型架构，从训练范式到性能评测，我们希望这份工作能为研究者们提供一个清晰的研究全景图。

在 2025 年，随着 MMNTP 技术的不断发展，我们期待看到更多创新性的工作能够突破现有的挑战，推动多模态智能向前发展。欢迎大家引用论文并且：

👋 在评论区分享你的想法和见解
📝 如果发现任何问题或有补充建议，欢迎邮件联系我们，我们会在新版本的综述中进行更新
⭐ 如果觉得这份工作对你有帮助，别忘了给我们的 GitHub 仓库点个 star：

https://github.com/LMM101/Awesome-Multimodal-Next-Token-Prediction

#Slow Perception

慢感知--迈向视觉system2 (o1) 的第一步

StepFun多模态团队提出的慢感知（Slow Perception）概念，旨在通过感知分解和感知流动两个阶段，实现对几何图形的精细感知，以提升多模态大模型在视觉推理任务中的表现，目前该团队已在几何parsing任务上进行了初步建模并取得了显著效果。

开源地址：Ucas-HaoranWei/Slow-Perception: Official code implementation of Slow Perception:Let's Perceive Geometric Figures Step-by-step

论文地址：https://arxiv.org/abs/2412.20631

前言：

慢感知是StepFun多模态团队对视觉system2的初步探索。研究人员认为：1）目前多模领域o1-like的模型，主要关注文本推理，对视觉感知的关注不够。2）精细/深度感知是一个复杂任务，且是未来做视觉推理的重要基础。而思想之一是如何把感知做“慢”，即通过某种任务拆解（step-by-step）实现感知层面的inference time scaling。这里有个简单的例子：

题目是：按照螺旋线的顺序，报出每个字母。 这是一道5岁小孩的测试题，但是目前国内外还没有一个多模模型能够正确解答。该题让人来做的话，会先感知并trace这条螺旋线，在attention到字母的位置将其记录下来，越靠近螺旋线中心，字母挨得会近一些，我们trace的速度也会更慢一点，即申请一部分额外“推理计算量”，以保证不会出错。很明显，这是典型的视觉o1任务，且该过程似乎不太需要偏文本的做题式“思考”，它更偏向于深度“感知”。

基于以上分析，研究人员提出了慢感知（slow perception）的概念，主要想传达的是，不仅思考需要慢下来，感知同样需要。作者选择几何parsing任务对慢感知进行初步建模，原因主要有三点：1）文本reasoning向的多摸态o1-like模型经常pr做几何题，但如果模型连准确地copy几何都做不到，怎么可能真正理解几何内部复杂的点线关系；2）几何parsing任务其实足够难，一直被大家overlook，目前国内外没有一个多模态大模型能做好这件感知任务；3）几何图形是人对自然场景的抽象，想把system2视觉模型做general，总得先从描一根线开始。

图1. 慢感知的两个阶段：感知分解和感知流动

方法&实验：

慢感知（slow perception）分为两个阶段：

第一阶段称为感知分解（perception decomposition），该过程将几何图形分解为基本的形状单元 ——线：不管是几边形，都是由最基本的线构成。这样做的好处是可以统一复杂的几何表征，一定程度上避免多峰优化问题。如图1中有8个三角形，而且互相嵌套，直接让模型写matplotlib/tikz代码都会遇到多峰问题。这一阶段的目的是“化繁为简”。

第二阶段，作者称为感知流动（perception flow）。人在trace一条线的时候，尤其是长线，很难一笔到位，即对于长程依赖的感知决策，不太会出现1-hop-1-decision，对模型来说也是一样。作者受人使用尺子配合眼动的描线过程启发（如图1下），提出了perception flow。

具体地，模型基于一个虚拟的感知尺（perceptual ruler），从线段的初始点逐步描向终止点。作者把“眼动”过程中停留的位置称为gaze（凝视点），对于一条长于感知尺的线段，整个感知过程被建模为在一个决策点通过多次眼跳到达下一个决策点的过程（multi-hop-1-decision）。感知尺的长度在一次训练中是固定的，这样短线和长线的推理计算量变得不同，这更符合直觉与上文的分析。当然感知尺长度在训练前可以随意设置，作者发现其长度设置的越短，几何解析的性能越好。感知尺短说明模型描一条线用的推理计算量大，即慢感知建模方案存在感知层面的inference time scaling。

表1. 慢感知性能

图2. 慢感知inference scaling

如上表1所示，baseline代表感知尺无限长，即所有线段均从初始点直接预测终止点。n-length代表感知尺长度为n，n是matplotlib绘制距离，所有几何图形绘制在-10到10的坐标系中。可以看到感知尺长度从12到4，所有指标（包括F1，Precision，Recall）都在上涨。感知尺越短，描一根线的停顿（gaze点）越多，计算量越大，inference time也会越久。图2展示了慢感知inference time scaling的趋势。

图3. 抖动凝视（gaze）点

为了验证感知流动是否依赖精准的凝视（gaze）点，作者抖动了gaze点真值进行训练和测试，对比结果如图3所示。可以看到即便是基于抖动过的gaze点，模型性能依旧远高于baseline（56.6% F1 vs. 51.4% F1），也仅比不抖动的情况低了1%：慢感知最关键的是要建模一种从初始决策点到下一个决策点感知的正确流向，而中间的具体过程可能没有那么关键。这一结论会大大降低将该方法用在通用场景上的标注难度。

图4. 可视化结果

更多可视化结果如图4所示，左边是输入，中间是slow perception每一笔的可视化，笔画顺序用彩虹色（红-橙-黄-绿）表示，最后一栏是最终几何解析的效果。

图5. 几何解析结果最终比较

不同多模态大模型几何解析能力对比如图5所示，可以看到慢感知建模方案使得模型对几何线段的感知能力更强。更多有趣的结论和效果请看原文https://arxiv.org/abs/2412.20631。

结论：

当前基于system1感知的多模态大模型，看图过轻，感知不够精细，这限制了其进一步发展：当我们拿着一张片子给医生看，而医生不到1秒钟就看完了，告诉你啥事没有，我们会请他再看看，要求他看的再仔细点。LVLM想要有更多的落地场景，system2感知能力是第一步，感知要慢下来。slow perception是研究人员基于几何parsing任务，在视觉sys2上的初步探索，他们也在积极往更通用的任务上迁移，并取得了初步的效果。大家敬请期待。