51c多模态~合集5

whaosoft-143

已于 2025-04-13 22:20:56 修改

阅读量966

点赞数 16

分类专栏：人工智能文章标签：人工智能

于 2025-02-03 13:41:04 首次发布

本文链接：https://blog.csdn.net/weixin_49587977/article/details/145429479

版权

人工智能专栏收录该内容

326 篇文章

订阅专栏

我自己的原文哦~ https://blog.51cto.com/whaosoft/13241710

#Ross

多模态大模型的 MAE 时刻？

今天介绍我们在多模态大模型领域的一篇原创工作Reconstructive Visual Instruction Tuning，目前 Ross 已被 ICLR 2025 接收，相关代码已开源，有任何问题欢迎在 GitHub 提出。

arXiv Paper: https://arxiv.org/pdf/2410.09575
Project Page: https://haochen-wang409.github.io/ross/
GitHub Code: https://github.com/haochen-wang409/ross
Huggingface Checkpoint: https://huggingface.co/HaochenWang/ross-qwen2-7b

我们针对多模态大模型的视觉部分设计了重建原图形式的监督信号，该监督能够显著提升模型细粒度理解能力以及减轻幻觉。我们认为这是多模态大模型的 MAE 时刻，如何针对多模态大模型设计更好的 visual pre-text task 是后续研究的重点。

1. Motivation

在当今的多模态学习领域，多模态大模型尽管希望处理的是视觉数据，但其核心训练过程却几乎完全依赖于文本监督，即 “images --> CLIP --> LLM <== text supervision” 的架构。

这种做法缺乏对原始视觉信号的充分利用，模型的性能也很大程度上受限于被视觉表征的好坏。

为了突破这一瓶颈，我们提出了一种全新的方法——Reconstructive Visual Instruction Tuning (Ross)。

Ross 引入了视觉监督。它让大型多模态模型（LMMs）直接从输入图像中学习，通过重构图像来指导自身的优化过程。这种方式不仅充分利用了图像本身的丰富细节，还能够显著提升模型对细粒度视觉特征的理解能力。

2. Method

既然输入的图像本身就蕴含着大量的细节信息，为什么不直接利用它们来指导模型的学习呢？通过重构输入图像作为监督信号，我们鼓励模型保持对低级细节的关注，从而增强了其细粒度的理解能力，并减少了幻觉现象的发生。

Overview of Ross.

上图展示了 Ross 的 high-level idea。不同于传统的多模态大模型只利用了右半部分的 text supervision，Ross 引入了左半部分的 visual supervision。

在这个过程中，自然图像的空间冗余性，难以为 LLM 直接提供有意义的监督信号。为此，我们系统性地研究了 (1) 重建目标 (2) 重建损失，最终得到了一个巧妙的解决方案：采用去噪目标来重构隐特征，如下图所示。

3. Experiments

Ross 在不同的 visual backbone + LLM 上，在多数情况都能获得显著的性能提升，特别是在 MMVP 这类细粒度理解任务上

Ross 与 SOTA 方法的比较，仅仅使用一个 SigLIP，Ross 就能超越 Cambrian-1-8B 这个合并了 CLIP+SigLIP+ConvNeXt+DINOv2 的方法

引入 anyres 技巧后，Ross 在高分辨率 benchmark 上也能取得优越的性能

4. In-Depth Analysis

绝对的数字并不是最关键的，我们更应该关注为什么 Ross 这类视觉监督能 work。我们得出了以下的结论：

引入视觉监督能带来更高的 attention values，多模态大模型更加看图了

Ross 和 LLaVA 对于视觉 token 的 attention value 对比，Ross 的 attention values 显著高于 LLaVA 的

引入视觉监督能带来更合理的 attention map，多模态大模型更能关注到正确的区域

Ross 对 visual tokens 的 attention map 更合理，更能关注到问题相关的区域

引入视觉监督能让模型的特征包含足够的细粒度信息，把 frozen Ross-7B 的 feature 作为 condition，仅将 denoiser 在 ImageNet-1K 上 fine-tune 5 个 epoch，就能重建出图！

原图 (左) 和重建结果 (右)。Ross-7B 的特征可以被完美的映射回 RGB space！

其中，最后一点是我们认为最有趣的发现，该结果表明，image --> SigLIP --> Qwen2 之后得到的特征，通过 Ross 这样的训练后，竟然还能被映射回原始的 RGB pixel space。这说明 Ross 对于图像信息的压缩较少，保留了细粒度理解所需要的细节信息。

5. Discussion and Future Work

我们认为 Ross 的成功，是多模态大模型的 MAE 时刻，如何针对多模态大模型设计更好的 visual pre-text task 将是后续研究的重点，LMM 的范式不应该只是 text 端的 next-token-prediction！

当然，Ross 还有很多非常 straightforward 的拓展，例如拓展至生成领域，真正做到生成帮助理解。

#从DeepSeek Janus到Janus-Pro

详细解读DeepSeek的多模态模型Janus及其升级版本Janus-Pro>

Take Home Message: Janus 是一个简单、统一且可扩展的多模态理解与生成模型，其将多模态理解与生成的视觉编码进行解耦，缓解了两个任务潜在存在的冲突。可在未来通过拓展，纳入更多的输入模态。Janus-Pro 在此基础上，优化训练策略（包括增加训练步数、调整数据配比等）、增加数据（包括使用合成数据等）、扩大模型规模（扩大到 70 亿参数），使得模型多模态理解和文本到图像指令遵循能力方面取得了进步。

代码地址：https://github.com/deepseek-ai/JanusJanus

Janus Pro 地址：https://github.com/deepseek-ai/Janus/blob/main/janus_pro_tech_report.pdf

Janus-Pro 是之前工作 Janus 的高级版本，具体地，包括（1）优化的训练策略、（2）扩展的训练数据以及（3）更大的模型规模。通过这些改进，Janus-Pro 在多模态理解和文本到图像指令遵循能力方面取得了显著进步，同时也增强了文本到图像生成的稳定性。在解读 Janus-Pro 前，先回顾一下 Janus。

回顾Janus

前作 Janus 是一个统一多模态理解与生成的自回归框架，用于解耦视觉编码以实现统一的多模态理解与生成。对于多模态理解，通常遵循 LLaVA 的设计，使用视觉编码器作为桥梁，使大语言模型能够理解图像。对于生成，通常基于扩散模型，也有一些基于自回归方法。_一些方法试图使用单个 Transformer 试图统一多模态理解与生成任务，其通常使用单一视觉编码器处理两个任务的输入。_

然而，多模态理解与生成任务所需要的表示有所差异。在多模态理解任务中，视觉编码器的目的是提取高层次的语义信息（如物体类别或者视觉属性），输出不仅涉及从图像中提取信息，还涉及复杂的语义推理，编码器主要集中于高维语义表示。生成任务主要关注于生成局部细节并在图像中保持全局一致性，因此需要低维度编码表示空间结构和纹理细节。在同一空间中将两种任务的表示进行统一会导致冲突。

Janus 包含 2 个独立的视觉编码路径，分别用于多模态理解、生成，并带来两个收益：1）缓解了源自多模态理解和生成不同粒度需求的冲突，2）具有灵活性和可扩展性，解耦后，理解和生成任务都可以采用针对其领域最先进的编码技术，未来可输入点云、脑电信号或音频数据，使用统一的 Transformer 进行处理。

对于文本理解，使用 LLM 内置 Tokenizer 将文本转换为离散 IDs；
对于多模态理解，使用 SigLIP 编码器抽取图片中的高维语义特征（笔者注：Cosmos中在Guardrails部分同样使用SigLIP编码器），使用 Adaptor（2 层 MLP）将抽取特征映射到 LLM 的文本特征空间中；

长边调整至 384 像素，使用 RGB(127, 127, 127)填充短边至 384 像素；

对于视觉生成，使用 VQ Tokenizer 将图像转换为离散IDs，使用Adaptor（2 层 MLP）将每个 ID 映射到 LLM 的文本特征空间中；
短边调整至384像素，长边裁剪至 384 像素；
整体训练使用 16 个节点，每个节点包含 8 块 Nvidia A100 GPU；

无论是视觉生成还是多模态理解任务，图片特征序列和文本特征序列都会连接在一起，作为 LLM（文中使用 DeepSeek-LLM 1.3B）的输入；

The built-in prediction head of the LLM is utilized for text predictions in both the pure text understanding and multimodal understanding tasks, while a randomly initialized prediction head is used for image predictions in the visual generation task. The entire model adheres to an autoregressive framework without the need for specially designed attention masks.Janus/blob/main/janus_pro_tech_report.pd

Janus 的训练分为 3 个阶段：

第一阶段：训练 Adaptor 与 Image Head，在嵌入空间创建语言元素与视觉元素之间的联系，使得 LLM 能够理解图像中的实体，并具备初步视觉生成能力；

对于多模态理解，使用来自 SHareGPT4V 的 125 万个图像-文本配对字幕数据，格式：<图像><文本>；
对于视觉生成，使用来自 ImageNet1k 的 120 万个样本，格式：<类别名><图像>；

第二阶段：统一预训练，使用多模态语料库进行统一预训练，学习多模态理解和生成。在该阶段使用纯文本数据、多模态理解数据和视觉生成数据。使用ImageNet-1k进行简单的视觉生成训练，随后使用通用文本到图像数据提升模型开放领域的视觉生成能力；
纯文本数据：DeepSeek-LLM 预训练语料库；
交错的图像 - 文本数据：WikiHow 和 WIT 数据集；
图像 Caption 数据：来自多个来源的图像，并采用开源多模态模型重新为部分图像添加字幕，数据格式为问答对，如 Describe the image in detail.；
表格和图表数据：来自 DeepSeek-VL 的相应表格和图表数据，数据格式为；
视觉生成数据：来自多个数据集的 image-caption 对以及 200 万个内部数据；
在训练过程中，以 25% 的概率随机仅使用 caption 的第一句话；
ImageNet 样本仅在最初的 120K 训练步骤中出现，其他数据集的图像在后续 60K 步骤中出现；
第三阶段：监督微调，使用指令微调数据对预训练模型进行微调，以增强其遵循指令和对话的能力。微调除生成编码器之外的所有参数。在监督答案的同时，对系统和用户提示进行遮盖。为了确保 Janus 在多模态理解和生成方面都具备熟练度，不会针对特定任务分别微调模型。相反，我们使用纯文本对话数据、多模态理解数据和视觉生成数据的混合数据，以确保在各种场景下的多功能性；
文本理解：使用来自特定来源的数据；
多模态理解：使用来自多个来源的指令调整数据；
视觉生成：使用来自部分第二阶段数据集的图像-文本对子集以及 400 万个内部数据；
数据格式为：User:< Input Message> \n Assistant:；

训练目标

Janus 是自回归模型，训练使用交叉熵损失函数，对于纯文本理解和多模态理解任务，在文本序列计算损失。对于视觉生成任务，仅在图像序列上计算损失。为了保持设计简单，没有为不同任务分配不同的损失权重。

推理

使用下一个词元预测方法，对于纯文本理解和多模态理解，从预测分布中依次采样词元。对于图像生成，使用无分类器引导。

可能的扩展

对于多模态理解，1）可选择更强的视觉编码器，2）可使用动态高分辨技术；
对于视觉生成，1）可选择更加细粒度的编码器，2）使用专门为视觉生成设计的损失函数，3）结合因果注意力和并行方法；
更多模态，能够集成 3D 点云、触觉、脑电图等输模态输入；

Janus-Pro升级

Janus 训练数据有限且模型容量（1B）相对较小，在一些方面存在不足，如在短提示下的图像生成表示不佳，文本到图像生成的质量不稳定。Janus-Pro 的架构与 Janus 相同，可参考下图：

主要改进

训练策略

Stage 1: 增加训练步数，在 ImageNet 上充分训练；
Stage 2: 不再使用 ImageNet，直接使用常规文本到图像数据的训练数据；
Stage 3: 修改微调过程中的数据集配比，将多模态数据、纯文本数据和文本到图像的比例从 7:3:10 改为 5:1:4；

数据规模
Stage 2: 增加 9000 万个样本，包括图像字幕数据 YFCC、表格图表文档理解数据 Doc-matrix；
Stage 3: 加入 DeepSeek-VL2 额外数据集，如 MEME 理解等；
多模态理解
视觉生成：真实世界数据可能包含质量不高，导致文本到图像的生成不稳定，产生美学效果不佳的输出，Janus-Pro 使用 7200 万份合成美学数据样本，统一预训练阶段（Stage 2）真实数据与合成数据比例 1:1；
模型规模
将模型参数扩展到 70 亿参数规模；

实验细节

对比 Janus，Janus-Pro 实验细节基本一致。相比之下，更大规模参数的模型使用了更多的集群节点（16 个变为 32 个）。

Janus-Pro训练超参数

不足

对于多模态理解，输入分辨率限制在384x384，影响细粒度的视觉任务性能。对于文本到图像的生成，低分辨率导致生成结果缺乏细节。

#WorldSense

准确率最高只有48%？现有多模态大模型迎来大考！小红书&上海交大发布WorldSense基准

首个专门用于评估多模态大模型（MLLMs）在真实世界场景中全模态理解能力的基准测试集。研究发现现有的开源多模态模型在真实场景中的理解能力有限，即使是表现最好的专有模型准确率也仅为48%，显示出在精确的全模态理解方面仍有巨大的提升空间。

论文链接：https://arxiv.org/pdf/2502.04326

项目链接：https://jaaackhongggg.github.io/WorldSense/

🔥现有的Agents在现实世界的全模态理解方面存在重大局限性：

亮点直击

介绍了 WorldSense，第一个专门用于评估 MLLM 在真实世界场景中全模态理解能力的基准。WorldSense 的特点是全模态集成、多样化的视频类别以及高质量的问答对；
进行了广泛的实验来评估当前 MLLM 在真实世界全模态理解方面的能力。实验结果表明，开源的视频-音频 MLLM 仅略优于随机猜测，而即使是表现最好的专有模型也仅达到 48% 的准确率，显示出在精确的全模态理解方面仍有巨大提升空间；
通过详细分析，研究了影响真实世界全模态理解的关键因素。结果表明，声音信息、视觉线索和高密度的时间采样都对模型性能产生重大影响。这些发现为未来真实世界全模态理解的发展提供了有价值的指导。

解决的问题

当前多模态大模型（MLLMs）主要关注视觉-语言信息，而忽略了音频等其他关键模态，导致对现实场景的理解能力不足。此外，现有的多模态评测基准（benchmark）存在以下局限：

主要侧重于图像而非完整的视频-音频分析（如 OmniBench、AV-Odyssey Bench）。
任务单一，主要是描述、分类等基础任务，而缺乏复杂推理和多样化评测。
题目质量较低，缺乏细粒度标注，导致评测结果的可靠性较低。

提出的方案

提出WorldSense，一个全面评估多模态视频理解能力的新基准测试集，具有以下特点：

全模态协作（Omni-Modality Collaboration）：设计任务需要同时结合视频和音频信息，确保模型必须整合多个模态进行理解。
多样化的任务和数据（Diversity of Videos and Tasks）：包含1,662 个音视频同步的视频，涵盖8 个主要领域、67 个细分类，并设计3,172 道多选题，涉及 26 种不同的认知任务，从基础感知到高级推理，确保评测的广度和深度。
高质量标注（High-Quality Annotations）：所有题目由80 位专家人工标注，并经过多轮审核和自动模型校验，保证数据的准确性和可靠性。

应用的技术

多模态大模型评测：对开源视频-音频模型、视频大模型和商用模型（如 Gemini 1.5 Pro）进行实验评测。
模态消融实验（Ablation Studies）：研究不同模态对模型性能的影响，例如：

仅使用视频 vs. 仅使用音频 vs. 同时使用视频+音频
原始音频 vs. 转录文本（分析音频的韵律、语调等对理解能力的影响）
视频帧采样密度对推理能力的影响

达到的效果

现有开源视频-音频模型的表现接近随机猜测（约 25% 准确率），表明现有模型在真实场景中的多模态理解能力严重不足。
Gemini 1.5 Pro 在同时提供视频和音频的情况下达到了最高 48% 的准确率，但当缺少任意一个模态时，准确率下降 约 15%，凸显多模态协作的必要性。
原始音频数据比转录文本提供更多信息，例如语调、节奏、情感等，有助于提升模型理解能力。
增加视频帧采样密度（提供更丰富的时序信息）可以进一步提高模型表现，表明时间信息在多模态理解中的重要性。

WorldSense

本节将详细介绍 WorldSense 的构建过程，包括数据收集流程、标注流程和统计信息。与现有的基准测试不同，WorldSense 评估 MLLMs 在真实世界场景中通过整合全模态信息进行感知、理解和推理的能力。如下图 1 所示，所有的多项选择题都经过精心设计，确保问题只能通过对文本、视觉和音频的综合分析来回答。

设计原则

在多模态评估方面，基于音视频同步的视频，这些视频捕捉了时间事件、运动模式和音视频相关性。为了构建基准测试，遵循以下三个原则，以确保严格而全面的评估。

全面的领域覆盖。 为了确保对 MLLMs 真实世界理解能力的全面评估，我们制定了一套系统的分类方法，涵盖不同领域和场景。该过程从反映人类核心经验的主要类别开始，进一步细分为 67 个子类别，以捕捉具体的语境。该层次结构确保我们的视频集合涵盖广泛的真实世界体验，为多模态理解的评估提供了生态学有效的基础。
多样化的音频信号。 在真实世界场景中，音频信号主要可分为三种基本类型：语音、事件和音乐。我们的基准测试涵盖了所有这三种类型，以确保全面覆盖，使 MLLMs 能够处理和理解从语义语音到抽象音乐及环境声音的广泛音频信息。
多层次评估。 为了评估 MLLMs 的感知和认知能力，我们设计了三级多尺度评估：识别（基本音视频元素检测）、理解（多模态关系的理解）和推理（高级认知任务，如因果推理和抽象思维）。我们开发了 26 个任务来评估多模态理解的不同方面，重点是在各个层次上整合音视频信息。

数据收集与整理

主要从 FineVideo 获取视频内容，这是一个涵盖多种真实世界场景的高质量 YouTube 视频数据集，具有强烈的音视频相关性。为了增强音乐内容的覆盖范围，额外引入了 MusicAVQA 中的视频。

采用系统化的筛选流程，以确保视频具有丰富的音视频语义和时间动态，如下图 3(a) 所示。该流程包含三个关键步骤：(i) 根据预定义分类筛选视频，以确保全面覆盖；(ii) 使用预计算指标（包括音视频相关性和动态内容评分）从最初约 8,000 个视频中筛选出重要片段；(iii) 由人工专家评审视频质量和真实世界相关性。最终，该严格的流程筛选出 1,662 个高质量的视频片段，这些视频在各种真实世界场景中展现了强烈的音视频相关性。

标注协议

QA 标注。 由 80 名专业标注员组成的团队负责创建高质量的多项选择题。对于每个视频片段，标注员会对视觉和听觉内容进行全面审查，以确保充分理解。然后，他们生成问题及对应选项，这些选项必须要求整合视觉和音频信息才能得出正确答案，从而有效评估 MLLMs 的多模态理解能力。

质量控制。 为了保证问答对的质量，我们实施了一套严格的质量控制流程，结合了人工评审和自动验证，如上图 3(b) 所示。专业质量控制专家根据三个关键标准评估每个 QA 对：(i) 语言清晰度和连贯性；(ii) 是否需要同时利用视觉和音频信息才能回答正确；(iii) 问题难度的适当性。不符合标准的问题将被退回修改。

此外，使用 MLLMs 进行自动化验证。视觉-语言模型（如 Qwen2-VL）用于检查问题是否确实需要多种模态的信息才能得出正确答案。同时，能够处理视频、音频和文本的多模态 MLLMs（如 Video-LLaMA2 和 OneLLM）被用于评估问题难度，所有模型都能正确回答的问题将被标记为过于简单，并由人工进行修订。

这种结合专家审查和自动测试的双重验证系统确保了基准测试中的所有问题质量高、结构合理，并真正需要多模态理解，且对模型提出了显著挑战。

数据集统计

如下表 1 所示，WorldSense 数据集包含 1,662 个带有同步音频的视频片段，分布在 8 个主要类别和 67 个子类别中。平均时长为 141.1 秒，长度范围从 30 秒到 10 分钟以上，涵盖了各种事件和活动。总计包含 3,173 道多项选择题，涉及三个评估层次。

WorldSense 涵盖多种音频成分，包括语音、环境声音和音乐。与现有基准测试不同，例如使用静态图像的 AV-Odyssey Bench 和 OmniBench，或音视频相关性较弱的 Video-MME ，WorldSense 是首个专为评估 MLLMs 真实世界多模态理解能力而设计的基准测试。其特点包括：(i) 开放领域视频与多任务评估；(ii) 原始音视频内容及完整转录；(iii) 精心设计的问题，要求真正的音视频融合，从而构建一个更全面的真实世界多模态理解评估基准。

评估范式

在评估框架中，每个测试实例包括一个带有同步音频的视频片段和一道多项选择题。模型必须处理这些多模态输入，并从多个选项中选择正确答案。性能以准确率衡量，即模型的选择与标准答案匹配的程度。模型的成功取决于其准确对齐正确答案的能力。为了严格评估多模态整合在真实世界理解中的必要性，我们针对不同的模态配置进行了消融研究。这种方法不仅评估了模型的整体表现，还量化了模型对单一模态的依赖程度，突出多模态协作在真实世界理解任务中的关键作用。

实验与发现

WorldSense 基准测试上的开源和专有 MLLMs 进行了全面评估。我们首先介绍实验方法和评估协议，然后对定量结果进行详细分析。此外，我们深入探讨影响模型性能的重要因素，并提供见解，以指明未来多模态理解的发展方向。

设置

为了全面评估多模态理解能力，评估了三类 MLLM：（1）开源音视频模型，如 Unified-IO-2、OneLLM 和 VideoLLaMA2；（2）开源 MLLM，如 Qwen2-VL、LLaVA-OneVision、InternVL2.5、LLaVA-Video 等；（3）专有 MLLM，如 Claude 3.5 Sonnet、GPT-4o 和 Gemini 1.5 Pro。在所有评估中，严格遵循每个模型的官方实现指南和推荐的预处理流程。视频帧提取遵循相应 MLLM 指定的官方配置，而专有模型的评估则依据其 API 规范和推荐的输入格式。模型性能通过模型输出与标准答案的直接比较进行评估。

WorldSense 结果

主要结果

下表 2 中展示了 WorldSense 的综合评估结果。研究发现了一些关于当前多模态模型在真实世界理解方面的重要见解。

首先，当前的开源视频模型性能有限，因为它们仅处理视觉信息。这一限制凸显了它们在执行复杂多模态理解任务方面的明显不足，其最高性能得分仅为 40.2%。结果表明，仅依赖视觉处理是不够的，强调了在实际应用中集成音频输入的重要性，以实现更全面和准确的理解。

其次，令人惊讶的是，现有的开源音视频 MLLM 甚至表现更差，其准确率与随机猜测相当，并显著低于仅基于视频的 MLLM。这一反直觉的发现表明，尽管这些模型可以访问多种模态，但它们在有效的音视频融合方面仍然存在困难，表明仅具备多模态处理能力并不能保证更好的性能，除非具备更先进的融合机制。

第三，在专有 MLLM 中，仅基于视觉的 GPT-4o 和 Claude 3.5 Sonnet 的表现与最佳的开源视频 MLLM 相当。而能够同时处理音视频信息的 Gemini 1.5 Pro 取得了最高 48.0% 的准确率。然而，这一性能仍然远低于可靠的真实世界应用需求，表明还有很大的改进空间。

这些综合结果揭示了几个关键见解：（1）音视频协同理解在真实世界场景中的基本重要性；（2）当前模型在有效多模态集成方面存在的显著能力差距；（3）需要更复杂的方法来组合和推理多个模态信息。这些发现指明了未来 MLLM 研究和发展的重要方向。

细分结果

对模型在不同音频类型和任务类别上的性能进行了细粒度分析，如下图 4 所示，揭示了现有多模态模型的局限性。

首先，模型在与音频相关的任务（如音频识别、音频计数）上的表现普遍较差，相较于其他任务类别，表现出显著的音频理解挑战。

其次，空间推理和计数任务对当前模型构成了显著困难，这种模式在多个基准测试中都得到了验证。

第三，涉及情感相关的任务表现尤其不佳，可能是因为这些任务需要整合微妙而复杂的多模态线索，包括面部表情、语音语调和语境语音内容。情感理解能力的不足表明当前 MLLM 在训练数据和能力方面存在显著缺陷，突出了未来发展的一个重要方向。

此外，不同音频类型的表现存在差异。虽然 Gemini 1.5 Pro 整体表现最佳，但在事件相关问题上的准确率明显低于语音或音乐任务，可能是由于环境声音的复杂性所致。其他模型在不同音频类型上的表现也存在不一致性，进一步突出了现有模型在音频理解方面的普遍局限性。

面向真实世界理解的路线图

鉴于上述评估揭示的显著性能差距，深入研究了提升 MLLM 性能的潜在方法。

视觉信息

我们通过不同的输入配置来研究视觉信息的影响：仅音频、音频加视频字幕和音频加视频帧。如下表 3 所示，视觉信息通常能提高性能，Gemini 1.5 Pro 的准确率从 34.6%（仅音频）提高到 48.0%（+视频）。然而，不同模型的影响有所不同，Unified-IO2 在使用字幕时表现出不一致的提升，甚至出现性能下降。

这些发现提供了两个重要见解：（1）当视觉信息得当地整合时，对提升多模态理解至关重要；（2）当前模型有效利用视觉信息的能力仍然有限。

音频信息

通过三种配置来研究音频信息的影响：仅视频、视频加字幕和视频加原始音频。

下表 4 的结果揭示了不同形式的音频信息如何影响模型性能的有趣模式。对于 Gemini 1.5 Pro，准确率从 34.4%（仅视频）提高到 39.3%（加字幕），再提高到 48.0%（加原始音频）。OneLLM 也显示了类似的改进。

这些结果表明，字幕和音频特征（包括语调、情感和环境声音）为多模态理解提供了有价值的信息，超出了字幕本身的捕捉范围，强调了完整音频线索对多模态理解的重要性。

有趣的是，Unified-IO2 在整合字幕或音频时表现下降，特别是字幕导致准确率显著下降，表明其在多模态处理上存在困难。相反，Video-LLaMA2 在使用两种模态时表现有所提升，但在使用字幕时比原始音频表现更好，表明它对文本信息的依赖大于对复杂音频信息的依赖。我们进一步通过提供转录字幕来评估仅视频的 MLLM，如下表 5 所示。几乎所有模型在整合字幕后都表现出了显著的提升，强化了音频信息的重要性。然而，在与音乐相关的问题上，性能提升不明显，因为字幕无法有效捕捉旋律、节奏和和声等固有的音频特征。

这些评估揭示了几个关键发现：（1）原始音频包含丰富的信息，超出了字幕所能捕捉的内容，尤其是在音乐方面；（2）当前模型在多模态处理方面存在显著限制。这些见解为改善 MLLM 在整合音频和文本信息、实现全面场景理解的能力指明了重要的研究方向。

视频帧

通过改变输入帧数来研究时间采样密度对仅视频 MLLM 的影响。如下图 5 所示，大多数模型在增加帧密度后表现出显著的性能提升，LLaMA-3.2 是一个显著的例外。这些提升可能是由于更好地捕捉到细粒度的时间动态和微妙的视觉变化，强调了密集时间采样的重要性。

结论

WorldSense ，这是第一个旨在评估 MLLM 在真实世界场景中全模态理解的基准。WorldSense 的特点在于强调在多种真实世界情境中的联合全模态理解，涵盖了丰富的视频类别和精心策划的问答对，要求整合视觉和音频信息。通过广泛的实验，揭示了当前 MLLM 在处理和一致性地整合全模态信息方面的显著局限性。通过分析表明，全模态协作在真实世界理解中的重要性。希望 WorldSense 能成为推动类人全模态理解能力发展的基础性基准。

#MMAD

多模态大模型能否胜任工业异常检测？MMAD基准揭示真相

首个针对工业异常检测的多模态大模型基准测试。

引言：让AI为工业生产力注入新动能

近年来，随着深度学习技术的飞速发展，多模态大语言模型（MLLMs）在多个领域展现了卓越的能力。从生成高质量文本到处理复杂的数学推理，从棋类博弈到视频生成，这些模型不仅超越了人类的表现，还不断拓展着人工智能的应用边界。然而，一个有趣的现象是，AI的发展似乎率先在“高价值劳动”领域崭露头角，而在许多基础性、重复性的工作中却鲜有系统性探索。

事实上，工业场景中的许多任务——例如异常检测——就属于这种基础但至关重要的工作。想象一下，一个工厂质检员每天需要检查成千上万的产品，找出微小的缺陷或异常。这是一项既繁琐又要求极高的工作，通常依赖大量人力完成。如果能够用AI替代这种重复性强且耗时的任务，不仅可以显著提高效率，还能让人类员工专注于更具创造性和战略性的工作。

那么，当前最先进的多模态大模型是否已经具备这样的能力呢？为了回答这个问题，我们提出了MMAD（MLLM benchmark in industrial Anomaly Detection）——首个针对工业异常检测的多模态大模型基准测试。通过这项研究，我们发现了一些有趣的现象，探明了现有模型在工业异常检测中的表现，同时也揭示了这些模型在工业场景中的局限性。

传统检测方法为何在AI时代"水土不服"？

痛点1：死记硬背的"书呆子"

传统AI质检模型就像只会做模拟题的学生：

●训练时见过10种划痕/物品 → 遇到第11种直接"懵圈"

●产线调整产品型号 → 必须重新收集数据训练

●只能输出"合格/不合格" → 无法解释缺陷成因

痛点2：信息传递的"聋哑症"

现有系统存在严重的信息断层：

而人类质检员的核心价值，正在于能完成"看到划痕→判断类型→推测工艺问题→指导产线调整"的完整认知链条。而MLLM的通用性和灵活性，能够通过语言和视觉的结合，提供多维度的信息支持，进而帮助模型进行更准确的异常检测与判断，弥补传统检测方法在面对新产品或复杂缺陷时的局限性。这使得MLLM有潜力为工业异常检测带来新的工作方式和思维方式。

MMAD基准：如何设计更贴近实际的测试？

与传统异常检测任务相比，AI工业质检的特殊性在于，它不仅需要识别异常，还需要对缺陷进行分类、定位、分析，甚至推断其对产品的影响。这就像让一个质检员不仅要“看出”零件表面的划痕，还要判断划痕的严重程度、可能的成因，并给出解决方案。

为了全面评估MLLMs的工业质检能力，我们设计了覆盖7大核心子任务的测评体系：
1. 异常判别（如“这张图是否有缺陷？”）

2. 缺陷分类（如“缺陷类型是裂纹还是污渍？”）

3. 缺陷定位（如“缺陷位于产品哪个区域？”）

4. 缺陷描述（如“缺陷的颜色和形状如何？”）

5. 缺陷分析（如“此缺陷会导致产品失效吗？”）

6. 产品分类（如“这是哪个型号的工业零件？”）

7. 产品分析（如“此零件的功能是什么？”）

MMAD的7大子任务示例注：每个问题均为选择题形式，包含干扰项以测试模型抗干扰能力

MMAD的7大子任务示例

注：每个问题均为选择题形式，包含干扰项以测试模型抗干扰能力

此外，我们还采用了多种测试设置（如1-shot、1-shot+等），以模拟真实工业环境中的不同场景。例如，在1-shot+设置中，模型可以参考一张最相似的正常图片作为模板，从而让MLLM更好地理解正常样本应该有的状态。

数据构建：当GPT-4V化身“虚拟质检专家”

传统工业数据集仅有图像和类别标签，缺乏丰富的语义标注。为此，我们设计了一套创新的数据生成流程：

1. 视觉提示增强： 用红色标注异常区域，并提供正常图像作为对比模板

2. 语义知识注入： 结合产品类别、缺陷位置描述等先验知识

3. 多轮问答生成： 通过GPT-4V生成覆盖7个子任务的多样化问题

4. 人工核验过滤：26人团队耗时200+小时确保数据可靠性

最终构建的MMAD数据集包含8,366张工业图像，涵盖38类产品和244种缺陷类型，生成39,672道多选问题，形成了工业领域最全面的MLLM能力测评基准。

（左）MMAD数据集的数据信息，涵盖了7个关键子任务和38个代表性IAD类别。
（右）性能雷达图，表现最好的GPT-4o也在异常相关的问题上与人类有较大差距。

（左）MMAD数据集的数据信息，涵盖了7个关键子任务和38个代表性IAD类别。

（右）性能雷达图，表现最好的GPT-4o也在异常相关的问题上与人类有较大差距。

实验结果：GPT-4o仅得74.9%，人类专家优势显著

我们对包括GPT-4o、Gemini 1.5系列、LLaVA-NeXT等在内的十余个SOTA模型进行了系统评测，发现：

关键发现1：商业模型领先，但未达工业标准

● GPT-4o以74.9%平均准确率位居榜首，但在缺陷定位任务中仅55.6%

● 开源模型InternVL2-76B以70.8%紧随其后，展现惊人潜力

● 专为工业设计的AnomalyGPT表现最差（36.5%），暴露过拟合问题

关键发现2：人类专家仍具压倒性优势

● 普通人类平均问答准确率78.7%，专家级达86.7%

● 在异常判别任务中，人类专家准确率95.2%，远超GPT-4o的68.63%

不同模型在各子任务上的表现对比

关键发现3：多图理解能力成短板

当提供检索后的正常图像作为参考模板时：

● 商业模型Gemini 1.5 Flash准确率提升3.8%

● 多数开源模型反而出现性能下降，暴露多图对比能力不足

（左）随着模型尺度的增大，模型效果明显提升。
（右）当前模型无法利用更多的参考样本来进一步提升性能。

（左）随着模型尺度的增大，模型效果明显提升。

（右）当前模型无法利用更多的参考样本来进一步提升性能。

提升策略：如何让MLLMs更“懂”工业？

尽管现有模型在MMAD基准测试中的表现不尽如人意，但我们发现了两种零训练增强方案，可以帮助模型更好地适应工业场景：

1. 检索增强生成（RAG）

● 原理：构建工业知识库，实时检索相关领域知识注入提示词

● 效果：模型在大部分任务中平均准确率提升5-6%，在瑕疵分类等任务中准确率最高提升20%。

RAG对模型性能的提升效果

2. 专家模型协作(Agent)

● 原理：将传统异常检测模型的输出（如热力图）可视化后输入MLLM

● 发现：使用真实标注作为专家输入时，缺陷定位准确率提升28%

● 局限：现有检测模型的误报会拖累MLLM表现

两种零训练增强方案

核心分析：MLLMs的“短板”与潜力

通过深入分析，我们发现了MLLMs难以胜任工业场景有以下几个主要原因：

1. 缺乏质检知识： MLLMs在训练过程中很少接触到工业质检领域的专业知识，导致它们对特定产品的缺陷类型和异常模式理解不足。

2. 细粒度图像理解能力有限： 工业异常检测通常需要模型能够精准定位缺陷位置并感知其特征，而现有模型在这方面的能力较弱。

3. 多图像比较能力不足： 在实际生产线上，质检员经常需要通过对比多个图像来判断是否存在异常，但大多数MLLMs尚未经过相关训练。

但是，MLLMs也在几个方面中展现出潜力：

1. 丰富的物品知识： MLLMs如GPT-4o具备广泛的物品和行业知识，能迅速识别复杂物体并判断是否符合标准，特别在物体分类任务中表现优越。

2. 通过文本或视觉提示改进检测效果： 通过适当的文本提示或参考图像，MLLMs能够提升异常检测和分类的准确性，尤其在使用检索增强生成（RAG）和模板图像对比时，模型表现更好。

测评样例1：人类能够迅速识别缺陷，而模型则关注组件数量，容易出现错觉，特别在缺陷较小或物体复杂时。

测评样例2：GPT-4o具有广泛的知识，能分析物体信息，而普通人可能无法识别某些专业细节，如BAT+和BAT-。

未来展望：工业AI质检的无限可能

尽管目前的MLLMs在工业异常检测中存在诸多不足，但我们的研究表明，它们仍然具有巨大的潜力。未来的研究可以从以下几个方向展开：

1. 大规模工业数据集的构建： 为模型提供更多高质量的工业数据，帮助其学习特定领域的知识。

2. 多图像理解能力的提升： 开发专门针对多图像输入的训练方法，增强模型的对比分析能力。

3. 跨模态知识融合： 探索如何将文本、图像和其他模态的信息更好地结合起来，提高模型的综合推理能力。

总结

通过MMAD基准测试，我们首次系统地评估了多模态大模型在工业异常检测中的表现。虽然现有模型的表现尚不完美，但它们展现出的强大潜力令人期待。未来，随着更多研究的推进和技术的进步，相信多模态大模型将在工业场景中发挥更大的作用。

完整论文、数据和代码均已开源，详见：

Openreview：https://openreview.net/forum?id=JDiER86r8v

Huggingface：https://huggingface.co/datasets/jiang-cc/MMAD

GitHub：https://github.com/jam-cc/MMAD

#MINIMA

首个通用多模态图像匹配架构（模型、数据已全部开源）

论文链接：https://arxiv.org/abs/2412.19412
代码链接：https://github.com/LSXI7/MINIMA
在线demo：https://huggingface.co/spaces/lsxi77777/MINIMA

摘要：

跨视图、跨模态图像匹配是多模态融合感知中的核心问题之一，具有重要实际意义。然而，由于不同成像系统或风格所引发的模态差异，该任务面临严峻挑战。现有方法通常专注于提取特定模态的不变特征，并依赖有限规模的数据集进行训练，其泛化能力十分有限。

为解决上述难题，本文提出一种统一的多模态图像匹配框架——MINIMA。该方法摒弃了复杂模块设计的传统思路，转而从数据扩增的角度出发，旨在全面提升模型的通用性能。

为此，我们设计了一种简洁高效的数据引擎，能够生成包含多种模态、丰富场景以及精确匹配标签的大规模数据集。具体而言，通过引入生成模型，我们将廉价且易于获取的RGB匹配数据扩展至其他模态类型，从而有效继承原始RGB数据集中丰富的匹配标签和多样性。基于此，我们构建了大规模合成数据集MD-syn，填补了当前多模态图像匹配领域的数据空白。

实验结果表明，借助MD-syn数据集，现有的匹配模型能够轻松获得强大的跨模态匹配能力。我们在涵盖视觉、遥感、医学等多个领域的19种跨模态匹配任务中进行了全面测试，结果显示MINIMA框架可显著提升基准方法的综合性能及零样本泛化能力，最高提升幅度可达98%。此外，在某些模态任务上，我们的方法甚至超越了特定模态的专有方法。

文章亮点：

首个跨模态统一匹配框架MINIMA：一次训练即可适配视觉、遥感、医学等多领域的19种跨模态场景。

首个大规模多模态匹配数据集MD-syn：对标Megadepth，利用生成模型构建数据引擎，自动生成4.8亿对高质量跨模态图像对，同时涵盖稠密匹配标签，为多模态图像匹配研究填补了数据空白。

行业应用新突破：MINIMA在真实多模态场景中可显著提升基准方法的性能，为多模态感知任务提供了全新的技术基础，可用于多源多模态图像配准、融合感知、多模态定位导航、3D生成等任务。

整体结果展示：

图1. 真实数据集上MINIMA整体性能表现。左图展示了不同方法在多个数据集上的准确率（AUC），右图总结了稀疏、半稠密和稠密匹配管道的整体性能。MINIMA大幅提升了基准方法的跨模态能力。

图2. MINIMA在医学、遥感、视觉真实跨模态匹配结果，每组左为特征匹配，右为像素对齐后结果。

MINIMA实现细节

MINIMA 框架分为两大核心模块，如图所示：

1.数据生成引擎：以 MegaDepth 数据集为基础，利用数据引擎生成包括红外（Infrared）、深度（Depth）、事件（Event）等在内的多种模态数据。生成的数据在模态多样性和场景覆盖性上均优于现有数据集。

2.匹配模型训练：采用“预训练 + 微调”的两阶段策略。第一阶段在多视角 RGB 数据上进行预训练；第二阶段在生成的跨模态数据上进行微调，快速适应多模态任务。

如下图所示。由于不同模态之间的差异性，直接在MD-syn上重新开始训练需要较大代价，而从单一可见光数据训练的模型可以提供良好的匹配先验，从而使多模态微调过程快速收敛。

论文其他图表结果

消融实验和视觉定位应用实验结果

红外图像生成结果

总结

MINIMA框架通过数据生成技术和高效的模型优化策略，成功填补了通用跨模态图像匹配领域的数据与模型空白。所构建的MD-syn数据集和统一匹配框架不仅显著提升了匹配性能，还大幅降低了研究成本。MINIMA为多模态感知相关应用提供了强有力的支持，具有广阔的研究与应用前景。

#Long-VITA

突破百万Tokens限制！开源多模态大模型新标杆

近期，多模态大模型（MLLMs）发展迅速，但开源模型在长上下文场景（如长视频或高分辨率图像）中仍显著落后于闭源模型。部分专注于长上下文场景的开源模型在短上下文场景（如短视频或静态图像）中又表现不佳。

为此，腾讯优图实验室和南京大学等联合推出全开源、可复现的多模态大模型 Long-VITA，原生支持 4096 帧图像或者 100 万 Tokens 输入，在支持长上下文场景的同时，保持短上下文场景的优异表现。在单机推理上，实现推理长度扩展 417% 和推理速度降低 47.3%。

论文标题：Long-VITA: Scaling Large Multi-modal Models to 1 Million Tokens with Leading Short-Context Accuracy
论文链接：https://arxiv.org/pdf/2502.05177
代码链接：https://github.com/VITA-MLLM/Long-VITA

背景介绍

目前多模态大模型在处理长上下文（长视频、高分辨率图像等）时通常面临以下挑战：

上下文限制：模型的上下文窗口较小，无法处理长序列输入，在长视频理解等任务中受限；
性能退化：为了扩展上下文，一些模型采用视觉 tokens 压缩、稀疏 self attention 和位置编码外推等技术，影响了模型在精细视觉任务中的表现；
多任务平衡：大部分开源长视频模型在图像理解上效果不佳，忽略长视频理解和单图理解间的平衡。

Long-VITA 致力于推动长上下文多模态大模型的开发与应用，为学术界和工业界提供一个强大的开源基准模型。Long-VITA 具有以下亮点：

原生支持 4096 帧图像、一百万 Tokens 输入：模型采用全参训练，不用任何参数高效微调方法；不压缩视觉 tokens；不采用稀疏 attention；不使用位置编码外推；
支持长上下文的同时，保持短上下文效果优异：在 OpenCompass、Video-MME、LongVideoBench、MVBench 等不同场景的 Benchmark 上表现优异；
只用开源数据训练，效果超过使用非公开数据训练的主流模型：表明了开源数据的价值以及开源模型的巨大潜力；
完全开源可复现：除了开源模型权重，还开源训练数据、训练代码和测试代码，为社区提供一个完全透明、开放的研究基准；
训练和推理流程全国产化：采用 MindSpeed 和 MindSpeed-LL 框架在 Ascend NPU 上实现模型训练和推理。同时提供 GPU 平台适配代码。在 8 卡 96G 显卡的机器上，实现推理长度扩展 417% 和推理速度降低 47.3%；

模型架构

Long-VITA 采用经典的 Vision Encoder - Vision Projector - LLM 架构。

Vision Encoder：采用 InternViT-300M，并针对不同长宽比的图像进行动态切分。
Vision Projector：采用两层的 MLP，并使用 pixel shuffle 减少 visual tokens 数量。
LLM：采用 Qwen2.5-14B-Instruct。

训练数据

Long-VITA 只采用开源数据进行训练，没有采用数据过滤操作。

不同训练阶段的数据配比不同。其中包括：

Image-Text Data：包括图像描述数据，如 LLaVA-ReCap、ALLaVA-4V 等；视觉问答数据，如 LVIS-Instruct4V、the-cauldron 等；图文交织数据，如 M4Instruct 和 Comic-9k，其中 Comic-9k 为项目收集的漫画及对应的故事梗概，单条数据超过 10 张图像，已在 Huggingface 平台开源。
Video-Text Data：包括 VideoGPT-plus、ShareGemini、LLaVA-Video-178K，以及项目从 MovieNet 中整理的电影级别长度的视频理解数据 MovieNet-Summary，已在 Huggingface 平台开源。
Short Text Data：包括 OpenHermes-2.5、LIMA、databricks-dolly-15k 等较短的纯文本数据集。
Long Text Data：包括 Long-Instruction-with-Paraphrasing、LongForm、LongAlign-10k 等超长的纯文本数据集，旨在将 LLM 的长上下文能力迁移至多模态领域。

训练流程

阶段一：视觉-文本对齐

该阶段旨在实现图像表征与 LLM 输入文本空间的初步对齐。只训练 Vision Projector。训练数据主要为图像描述数据和文档类型数据。

阶段二：通用知识学习

该阶段旨在促进模型对通用视觉-文本知识的学习。训练全部模块。训练数据包括图像-文本，视频-文本，纯文本数据，数据长度较短。采用 Packing 技术将多条数据拼接至固定长度，同时修改位置编码和 Attention Mask 确保数据彼此独立，以最大程度利用计算资源。

阶段三：长序列微调

该阶段将模型的上下文长度扩展至 128K。训练全部模块。训练数据中降低长度较短数据的比例，引入长度较长的漫画、视频、文本数据。采用 Packing 技术，但不修改位置编码和 Attention Mask。

阶段四：超长序列微调

该阶段将模型的上下文长度扩展至 1024K。训练全部模块。训练数据额外使用 MovieNet-Summary。采用 Packing 技术，但不修改位置编码和 Attention Mask。

推理扩展

Long-VITA 设计了两种提高模型在推理阶段能处理的 tokens 数量的实现：

Context-Parallelism Distributed Inference：结合张量并行（Tensor Parallelism）和上下文并行（Context Parallelism）实现分布式推理，支持处理无限长输入序列。
Logits-Masked Language Modeling Head：对 LLM 最后一层的输出特征进行屏蔽，只将需要预测下一 token 的输出特征送入 LM_head，显著降低了内存消耗。

实验评估

图像理解评估

Long-VITA-16K 在 OpenCompass 的 8 个 Benchmark 上表现优异，超越了许多开源模型，尤其在处理多图像任务时展现出强大的能力。

但 Long-VITA-1M 的表现略逊于 Long-VITA-16K 和 Long-VITA-128K，这可能是由于在 1M 训练中未修改 Attention Mask 来隔离样本导致了不同数据样本的混淆。Long-VITA 展示了使用开源数据训练也能实现与私有数据训练相媲美的强大性能。

视频理解评估

在 Video-MME 上，Long-VITA-128K 在处理 256 帧视频时超越了所有其他 20B 参数以下的模型，尤其在中长视频任务上表现出色。Long-VITA-1M 能够原生支持 4096 帧的视频输入，并兼容 slow-fast 和 progressive pooling 等 training-free 方法进一步扩展视觉上下文窗口。

此外，由于在预训练和微调阶段未调整旋转位置编码的比例因子，因此在推理阶段可通过位置编码插值进一步实现长度外推。

在 LongVideoBench 和 MVBench 上，Long-VITA 分别展示了在长视频理解和短视频理解上的优异性能。另外，由于缺少多模态长上下文数据，Long-VITA-1M 仍有提升空间。

未来工作

Long-VITA 完全基于开源数据，在长视觉上下文和短视觉上下文中均展现出优异的性能，在各种视频和图像理解任务中处于领先地位。未来 Long-VITA 将采取多模态长上下文数据扩充过滤、训练流程优化等手段进一步改善模型性能。

#ENEL

首个无编码器的3D多模态大语言模型，7B参数即可媲美13B

首次在3D多模态大语言模型中移除了编码器，让LLM直接处理3D编码任务。

论文标题: Exploring the Potential of Encoder-free Architectures in 3D LMMs

作者单位：上海人工智能实验室，西北工业大学，香港中文大学，清华大学

代码链接：https://github.com/Ivan-Tang-3D/ENEL

论文链接：https://arxiv.org/pdf/2502.09620v1

在二维视觉领域，无编码器架构已初步得到探索，但它是否能有效应用于3D理解场景仍然是一个未解之谜。本文中，我们首次全面探讨了无编码器架构在克服基于编码器的3D大规模多模态模型（LMMs）挑战方面的潜力。这些挑战包括无法适应不同点云分辨率，以及编码器提取的点特征未能满足大语言模型（LLMs）的语义需求。

我们确定了3D LMM去除编码器并使LLM承担3D编码器角色的关键方面：

(1) 在预训练阶段，我们提出了LLM嵌入语义编码策略，探索了各种点云自监督损失的效果，并提出了混合语义损失，以提取高层次语义。

(2) 在指令微调阶段，我们引入了分层几何聚合策略，将归纳偏置引入LLM的早期层次，专注于点云的局部细节。

最终，我们提出了首个无编码器的3D LMM，ENEL，其7B模型与当前最先进的ShapeLLM-13B相媲美。

1.出发点

对于3D LMMs，基于编码器的架构存在以下潜在缺点：1. 点云分辨率限制：3D编码器通常是在固定分辨率的点云数据上进行预训练的，例如在 PointLLM 中采用了 1,024 个点。然而，在实际推理时，点云的分辨率可能会有所变化（例如，可能是 8,192 或 512 个点）。训练和推理时分辨率的不一致，可能会导致在提取 3D 嵌入时丢失关键信息，从而使得 LLM 难以有效理解空间结构。如上图（a）所示，我们提出的ENEL相比于PointLLM在不同的点云分辨率输入下具有更强的泛化性和鲁棒性。2. 语义嵌入差异：3D编码器通常采用自监督方法（如Point-MAE）和对比学习（如PointContrast）进行预训练，但这些方法的训练目标往往无法捕捉到 LLM 理解 3D 物体所必需的最相关语义，因此与 LLM 的语义需求存在不匹配。换句话说，如图（b）所示，即便在PointLLM中使用了投影层，文本标记仍难以有效地关注到点云物体的关键区域。而ENEL则能够轻松地将注意力集中在椅脚和机翼等重要部位。鉴于这些问题，我们提出了一个问题：是否有可能探索一种无编码器架构用于3D LMMs，去除3D编码器，并将其功能直接集成到LLM自身中？

2. 具体实现方案

我们选择PointLLM作为基准模型进行探索，并使用GPT-4评分标准在Objaverse数据集上评估不同策略的表现。为了在去除编码器的同时避免性能下降，我们探索了解决以下两个关键问题的方法：

1)如何弥补原本由3D编码器提取的高级3D语义？

在3D LMMs中，原始的点云输入首先通过一个标记嵌入模块进行低级别的标记化处理，然后再传递给主3D编码器（通常是一个Transformer模型）生成高级别的嵌入。完全跳过编码器会带来一个挑战，即无法有效捕捉3D点云的复杂空间结构。为了应对这个问题，我们提出了一种名为LLM嵌入式语义编码的策略，应用于预训练阶段。首先，我们采用一个简单而有效的标记嵌入模块，尽可能多地捕捉信息丰富的语义内容。这些3D标记随后被直接输入到LLM中。接着，我们的目标是将捕捉高级3D语义的任务转交给LLM本身。为此，我们使LLM的早期层可学习，从而使其能够专注于3D编码。为了引导这一过程，我们探索了多种3D自监督损失函数，如重建损失、掩码建模损失和蒸馏损失，并最终提出了混合语义损失，作为最有效的选择。

如上图所示：蔽建模损失(a)、重建损失(b)、对比损失(c) 和知识蒸馏损失(d)，我们在预训练阶段实现并评估了这些损失对无编码器3D LMM的影响。混合语义损失中，我们首先对点云的标记进行随机掩码处理，然后将掩码标记与可见标记拼接在一起，以符合自回归的逻辑。在此基础上，我们对可见标记计算重建损失。这种混合策略不仅能够高效地将高级语义信息嵌入到LLM中，还能在整个点云学习过程中有效保持几何信息的一致性。

从表中我们可以发现: 1) 点云的自监督学习损失通常对无编码器的3D LMM具有重要帮助。自监督学习损失能够有效地转化复杂的点云数据，促使LLM学习潜在的几何关系以及高层次的语义信息。2) 在所有自监督学习损失中，掩蔽建模损失展现了最显著的性能提升。相比之下，显式的点云patch重建虽然不如掩蔽建模效果好，但依然有助于LLM捕捉点云中的复杂模式。而知识蒸馏损失的效果相对较弱，表现不如前两者。3) 基于上述实验结果，我们提出的混合语义损失(Hybrid Semantic Loss)达到了最好的性能效果。

2)如何将归纳偏置融入LLM，以提升其对3D几何结构的感知？

传统的3D编码器通常将显式的归纳偏置嵌入到其架构中，以逐步捕捉多层次的3D几何信息。例如，像 Point-M2AE这样的模型使用了局部到全局的层次结构，这种思想在2D图像处理的卷积层中也十分常见。而与之对比，LLM采用的是标准的Transformer架构，其中每一层处理相同数量的标记，表示网络中相同的语义层次。在缺乏编码器的情况下，我们在指令微调阶段引入了分层几何聚合的方法。在LLM的早期层次，我们基于3D标记的几何分布，通过最远点采样（FPS）和k近邻采样（k-NN）对3D标记进行聚合。这一方法使得LLM能够逐步整合详细的3D语义，并对3D物体形成更加全面的理解。在后续层次，我们反向进行这一聚合过程，将标记传播回其原始分布，以保持必要的细粒度表示，从而确保有效的语义交流。我们发现，这种分层设计有助于多层次知识的获取，并能更好地理解复杂点云的3D几何结构。

3.实验结果

在Objaverse的3D物体描述任务中， ENEL-7B达到了50.92%的GPT-4得分，创下了新的SOTA（最先进）成绩。在传统指标方面，SentenceBERT和SimCSE分别获得了48.61%和49.31%的得分，表现与ShapeLLM-13B相当。在3D物体分类任务中，ENEL-7B超越了之前基于编码器的3D LMMs，取得了55%的GPT得分。此外，在3D MM-Vet数据集的3D-VQA任务上，尽管训练数据中缺乏与空间和具身交互相关的内容，ENEL仍然取得了42.7%的GPT得分，超过了PointLLM-7B的得分1.5%。

我们进行了可视化分析，在模型的最后一层计算了文本平均token与点云token之间的注意力，涵盖了三种物体类别（椅子、飞机和台灯）。结果显示，ENEL在无编码器架构下展现了两种模态特征之间的高度相关性，图中的红色部分表示较高的注意力得分。

#Multimodality-3D-Few-Shot

Serge Belongie组和ETH联合 | ICLR 2025 Spotlight：「免费」多模态信息助力3D小样本分割！突破单模态局限，多模态促进3D小样本分割

当人形机器人能够辨识身边的一切，VR/AR设备呈现出定制化的虚拟世界，自动驾驶汽车实时捕捉路面状况，这一切都依赖于对3D场景的精确理解。然而，这种精准的3D理解往往需要大量详细标注的3D数据，极大推高了时间成本和资源消耗，而每当出现新场景或特定目标时，又不得不重复这一繁重过程。

Few-shot学习是一种有效的解决思路——通过极少量标注样本，让模型迅速掌握新类别，从而大幅改善了这一局限性。但当前研究都局限于单模态点云数据，忽略了多模态信息的潜在价值。对此，University of Copenhagen、ETH Zurich等团队填补了这一空白，提出了一个全新的多模态Few-shot 3D分割设定和创新方法：在无需额外标注成本的前提下，融合了文本，2D，3D信息，助力模型更好地适应到新类别。

这篇文章已被ICLR 2025接收为Spotlight论文，，欢迎关注论文和代码，了解更多细节！

论文作者

论文：https://arxiv.org/pdf/2410.22489

代码：https://github.com/ZhaochongAn/Multimodality-3D-Few-Shot

3D Few-shot分割结果示例：

3D Few-shot分割结果示例

1. 引言

3D场景理解在具身智能、VR/AR等领域至关重要，帮助设备准确感知和解读三维世界。然而，传统全监督模型虽在特定类别上表现出色，但其能力局限于预定义类别。每当需要识别新类别时，必须重新收集并标注大量3D数据以及重新训练模型，这一过程既耗时又昂贵，极大地制约了模型的应用广度。

3D Few-shot学习旨在利用极少量的示例样本以适应模型来有效的识别任意的全新类别，大大降低了新类适应的开销，使得传统的3D场景理解模型不再局限于训练集中有限的类别标签，对广泛的应用场景有重要的价值。

具体而言，对于Few-shot 3D点云语义分割（FS-PCS）任务，模型的输入包括少量支持样本（包含点云及对应新类标签）和查询点云。模型需要通过利用支持样本获得关于新类别的知识并应用于分割查询点云，预测出查询点云中关于新类别的标签。在模型训练和测试时使用的目标类别无重合，以保证测试时使用的类均为新类，未被模型在训练时见过。

目前，该领域涌现出的工作[1,2]都只利用点云单模态的输入，忽略了利用多模态信息的潜在的益处。对此，这篇文章提出一个全新的多模态Few-shot 3D分割设定，利用了文本和2D模态且没有引入额外的标注开销。在这一设定下，他们推出了创新模型——MultiModal Few-Shot SegNet (MM-FSS)。该模型通过充分整合多模态信息，有效提升小样本上新类别的学习与泛化能力，证明了利用普遍被忽略的多模态信息对于实现更好的小样本新类泛化的重要性，为未来研究开辟了全新方向。

2. Multimodal FS-PCS Setup

图1. 多模态FS-PCS 设定

为便于讨论，以下都将Few-shot 3D点云语义分割简称为FS-PCS。

传统的FS-PCS任务：模型的输入包含少量的支持点云以及对应的新类别的标注（support point cloud & support mask）。此外，输入还包括查询点云（query point cloud）。模型需借助support样本中关于新类别的知识，在query点云中完成新类别分割。

多模态FS-PCS任务：作者引入的多模态FS-PCS包括了除3D点云之外的两个额外模态：文本和2D。文本模态相应于支持样本中的目标类别/新类的名称。2D模态相应于2D图片，往往伴随3D场景采集同步获得。值得注意的是，2D模态仅用于模型预训练，不要求在meta-learning和测试时作为输入，保证了其Few-shot输入形式与传统FS-PCS对齐，仅需要相同的数据且无需额外标注。

新的Multimodal FS-PCS模型MM-FSS模型概览

图2. MM-FSS架构

关键模块解析

MM-FSS在Backbone后引入两个特征提取分支：

Intermodal Feature (IF) Head（跨模态特征头）：学习与2D视觉特征对齐的3D点云特征。
Unimodal Feature (UF) Head（单模态特征头）：提取3D点云本身的特征。

① 预训练阶段

MM-FSS 先进行跨模态对齐预训练，通过利用3D点云和2D图片数据对，使用2D视觉-语言模型（VLM）输出的2D特征监督IF head输出的3D特征，使得IF Head学习到与2D视觉-语言模型对齐的3D特征。这一阶段完成后：

Backbone和IF Head保持冻结，确保模型在Few-shot学习时能利用其预训练学到的Intermodal特征。这样，在Few-shot任务中无需额外的2D输入，仅依赖Intermodal特征即可获益于多模态信息。
此外，该特征也隐式对齐了VLM的文本特征，为后续阶段利用重要的文本引导奠定基础。

② Meta-learning阶段

在Few-shot训练（称为meta-learning）时，给定输入的support和query点云，MM-FSS分别将IF Head和UF Head输出的两套特征计算出对应的两套correlations（correlations表示每个query点和目标类别prototypes之间的特征相似度）。

两套correlations会通过Multimodal Correlation Fusion (MCF)进行融合，生成初始多模态correlations，包含了2D和3D的视觉信息。这个过程可以表示为：
其中和分别表示用IF Head和UF Head特征算得的correlations。为MCF输出的初始多模态correlations。
当前获得的多模态correlations融合了不同的视觉信息源，但文本模态中的语义信息尚未被利用，因此设计了Multimodal Semantic Fusion (MSF)模块，进一步利用文本模态特征作为语义引导，提升多模态correlations：
其中为文本模态的语义引导，为文本和视觉模态间的权重（会动态变化以考虑不同模态间变化的相对重要性），为多模态correlations。

③ 测试阶段

为缓解Few-shot模型对于训练类别的training bias（易被测试场景中存在的训练类别干扰，影响新类分割），MM-FSS在测试时引入Test-time Adaptive Cross-modal Calibration (TACC) ：利用跨模态的语义引导（由IF Head生成）适应性地修正预测结果，实现更好的泛化。

跨模态的语义引导未经meta-learning训练，有更少的training bias。为了有效的执行测试时修正，作者提出基于支持样本及其标签估算可靠性指标，用于自动调整修正程度（当该语义引导可靠性更高时，分配更大的修正权重，否则分配更小的权重）：

为模型的预测，为跨模态语义引导，γ为适应性指标。通过借助support point cloud以及可用的support mask可以如下计算γ作为修正可靠程度的估计：

4. 实验结果

表1. 实验结果

图3. MM-FSS的可视化对比结果

图4. MM-FSS的可视化消融实验结果

实验在两个标准的FS-PCS数据集上进行，证明了MM-FSS在各类few-shot任务中都实现了最佳性能。可视化也清楚表明了模型能够实现更优的新类分割，展示了更强的新类泛化能力。更多详细实验和分析内容请参见论文。

5. 总结

这项工作首次探索了融合多模态以提升FS-PCS任务的可能性。文中首先提出了全新的多模态FS-PCS 设定，无额外开销地融合文本和2D模态。在该设定下，作者提出首个多模态FS-PCS模型MM-FSS，显式的利用文本模态，隐式的利用2D模态，最大化其灵活性和各场景下的应用性。MM-FSS包含了MCF和MSF来有效的从视觉线索和语义信息双重角度高效聚合多模态知识，增强对新类概念的全面理解。此外，为了协调few-shot模型的training bias，作者设计了TACC技术，在测试时动态的修正预测。

综合来看，该工作展示了过往被普遍忽略的“免费”多模态信息对于小样本适应的重要性，为未来的研究提供了宝贵的新视野且开放了更多有趣的潜在方向。可参考的方向包括性能的提升 [2,3]，训练和推理效率的优化 [4]，更深入的模态信息利用等。

引用：
[1] Zhao, Na, et al. "Few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2021.
[2] An, Zhaochong, et al. "Rethinking few-shot 3d point cloud semantic segmentation." Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2024.
[3] Liu, Yuanwei, et al. "Intermediate prototype mining transformer for few-shot semantic segmentation." Advances in Neural Information Processing Systems 35 (2022): 38020-38031.
[4] Wu, Xiaoyang, et al. "Point transformer v3: Simpler faster stronger." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024.

#DiffSensei

北大开源多模态驱动的定制化漫画生成框架DiffSensei，还有4.3万页漫画数据集

随着生成式人工智能技术（AIGC）的突破，文本到图像模型在故事可视化领域展现出巨大潜力，但在多角色场景中仍面临角色一致性差、布局控制难、动态叙事不足等挑战。

为此，北京大学、上海人工智能实验室、南洋理工大学联合推出 DiffSensei，首个结合多模态大语言模型（MLLM）与扩散模型的定制化漫画生成框架。

论文地址：https://arxiv.org/pdf/2412.07589
GitHub 仓库：https://github.com/jianzongwu/DiffSensei
项目主页 - https://jianzongwu.github.io/projects/diffsensei/
数据链接 - https://huggingface.co/datasets/jianzongwu/MangaZero

该框架通过创新的掩码交叉注意力机制与文本兼容的角色适配器，实现了对多角色外观、表情、动作的精确控制，并支持对话布局的灵活编码。同时，团队发布了首个专为漫画生成设计的 MangaZero 数据集（含 4.3 万页漫画与 42.7 万标注面板），填补了该领域的数据空白。实验表明，DiffSensei 在角色一致性、文本跟随能力与图像质量上显著优于现有模型，为漫画创作、教育可视化、广告设计等场景提供了高效工具。

团队公开了训练，测试代码、预训练模型及 MangaZero 数据集，支持本地部署。开发者可通过 Hugging Face 获取资源，并利用 Gradio 界面快速体验生成效果。

，时长02:42

1.DiffSensei 效果及应用

DiffSensei 功能

DiffSensei 生成漫画的技术优势：

角色一致性：跨面板保持角色特征稳定，支持连续叙事，可根据文本动态调整任务状态和动作。
布局精准：通过掩码机制与边界框标注，实现多角色与对话框的像素级定位。
动态适应性：MLLM 适配器使角色可依据文本提示调整状态（如 “愤怒表情” 或 “挥手动作”），突破传统模型的静态生成限制。

2.DiffSensei 应用场景

真人长篇故事生成

DiffSensei 真人长篇故事生成效果

定制漫画生成

DiffSensei 定制漫画生成效果

更多结果

DiffSensei 生成整页漫画结果，每页漫画的故事梗概在其上方，更多结果在项目主页

3. 模型框架

DiffSensei 方法框架

DiffSensei 的技术架构以 “动态角色控制” 和 “高效布局生成” 为核心，通过以下模块实现端到端的漫画生成：

多模态特征融合:
结合 CLIP 图像编码器与漫画专用编码器（Magi），提取角色语义特征，避免直接复制像素细节导致的 “粘贴效应”。
通过重采样模块将特征压缩为低维 token，适配扩散模型的交叉注意力机制，增强生成灵活性。
掩码交叉注意力机制：复制扩散模型的键值矩阵，创建独立的角色注意力层，仅允许角色在指定边界框内参与注意力计算，实现布局的像素级控制。
引入对话布局嵌入，将对话框位置编码为可训练的嵌入向量，与噪声潜在空间融合，支持后期人工文本编辑。
MLLM 驱动的动态适配器：以多模态大语言模型（如 LLaVA）为核心，接收面板标题与源角色特征，生成与文本兼容的目标角色特征，动态调整表情、姿势等属性。训练中结合语言模型损失（LM Loss）与扩散损失，确保生成特征既符合文本语义，又与图像生成器兼容。
多阶段训练优化
第一阶段：基于 MangaZero 数据集训练扩散模型，学习角色与布局的联合生成。
第二阶段：冻结图像生成器，微调 MLLM 适配器，强化文本驱动的角色动态调整能力 813，从而适应与文本提示对应的源特征。在第一阶段使用模型作为图像生成器，并冻结其权重。

4.MangaZero 数据集

MangaZero 数据集统计信息

上图展示了 MangaZero 数据集的基本信息，该数据集中包含最著名的日本黑白漫画系列。图 a 显示了所有 48 系列的封面。这些漫画系列之所以被选中，主要是因为它们的受欢迎程度、独特的艺术风格和广泛的人物阵容，为该模型提供了发展强大而灵活的 IP 保持能力。

图 b 展示了一些人物和对话标注的示例。

图 c 描绘了数据集中的面板分辨率分布。为了提高清晰度，其中包括三条参考线，分别表示 1024×1024、512×512 和 256×256 的分辨率。大多数漫画画板都集中在第二行和第三行周围，这表明与最近研究中通常强调的分辨率相比，大多数画板的分辨率相对较低。这一特性是漫画数据所固有的，该工作专门针对漫画数据。因此，可变分辨率训练对于有效处理漫画数据集至关重要。

MangaZero 数据集和同类数据集对比

MangaZero 数据集相比同类数据，规模更大，来源更新，标注更丰富，漫画以及画面分辨率更多样。与广为人知的黑白漫画数据集 Manga109 相比，MangaZero 数据集收录了更多在 2000 年之后出版的漫画，这也正是其名称的由来。此外，MangaZero 还包含一些 2000 年之前发行、但并未收录于 Manga109 的著名作品，例如《哆啦 A 梦》（1974 年）。

MangaZero 数据集标注流程

上图展示了 MangaDex 数据集的构建过程，作者通过三个步骤构建 MangaZero 数据集。

步骤 1 - 从互联网中下载一些现有的漫画页面。
步骤 2 - 使用预先训练好的模型自主为漫画面板添加相关标注。
步骤 3 - 利用人工来校准人物 ID 标注结果。

MangaZero 数据集应用潜力

多 ID 保持，灵活可控的图片生成训练。漫画数据天然拥有同一个人物多个状态的图像，对可根据文本灵活控制人物状态的定制化生成训练有很大帮助。
风格可控的漫画生成。MangaZero 中包含的漫画系列多样且具有代表性，可以在模型结构中增加风格定制模块，实现画风可控的漫画生成。例如生成龙珠风格的柯南。

5. 结论

DiffSensei 通过多模态技术的深度融合，重新定义了 AI 辅助创作的边界。其开源属性与行业适配性，将加速漫画生成从实验工具向产业级应用的跨越。未来，研究方向可扩展至彩色漫画与动画生成，进一步推动视觉叙事技术的普惠化。

#多模态方向开源数据集资源汇总

MINT-1T

数据集链接：http://edvvz.ensl.cn/c3

MINT-1T 是一个开源的 M终极模态 INTerleaved 数据集，具有 1 万亿个文本标记和 34 亿张图像，比现有开源数据集扩展了10 倍。

WuDaoCorpora Text文本预训练数据集

数据集链接：http://edvvt.ensl.cn/ce

WuDaoCorpora是北京智源人工智能研究院（智源研究院）构建的大规模、高质量数据集，用于支撑大模型训练研究。目前由文本、对话、图文对、视频文本对四部分组成，分别致力于构建微型语言世界、提炼对话核心规律、打破图文模态壁垒、建立视频文字关联，为大模型训练提供坚实的数据支撑。

Conceptual Captions

数据集链接：http://edvv7.ensl.cn/09

Conceptual Captions 数据集有超过 300 万张配对图像带有自然语言字幕。

SBU Captions Dataset

数据集链接：http://edvvj.ensl.cn/76

100 万张带标题的照片描述图像

MiniGPT-4

数据集链接：http://edvv5.ensl.cn/7a

用于MiniGPT-4模型的第二阶段微调，包含高质量的图文对数据。

Ego-Exo4D

数据集链接：https://ego-exo4d-data.org/

Ego-Exo4D 呈现三种精心同步的自然与视频配对的语言数据集。（1）专家评论，揭示细微的技能。（2）参与者提供 Narrate-and-act 描述。(3) 支持浏览的一句话原子作描述，挖掘数据集，并解决视频语言学习

#Magma

多模态六边形战士Magma：会点按钮会搬砖，标注竟让AI长出"时空大脑"

本文介绍一个多模态基础模型Magma ，通过 Set-of-Mark和 Trace-of-Mark技术，将图像和视频数据转化为“视觉-语言-行动”数据，显著增强了模型的空间-时间推理能力。Magma 在 UI 导航、机器人操作和多模态理解任务上表现出色，达到了新的 SOTA 水平。

文章链接：https://www.arxiv.org/pdf/2502.13130

项目链接：https://microsoft.github.io/Magma/

模型链接：https://huggingface.co/microsoft/Magma-8B

亮点直击

提出了Magma，第一个不仅具备多模态理解能力，还具备空间-时间推理能力的基础模型，能够在数字和物理环境中完成智能体任务。
提出了使用Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 技术，显著增强了空间-时间智能，用于行动定位和规划，并使Magma能够在大规模异构数据集上进行有效的预训练。
构建了一个大规模的预训练数据集，其中不仅包含开源的多模态视觉-语言（VL）数据集，还包括UI数据、机器人数据以及通过SoM和ToM自动标注的人类教学视频。训练语料库总共包含约3900万个多样化的样本。
广泛评估了预训练的Magma模型，展示了其在广泛任务中的卓越性能。Magma通过单一参数配置，在机器人操作和UI导航任务上均超越了开源模型，达到了新的SOTA水平。
展示了所提出的Magma预训练方法显著提升了模型的语言智能和空间-时间智能能力。

总结速览解决的问题

多模态理解与行动的分离：现有的视觉-语言-行动（VLA）模型通常在特定任务上表现良好，但在跨任务和跨领域的泛化能力上表现有限。这些模型往往在特定任务上学习行动策略，而牺牲了通用的多模态理解能力。
环境差异带来的挑战：2D数字世界和3D物理世界之间的差异使得VLA模型通常需要分别训练，难以在多个环境中通用。
数据集之间的差距：多模态理解（主要是文本描述）与行动任务（主要是空间坐标）之间存在显著差距，导致直接结合数据集难以提升模型性能。

提出的方案

Magma基础模型：提出了一个多模态AI智能体的基础模型Magma，旨在同时具备多模态理解和多模态行动预测能力。
Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) ：通过SoM标记图像中的可操作视觉对象（如GUI中的可点击按钮），通过ToM标记视频中的对象运动轨迹（如人手或机械臂的轨迹），将图像和视频数据集转化为“视觉-语言-行动”数据，以弥合不同任务类型之间的差距。
统一训练：通过大量异构数据集（包括UI数据集、机器人操作数据集、人类教学视频等）进行统一训练，使模型能够在零样本情况下应用于不同的下游任务。

应用的技术

多模态理解：模型能够理解来自不同领域（数字和物理）的多模态输入，不仅在语义上，还在空间和时间上。
多模态行动预测：模型能够将长时程任务分解为准确的行动序列，并由AI智能体系统有效执行。
SoM和ToM：通过SoM和ToM标记技术，将图像和视频数据集转化为可用于行动任务的数据，提升模型的空间-时间智能。

达到的效果

新SOTA结果：Magma在UI导航和机器人操作任务上创造了新的SOTA结果，超越了专门针对这些任务的模型。
广泛适用性：Magma在图像和视频相关的多模态任务上也表现出色，与训练在更大数据集上的大型多模态模型相比具有竞争力。
环境无关性：SoM和ToM技术环境无关，易于推广到新的智能体任务，为使用大量未标记视频（如原始教学视频）扩展模型预训练提供了有效且高效的方法。

多模态智能体建模问题定义

一个通用的多模态AI智能体应同时具备多模态理解和行动执行的能力。定义一个多模态AI智能体，它以过去的视觉观察和任务描述 task（文本形式）作为输入，并输出一组的标记。

其中，ctx 表示上下文， verbal，spatial 指示第个标记是语言标记还是空间标记。该公式概括了不同任务：

UI导航（2D截图）：任务可能是“预订酒店”，输出应包括表示动作语义类型的语言标记（如“输入”、“点击”等）以及动作应用的位置或区域。
机器人操作（3D世界）：对于“关闭抽屉”等任务，输出包括末端执行器的6自由度位移，在某些情况下还包括一个额外维度以指示夹爪是否打开。
多模态理解任务：当任务仅涉及时（例如视觉问答任务），问题简化为生成输入图像/视频的文本描述和/或对象位置的多模态理解任务。

对于这些看似不同的输出模态，遵循一种常见做法，将所有输出转换为文本标记，以促进模型学习。将2D动作转换为文本字典（如[19]），并使用大型语言模型（LLMs）中几乎未使用的最后256个离散语言标记表示机器人动作。尽管这种统一到语言空间的方法简化了学习，但我们注意到任务之间存在显著冲突，实验中将展示这一点。接下来，我们将讨论如何缓解这些挑战，以在广泛的数据集上训练智能体基础模型。

方法

在构建多模态AI智能体的强大基础时，解决了两个关键挑战：

预训练目标：如何构建统一的预训练接口以促进联合训练？一种直接的方法是预测UI导航的2D坐标、末端执行器的3D位置以及多模态视觉-语言（VL）任务的常规文本输出。然而，在实验中，观察到这些任务在输入和输出上存在固有的领域差距。前者导致像素级别的巨大搜索空间，后者直接预测本体感知动作的输出，而未基于图像观察进行接地。我们能否设计一个智能体任务来弥合所有任务之间的差距？

数据扩展：现有的视觉-语言-动作数据在数量和多样性上有限，与LLMs的语言数据或LMMs的图像-文本语料库不同。例如，最大的开源机器人数据集OXE 包含来自22个环境的约100万条轨迹。另一方面，像LAION 这样的大规模图像-文本数据集几乎不包含对动作预训练有用的监督信息，因为它们都是静态的，没有动作的概念。然而，视频描绘了大量的人类动作和人与物体的交互。我们能否充分利用这些视频数据进行智能体预训练？

本工作提出了一种简单而有效的方法来解决上述挑战。受Set-of-Mark (SoM) 提示 [126] 的通用性启发，采用它来实现UI和机器人任务中的动作接地，因为模型在预测图像空间中的可点击按钮或机器人手臂的数字标记时面临的困难较小。我们进一步沿时间轴扩展它，要求模型预测Trace-of-Mark (ToM)，这迫使模型通过预测远期的未来“动作”来学习更长的时间范围，更重要的是，提供了一种有效利用未标记视频数据的方法。SoM和ToM的结合实现了数字和物理领域中智能体任务的无缝协同，以及从原始视频中提取“动作”监督的可扩展方法。

Set-of-Mark 用于动作接地

SoM提示最初是为了增强GPT-4V的接地能力而提出的，随后被广泛用于各种智能体任务。与之前利用它提示现成的LMMs以增强视觉-语言接地的工作不同，我们在此提出训练一个智能体模型用于动作接地，即定位特定任务的可操作点/区域，并在需要时进一步预测原子动作。

给定时间步的图像观察，任务 task 和上下文 ctx ，首先提取一组个可操作的候选区域或点，其中可以是四维的边界框坐标或二维的点坐标。随后，我们将这些标记和框（如果有）叠加到图像的相应位置，并赋予数值标签，即，从而得到一个新的标记图像。

在原子动作步骤中，给定提示图像，模型需要选择候选标记及其原始坐标，这显著简化了智能体模型的动作接地。因此，公式（1）可以重新表述为：

其中是标记

在下图3中，展示了一些实例，以演示基于SoM的动作接地（如下图1所示）。为了获得要标记的候选区域，可以利用不同的提议网络，如图像分割模型、目标检测模型或领域特定模型。

Trace-of-Mark 用于动作规划

视频数据包含大量关于人类动作和行为的信息，这些信息可以有效地用于提升智能体模型的能力。然而，由于缺乏动作标签，之前的方法很少探索这一方向，除了一些专注于世界模型学习的工作。通过提出**Trace-of-Mark (ToM)**，将“叠加标记”策略从静态图像扩展到动态视频，使智能体模型能够有效地从视频中学习规划和行动。

给定视频中的视觉观察序列，沿时间轴扩展到未来的帧，。给定第帧的个标记，提取这些标记在接下来帧中的对应位置，记为轨迹。在根据公式（2）预测动作类型和有效标记后，进一步要求模型预测有效标记的未来轨迹。

其中是中有效标记的轨迹序列的一个子集。本文提出的ToM预测是一种简单而有效的方法，能够利用视频数据并带来两个独特的建模优势：

它迫使模型理解视频观察中的时间动态，并在采取下一步行动之前“提前展望”；
与 [77] 中使用的预测下一帧的方法不同，预测轨迹使用更少的标记来捕捉更长的时间范围和与动作相关的对象动态，同时忽略环境内容。

为了提取ToM，采用了点跟踪模型CoTracker，尽管任何高性能模型都可以使用。给定帧序列，对个网格点进行密集跟踪，以提取长度为的条轨迹。给定这些轨迹，丢弃那些在相邻时间步之间的平均运动幅度小于某个值的轨迹。剩下的轨迹被视为由给定任务驱动的前景运动。

建模

为了保留Magma所需的多模态理解能力，采用了当前视觉－语言模型（VLMs）中的常见做法（例如 LLaVA和 Phi－3－Vision）。给定视觉观察，使用视觉编码器将每一帧编码为若干标记，然后将所有标记连接成一个序列，并将其与编码任务描述的语言标记一起输入到仅解码器的大型语言模型（LLM）中。由于任务的多样性，需要一个能够无缝编码各种分辨率的图像和视频的视觉编码器。本文提出使用卷积网络ConvNeXt 作为视觉骨干网络，因为它默认支持任意图像分辨率。为了处理高分辨率图像（例如高达 2000 的UI截图），简单地执行全局编码，而不使用之前工作中的复杂技巧，并发现它可以编码全局上下文，同时结合全局和局部裁剪。最终，将智能体建模公式化为自回归解码过程：

多模态智能体预训练

数据集

为了开发一个具备语言和空间智能的基础模型，能够处理多样化的智能体任务，我们从广泛的图像、视频和机器人领域整理了一个综合的预训练数据集。

机器人操作数据：对于机器人任务，遵循OpenVLA，使用Open-X-Embodiment 的机器人数据集。
UI导航数据：利用两个预训练数据集，SeeClick 和 Vision2UI 。
教学视频：整理了Epic-Kitchen、Ego4d、Somethingv2 和其他相关数据集，考虑到其中包含粗糙但丰富的目标驱动的人类动作。
多模态理解：最后，纳入了ShareGPT4V、LLaVA-1.5中的指令调优数据，以及其他一些OCR相关数据集，以获得图像理解能力。

还有许多相关数据集可以用于模型预训练，例如大规模指令调优数据和更多样化的视频数据。本研究专注于展示我们的预训练方法，并将进一步的扩展留给未来。接下来，将详细阐述如何通过Set-of-Mark (SoM) 和 Trace-of-Mark (ToM) 提取智能体动作监督。

SoM 和 ToM 生成

如下表1所示，对不同的数据类型应用SoM和ToM，其中SoM应用于所有数据以学习统一的动作接地。ToM不适用于UI数据，因为UI数据由离散的截图序列组成。

SoM 用于 UI 导航

对于预训练数据中的UI截图，主要依赖于基于DoM Tree提取的原始注释。除了从HTML代码中提取的边界框，还进一步使用Android视图层次结构对SeeClick数据中的移动截图进行边界框标注。给定图像中提取的候选边界框，我们应用下算法1为对象分配文本标签（第3行）并绘制边界框。为了最小化重叠框的放置，我们在计算文本框大小并分配其坐标之前（第7行），使用先前绘制的框确定标签的最佳位置（第5行）。在评估期间，遵循常见做法，使用OmniParser 对ScreenSpot 进行零样本评估，并使用 [27] 提供的候选框对Mind2Web进行下游训练和评估。

SoM 和 ToM 用于视频和机器人数据

使用标记和轨迹作为智能体动作监督，预训练Magma模型以进行动作接地和规划。为了提取可靠的轨迹，使用最先进的点跟踪模型CoTracker 来跟踪每个视频片段中的关键点。与之前工作中使用的目标检测和跟踪系统不同，点跟踪提供了最精细的末端执行器（机器人手臂或人手）和对象的运动轨迹，更重要的是，它可以应用于任何视频，因为它不需要对象识别。

CoTracker的可靠性：为了确定这些轨迹的泛化能力，在所有预训练数据上运行算法之前检查了CoTracker的可靠性。CoTracker已经在多个视频数据集（如TAP-Vid 和 PointOdyssey）上得到了充分验证。在本工作中，提出了全面的策略来处理视频中的场景转换和相机运动（下算法2），这些策略有效地扩展到Ego4D和其他教学视频数据集（下图13）。为了进一步验证ToM的可靠性，在YouCook2-BB的一个子集上定量评估了轨迹，该子集包含人类标注的边界框。从每个标注的框中提取轨迹，并统计1秒后仍落入框内的未来轨迹数量。在1320个片段上，得到了0.89的精度，表明轨迹可靠地捕捉了时间运动。

片段和CLIP分数过滤：由于点跟踪系统在短时间窗口内工作，首先使用提供的注释将每个视频分割成片段，然后使用PySceneDetect进一步将每个片段分解为具有一致镜头的短视频片段。然而，检测到的视频片段可能并不总是与其相关的文本注释相关。因此，使用预训练的CLIP视觉和文本编码器计算每个片段和文本对之间的余弦相似度分数，并过滤掉分数低于0.25的片段。

一旦我们获得了细粒度的视频片段，应用算法2生成SoM和ToM。给定一个包含帧的视频片段，我们从时间步开始，在上放置一个等间距的点网格。然后，我们使用CoTracker提取每个长度为的条未来轨迹。输出还包含每条轨迹的预测遮挡标签，指示轨迹上的任何点是否在某些时间步被遮挡。

全局运动去除：许多教学视频，特别是以自我为中心的视频，包含显著的相机运动。因此，提取的轨迹可能反映外部运动，而不是完成给定任务的相关动作。我们通过执行单应性变换来缓解这个问题。本文使用未来标记位置和当前位置计算变换矩阵。

给定，我们对应用单应性变换以获得，其与共享相同的坐标系。然后从中提取公式（3）中要预测的有效标记轨迹。结果表明，所提出的方法对于去除以自我为中心的视频和以外部为中心的视频中的全局相机运动是有效的，如下图5所示。

在提取轨迹并应用单应性变换（如果需要）（第2－4行）后，根据相邻时间步之间的平均运动幅度将轨迹分为两类：前景轨迹和背景轨迹，其中平均运动幅度至少为的轨迹（第 5 行）被计为前景轨迹。最后，选择聚类数量（第6行），并对前景和背景轨迹分别进行K－Means聚类（第7行），然后从每个聚类中随机选择一个或多个点作为最终轨迹。在实践中，将和分别设置为和 2 。

预训练

上述数据和注释整理形成了一个综合的预训练套件，涵盖：

不同的数字和物理环境；
语言和空间注释；
各种多模态理解和智能体任务。

如下图6（左）所示，包含了来自SeeClick 和 Vision2UI 的近270万张UI导航截图。遵循OpenVLA，将Open-X-Embodiment中的97万条轨迹纳入其中，这些轨迹包含940万条图像-语言-动作三元组。预训练数据的大部分是视频，包含超过2500万个样本，源自约400万个镜头一致的视频片段。最后，我们纳入了来自ShareGPT4V、LLaVa-1.5 和其他一些OCR相关数据集的120万张图像和文本对，将其称为Magma-SFT（82万）。

默认情况下，使用LLaMA-3-8B作为语言骨干网络，ConvNext-XXlarge作为视觉骨干网络。在下图7中展示了预训练架构。本文提出的SoM和ToM作为桥梁，连接了所有四种类型数据的语言和动作监督，并显著增强了模型的空间智能，正如在实验中所观察到的那样。

为了进行比较，在实验中运行了一些变体以进行消融研究：

Magma-8B (SFT) ：使用Magma-SFT（82万）进行指令调优的模型，遵循LMM训练中使用的常规方法。
Magma-8B (UI) 和 Magma-8B (OXE) ：分别在UI截图和OXE机器人数据上预训练的模型。
Magma-8B (ACT) ：在UI截图和机器人数据上联合预训练的模型。
Magma-8B (Full) ：使用整个数据集（包含SoM和ToM注释）训练的完整模型。

除非另有说明，所有预训练都包括Magma-SFT（82万）。使用整理的数据对模型进行最多三个epoch的预训练，学习率恒定为1e-5，并在零样本设置下评估预训练模型在不同任务上的表现，同时在下游任务上微调其权重。整个模型（包括语言模型和视觉编码器的参数）都会被调整。

实验

智能体能力评估

评估 Magma 作为多模态智能体的基础模型在数字世界中的UI导航任务、物理世界中的机器人操作任务，以及通用多模态理解方面的有效性。

零样本评估

为了评估 Magma 的零样本迁移能力，采用 ScreenSpot 和 VisualWebBench评估 UI 动作定位和导航，并使用 SimplerEnv 评估机器人操作。此外，还在通用和文本丰富的 VQA 任务以及幻觉基准 POPE上验证了本文的模型。

如下表 2 所示，Magma 在所有其他通用领域的大型多模态模型（LMMs）（如 LLaVA、Qwen-VL）以及特定领域的智能体模型（如用于 UI 导航的 SeeClick和用于机器人操作的 OpenVLA）上始终表现优越。值得注意的是，Magma 在 UI 任务上的零样本性能远超使用 GPT-4V 和 Omniparser 的最先进视觉方法。

本文报告了 SimplerEnv 中两种常用模拟器（Bridge 和 Google Robot）的结果，包括 8 项任务，共 172 个视觉匹配和变体聚合场景。由于 OpenVLA 在真实机器人轨迹上进行预训练，该模型在真实到模拟（real-to-sim）自适应过程中容易受到领域差距的影响。相比之下，本文的 Magma 模型在多模态理解和动作预测方面使用了广泛的异构数据集进行训练，对这种差距更具适应性，并取得了显著更高的成功率。

下图 8 展示了预训练的 Magma 模型与其他代表性模型的详细对比。值得注意的是，Magma 领先排名第二的 OpenVLA 19.6%，几乎将平均成功率翻倍。在“将物体放入抽屉”和“将胡萝卜放在盘子上”等具有挑战性的任务中，Magma 取得了卓越的成功率，而大多数基线模型完全失败。此外，在预训练模型的基础上微调的 Magma 版本比仅在机器人数据集上训练的版本表现更好，这凸显了从多样化数据集中学习的空间智能对于物理机器人操作任务的价值。

消融研究
对模型的预训练技术和数据组合进行消融实验，结果如下表 3 所示。首先，简单地将 UI 和机器人数据结合并不会带来性能提升，反而会对两类任务的性能造成损害。这是可以预见的，因为这两个智能体任务在图像域和动作空间（2D 坐标 vs. 7-DoF）上存在显著差异。在预训练中加入视频数据可以在整体上略微提升性能，但仍无法弥合二者之间的差距，因为额外的视频解说只能增强语言智能。然而，当在所有预训练数据上应用 SoM 和 ToM 并将其映射到统一接口后，模型能够有效地从异构数据中学习语言和空间智能。该研究表明，本文提出的方法是有效的，并且语言理解与空间理解对于智能体任务同等重要。

高效微调

UI导航：遵循之前的工作 [19, 43]，在Mind2Web和AITW上对Magma进行微调，分别测试其在网页和移动UI导航中的能力。对于Mind2Web，首先根据 [140] 选择的候选框对训练样本应用SoM提示，然后在与SeeClick相同的样本上对Magma进行微调。下表4显示了三个子任务的结果，清楚地表明Magma优于通用领域和特定领域的LMMs。同样，在AITW上，Magma超越了基于开源或专有模型的最先进方法。考虑到我们使用了类似规模的LLM和适量的UI相关预训练数据，这种出色的性能主要归功于所提出的SoM和ToM建模技术，这些技术显著促进了UI导航中的动作接地。

机器人操作：前面表2显示，未经领域特定微调的Magma模型已经优于在相同数量OXE数据上预训练27个epoch的最近提出的OpenVLA模型。接下来，我们通过将微调后的Magma模型与OpenVLA在三种设置下进行比较，验证其有效性：

在真实机器人数据上微调：评估分布外操作任务；
在模拟机器人设置中微调：使用LIBERO基准测试评估Magma在有限轨迹下的任务适应能力；
在物理WidoxW 250 Arm上评估。

研究者们收集了四个操作任务，每个任务大约有50条轨迹（详见补充材料），并在这些任务上联合微调OpenVLA和Magma。为了评估，我们每个任务进行10次试验，确保模型之间的初始状态（末端执行器和对象的位置和方向）相同。如下图9所示，结果清楚地展示了Magma的优越性能。对于涉及日常对象的挑战性任务，如“Pick Place Hotdog Sausage”、“Put Mushroom in Pot”和“Push Cloth Right to Left”，OpenVLA几乎无法完成任务，主要是由于观察到的臂部运动和对象定位不精确。相比之下，Magma在这些复杂任务上表现良好，这主要归功于其从预训练中获得的空间理解和接地能力。此外评估了模型在未见任务“Push Cloth Left to Right”上的表现，该任务未包含在微调数据集中。Magma显著优于基线，表明其具有更强的保留预训练知识并泛化到新任务的能力。

Magma的高效适应能力（通过微调）在LIBERO基准测试中的少样本微调评估中得到了进一步验证。对于基准测试中的每个任务套件，我们仅采样10条轨迹进行微调。在评估期间，每个任务套件进行100次试验。如下图10所示，结果表明Magma在所有任务套件中实现了显著更高的平均成功率。此外，在预训练期间移除SoM和ToM会对模型性能产生负面影响，这进一步证明了我们预训练方法的有效性。

评估空间推理能力

将 Magma 模型在 UI 导航和机器人操作任务上的显著性能提升（如上所示）归因于其增强的空间推理能力。为了验证这一假设，我们在具有挑战性的视觉空间推理（VSR）、BLINK 和 SpatialEval基准测试上，以零样本（zero-shot）设置评估我们预训练模型所学到的空间智能的有效性。结果汇总在表 6 中。我们发现，Magma 在 VSR 和 SpatialEval 上的表现大幅超越现有方法，并且在 BLINK 任务上的表现与 CogVLM 相当，尽管后者使用了约 15 亿张图像进行预训练，而 Magma 仅使用了约 2900 万张图像。此外，我们的消融研究表明，SoM 和 ToM 预训练任务对于 Magma 提升空间推理能力具有重要作用。最后，在预训练过程中使用视频数据的优势，并通过实验表明，在训练数据中去除视频会导致 BLINK 任务的性能下降约 8%。此外，在下图 11 中提供了一些 Magma 模型的预测示例。空间推理问题对 GPT-4o 等最新专有模型仍然具有挑战性。尽管 Magma 没有在包含迷宫的数据上进行预训练，但它仍然能够回答与迷宫相关的空间推理问题。

评估多模态理解

图像指令微调
为了进一步评估 Magma 的多模态理解能力，在 Magma-SFT-820K 数据上进行持续微调。然后，将微调后的 Magma 模型与现有的 VLMs（视觉语言模型）进行比较，使用一系列常用的图像推理基准，例如 MME 和 GQA。如下表 7 所示，Magma 在大多数任务上超越了最近提出的 VLMs，尤其是在 TextVQA 和 ChartQA 上分别取得了约 5% 和 22% 的显著提升。与下表 6 中的观察结果类似，我们的消融研究强调了 SoM 和 ToM 预训练任务的有效性，这在 ChartQA 上带来了约 5% 的提升。

视频指令微调
下表 8中报告了 Magma 模型在多个挑战性视频问答（QA）基准测试中的表现，包括 IntentQA、NextQA、VideoMME 和 MVBench。使用 LMMs-Eval 框架进行后三个基准测试，以确保评估结果的可重复性。

结果展示了本文预训练方法的有效性，在不同基准测试中，Magna consistently 在大多数具有可比参数数量的最新模型中表现更好。例如，我们的 Magma 模型在 IG-VLM 和 SF-LLaVA 模型上实现了约 28% 的性能提升。IntentQA 基准评估模型理解视频中观察到的动作背后意图的能力。因此，Magma 在该数据集上取得的显著提升可能归因于我们 ToM 预训练任务的有效性，该任务鼓励模型推理未来视频帧中的时间动态。MVBench 中动作预测子任务上的显著提升也进一步证实了这一点，Magma 超越了 VideoChat2 和 LLaVA-OV 等最先进的模型。

最先进的视频 LMMs 通常依赖于像 Webvid 和 ShareGPT4Video 这样的大型视频和文本数据集进行预训练，这些数据集包含超过 400 万个样本，并且有经过策划的文本。此外，前述模型在预训练时也使用了更多的帧数。相比之下，即使在我们的案例中进行了多帧预训练，由于计算限制，我们最多只使用了 4 帧。因此，Magma 在 VideoMME 和 MVBench 上超越了 LLaVA-OV 和 ShareGPT4Video 等方法尤其具有意义，因为这些方法通常使用更大的指令微调数据集，包括图像和视频数据。此外，正如 Magma 在专有模型 GPT-4V 上获得的性能提升所证明的那样，我们注意到这些结果的改进不仅仅是因为使用了像 LLama-3 这样更新更强大的语言模型。值得注意的是，Magma 在性能上远超 LongVA，尽管它只使用了 32 帧，而 LongVA 使用了 64 帧。

结论

本文提出了 Magma 基础模型，它能够理解和处理多模态输入，以完成不同环境中的智能体任务。实验表明，在预训练中使用 SoM 和 ToM 预测任务帮助模型分别学习如何进行基础推理和规划动作。在实验中，Magma 展示了强大的时空推理能力，并且在下游的 UI 导航和机器人操作任务上显著超越了基准模型。

社会影响和局限性
为了开发一个具有语言和空间智能、能够处理数字和物理环境中多样化智能体任务的基础模型，从多个领域收集了全面的预训练数据集，包括图像、视频和机器人领域：

UI 导航数据：利用了两个预训练数据集 SeeClick 和 Vision2UI。
教学视频：由于我们的目标是学习一个能够执行日常任务（如人类）的智能体模型，我们汇编了来自 Epic Kitchen、Ego4d、Something-Something v2 和其他教学视频的数据。
机器人操作数据：对于机器人任务，遵循 OpenVLA 方法，利用了 Open-X-Embodiment 中的机器人数据。
多模态理解数据：最后，包括了一小部分多模态预训练数据 ShareGPT4V，以及指令调优数据 LlaVA-1.5 和其他领域特定的数据，以保持预训练模型的通用多模态理解能力。

机器人和 UI 导航数据的标注非常标准化，集中于通用的操作任务（“将 x 物体放置在 y 物体上”）和通用的 UI 导航任务（“点击搜索按钮”）。然而，我们对执行特定任务的人物视频数据进行了详细的数据反思。在这些视频中，我们的核心推论是任务执行时物体的运动轨迹。

教学视频中身份和活动的分布并未代表全球人群及社会中的多样性。意识到在使用这些数据进行训练时，可能存在无意的社会性、性别、种族及其他偏见，因此我们将确保在发布模型时提供必要的免责声明。训练数据集、任务列表和描述仅关注要执行的下一步操作，而不是描述、处理或分析任务本身。虽然模型可能会基于不良的任务描述产生意外输出，我们将确保突出展示模型训练的用例及其预期用途。

负责任的 AI
值得注意的是，该模型专为受控的 Web UI 和 Android 模拟器中的 UI 导航任务以及机器人操作任务设计，不应广泛应用于其他任务。推荐的使用场景是在其训练环境内，即配备机器人臂和日常物体的封闭空间用于机器人操作，及在计算机上运行的 Android 模拟器用于 UI 操作任务。对于 UI 导航任务，研究人员应确保在每个智能体系统生成的动作中，始终由人工干预和控制。由于模型本身无法独立行动，因此研究人员使用的子模块必须确保执行模型提出的 UI 操作时不会产生意外后果。

该模型本身展示了足够的 UI 导航和机器人操作能力，但不能直接用于恶意利用场景。恶意攻击者可以使用特定的训练数据进行特定的恶意任务，将该模型作为基础来执行自动化的 UI 导航任务。这是与智能体模型相关的普遍风险。

参考文献

[1] Magma: A Foundation Model for Multimodal AI Agents

#LLaVA-MoD

MoE蒸馏训练轻量化多模态大模型

仅使用0.3%的数据和23%的激活参数，即可使2B的小模型的综合性能超过7B的大模型8.8%，并在幻觉检测任务中超越教师模型。

简介

本文提出了轻量化多模态大模型LLaVA-MoD，通过集成稀疏专家混合（MoE）架构来优化小模型的网络结构，并设计了Dense-to-Sparse蒸馏框架，结合模仿蒸馏和偏好蒸馏的两阶段策略，实现全面的知识迁移。该方案仅使用0.3%的数据和23%的激活参数，即可使2B的小模型的综合性能超过7B的大模型8.8%，并在幻觉检测任务中超越教师模型。

我们的研究思路与Deepseek-R1相似，均聚焦于Dense与Sparse MoE之间的知识蒸馏架构，但LLaVA-MoD在此基础上创新性地采用了逆向路径（Dense-to-Sparse），使参数效率提高了3.2倍，训练数据消耗减少了99.7%。该方法在动态平衡模型效率与表达能力的同时，为智能终端、边缘计算等应用场景提供了高性价比的解决方案，相关代码已开源。

题目：LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation

机构：阿里巴巴、港中文

Paper：https://openreview.net/pdf?id=uWtLOy35WD

Code：https://github.com/shufangxun/LLaVA-MoD

引言

多模态大型语言模型（MLLM）通过将视觉编码器整合入大型语言模型（LLM）中，在多模态任务上取得了显著成效。然而，这些大型模型由于其庞大的规模和广泛的训练数据，面临着重大的计算挑战。例如，LLaVA-NeXT的最大版本利用Qwen-1.5-110B为基础，在128个H800 GPU上训练了18小时。此外，庞大的参数需求需要高性能硬件支持，导致推理速度缓慢，这使得在现实世界中，特别是在移动设备上进行部署变得更加困难。因此，探索一种在性能与效率之间实现平衡的小型多模态语言模型（s-MLLM）成为当前的重要研究课题。

s-MLLM的研究主要集中在数据收集和过滤机制上，以确保训练数据的高质量。尽管这些方法有效，但本质上限制了模型的容量。随着开源MLLM的增多，利用大型MLLM（l-MLLM）作为教师通过蒸馏其丰富的知识到s-MLLM，成为一种可行的研究方向。然而，在MLLM中实施知识蒸馏是一项全新的尝试。本文将重点关注两个主要挑战：首先，如何设计一个轻量级架构，以保持强大的学习和表达能力，从而使学生模型能够有效吸收教师模型中的复杂知识；其次，如何高效且全面地将这种知识从教师模型转移到学生模型。

方案

本文提出了 LLaVA-MoD，通过混合专家（MoE）和知识蒸馏（KD）来应对这些挑战，包括两个主要组成部分：

s-MLLM架构设计：如图1所示，设计了一个稀疏的s-MLLM以平衡性能和参数，能够高效学习多样性复杂知识。
蒸馏机制：如图2所示，设计了一个渐进式蒸馏框架，用于将知识从l-MLLM传递给稀疏的s-MLLM，包含两个阶段：模仿蒸馏和偏好蒸馏。

稀疏架构设计

图1. s-MLLM的稀疏化

如图1所示，s-MLLM包含三个主要组件：视觉编码器（Vision Encoder）、大型语言模型（LLM）和视觉语言适配器（VL Adaptor）。构建s-MLLM的原则是保持Vision Encoder和VL Adaptor不变，同时引入混合专家（MoE）架构，将LLM从稠密型转化为稀疏型。具体而言，我们通过稀疏升采样（sparse upcycling）将多个前馈网络（FFN）复制为专家模块。此外，增加了一个线性层作为路由器，以动态预测专家分配的概率，从而激活合适的专家。在训练和推理阶段，专家模块能够以动态和稀疏的方式被激活，从而在增加模型容量的同时实现高效的训练和推理过程。

渐进式蒸馏

图2. LLaVA-MoD的渐进蒸馏

渐进蒸馏包括两个不同的阶段，如图2，即模拟蒸馏和偏好蒸馏。在模仿蒸馏阶段，学生MLLM 模拟教师MLLM 的通用和专家知识。在偏好蒸馏阶段，学生MLLM基于教师MLLM的偏好知识，以进一步优化其输出并减少幻觉。

模仿蒸馏

由于教师MLLM的知识丰富且复杂，学生MLLM难以一步掌握，因此我们将知识分解为通用知识和专业知识，分别进行密集到密集蒸馏和密集到稀疏蒸馏，以将这两个方面的知识传递给学生MLLM。

密集到密集蒸馏：在这一阶段，核心目标是学习教师MLLM的通用知识。通用知识至关重要，因为它为多个领域提供了广泛的基础和共同理解，使学生MLLM能够建立适用于多种场景的基本框架。这个基础支持学生在进入特定任务之前，拥有更全面和灵活的理解。具体而言，我们利用通用的图像-标题对和对话数据来更新LLM和VL Adaptor。
密集到稀疏蒸馏：在这一阶段，通过引入混合专家（MoE）结构，学生MLLM能够针对不同任务和输入选择性地激活最相关的专家，从而在模拟教师的专业知识方面获得显著优势。具体来说，在训练过程中，我们利用多任务数据，采用Top-k路由策略选择专家，仅更新这些专家和VL Adaptor。

偏好蒸馏

在这一阶段，我们基于教师MLLM中的偏好知识，指导学生MLLM生成不仅准确而且合理的响应，这对于减少幻觉至关重要。偏好蒸馏受到离散描述偏好优化（DPO）进展的启发，将教师MLLM视为参考模型，发挥关键作用，因为它提供了“好”和“坏”的见解，从而为学生模型建立一个基本参考。具体而言，训练目标是优化学生模型，使其在区分正面和负面响应时，为正面响应分配比教师模型更高的概率，同时为负面响应分配比教师模型更低的概率。

实验结果

我们采用了成熟的"ViT-MLP-LLM"架构来证明LLaVA-MoD的有效性。在模拟蒸馏中，使用2.4M通用captioning和对话样本来学习教师MLLM的通用知识，以及1.4M多任务数据，包括VQA、文档、科学和OCR，以学习教师MLLM的专业知识。在偏好蒸馏中，使用8W偏好样本来学习教师偏好知识。评估benchmark包括多模态理解、推理和幻觉。

多模态理解和推理：表21表明，LLaVA-MoD在以理解为导向的基准测试上表现出色。在2B规模和1B规模的模型中，它分别取得了最先进的平均结果。

表1. 理解知识能力

幻觉消除：如表2所示，LLaVA-MoD在减轻幻觉方面表现出色，甚至超过了其教师模型。这可以归因于两个方面：首先，通过为正响应分配更高的概率，偏好蒸馏鼓励学生模型专注于提供正确和相关的信息。其次，通过为负响应分配较低的概率，偏好蒸馏 discourages错误或不实的信息。利用教师模型作为参考调整响应概率，这种优化使学生模型更准确、可靠地处理幻觉问题，从而超过了教师模型。

表2: 幻觉消除能力

结论

本文提出了LLaVA-MoD，用于通过知识蒸馏从l-MLLM中高效训练s-MLLM。该框架解决了MLLM蒸馏的两个关键挑战：使用MoE设计增强s-MLLM架构的效率和表达能力平衡，并实现了一种渐进式知识转移策略。

#MMKE-Bench

史上最全面的多模态知识编辑基准！北京通用人工智能研究院BIGAI联合中科大提出

知识编辑技术已成为更新大语言模型（LLMs）和多模态模型（LMMs）事实性知识的重要工具，使它们能够在不从头重新训练的情况下纠正过时或不准确的信息。然而，现有的多模态知识编辑基准主要关注以简单三元组形式表示的实体级知识，无法捕捉现实世界多模态信息的复杂性。

为解决这一问题，我们引入了MMKE-Bench，这是一个全面的多模态知识编辑基准，旨在评估多模态模型在现实场景中编辑多样化视觉知识的能力。MMKE-Bench通过纳入三种类型的编辑任务来解决这些局限性：视觉实体编辑、视觉语义编辑和用户特定编辑。此外，MMKE-Bench使用自由形式的自然语言来表示和编辑知识，提供了一种更灵活、有效的格式。该基准包含33个广泛类别的2940条知识和8363张图像，评估问题由自动生成并经过人工验证。我们在三个著名的多模态模型上评估了五种最先进的知识编辑方法，结果表明没有一种方法在所有标准上都表现出色，并且视觉编辑和用户特定编辑尤其具有挑战性。MMKE-Bench为评估多模态知识编辑技术的鲁棒性设定了新的标准，推动了这一快速发展领域的进步。

论文题目：MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge

论文链接：https://arxiv.org/abs/2502.19870

项目主页：https://mmke-bench-iclr.github.io/

数据&代码：https://github.com/MMKE-Bench-ICLR/MMKE-Bench

MMKE-Bench的亮点：

全面多模态知识评估：MMKE-Bench，这是一个具有挑战性的基准，用于评估现实世界场景中的各种语义编辑。它采用自由形式的基于自然语言的知识表示，包括三种与现实环境相一致的编辑。

多模态知识编辑框架：在单一和顺序编辑环境中对各种基线方法和LMM进行了广泛的实验，揭示了现有知识编辑方法的几个局限性。

问题定义

知识表示与编辑

MMKE－Bench（多模态知识编辑基准）在评估现实场景中的多种语义编辑方面独具特色，它利用基于自然语言的知识表示。它包括三种类型的编辑：视觉实体编辑，视觉语义编辑和用户特定编辑。每条知识都以统一的格式表示，，其中指的是图像，表示实体对象，视觉内容或用户个性化项目的自然语言描述。例如，在裁判手势的情况下，图像捕捉到裁判执行的动作，而描述则解释了该手势是如何执行的以及它对比赛的影响。在知识编辑过程中，在视觉实体编辑和视觉语义编辑中，原始知识会转换为，而在用户特定编辑中则保持为。这是因为用户特定编辑会将全新的个性化知识引入大型多模态模型（LMMs），而无需更改图像或描述。

MMKE-Bench的编辑类型

考虑到现实世界的需求，MMKE-Bench包括以下三种类型的编辑。

视觉实体编辑 这种类型的编辑以实体为中心进行修改，描述涵盖了实体的多个方面。在现实场景中，模型可能会错误识别或保留有关实体的错误或过时信息。视觉实体编辑通过允许同时纠正所有相关内容来解决这个问题。为了模拟此类场景，我们提议用同一类型的另一个实体的图像替换原实体的图像，并将关键信息修改为反事实内容。如图1所示，兹拉坦·伊布拉希莫维奇（Zlatan Ibrahimović）的图像被替换为韦恩·鲁尼（Wayne Rooney）的图像，相关信息（如国籍、俱乐部）被更改为反事实细节。

视觉语义编辑 这种类型的编辑侧重于以复杂视觉语义为中心的修改，包括身体姿势、动作、对象关系等。描述提供了关于语义动作及其规则或含义的详细信息。大型多模态模型可能会错误识别和误解这些语义，但视觉语义编辑可以通过同时修改动作、图像和含义来解决这个问题。为了模拟这一点，这种类型的编辑还包括用同一类型的另一个动作的图像替换一个语义动作的图像，并将规则或含义更改为反事实内容。如图1所示，足球比赛中的越位手势被替换为换人手势，相关规则（如开球位置）被修改为反事实内容。

用户特定编辑 这种类型的编辑侧重于将个性化的用户信息注入大型多模态模型，描述详细说明了用户与对象之间的关系以及他们的体验。由于对大型多模态模型作为能够记住相关用户信息的个性化人工智能助手的需求不断增长，用户特定编辑旨在满足这一需求。预训练的大型多模态模型作为通用模型，因此所有用户特定信息都被视为大型多模态模型的新知识。因此，不需要进行反事实编辑，原始知识被用作编辑知识。例如，图1描述了玩具木偶与用户习惯之间的关系。

基准测试

通过四个步骤构建基准测试：i) 原始知识收集；ii) 编辑知识生成；iii) 评估问题生成；iv) 人工验证。

原始知识收集

在收集原始知识时，我们首先列出候选的细粒度实体、视觉语义或用户特定项目，然后收集它们对应的图像和描述。

对于视觉实体编辑，我们从两个数据集中获取候选对象：多模态知识图谱MMpedia（Wu等人，2023b）和视觉实体识别数据集OVEN（Hu等人，2023）。对于从现有数据集中选择的每个实体，我们从数据集中获取它们的图像，然后手动审查这些图像，去除那些无法从图像中唯一识别主要实体的实体和噪声图像。对于图像少于两张的实体，我们通过从谷歌上爬取来重新收集额外的图像。接下来，我们从维基百科摘要转储中检索实体描述，并通过大型语言模型（LLM）对描述进行总结，以生成最终描述。如图3所示，这种类型涵盖10个广泛的类别。

对于视觉语义编辑，如图3所示，我们定义了涵盖14大类语义知识的候选内容，包括单人行为、单个对象的行为或属性、对象关系和全局结构。对于某些有对应数据集的视觉知识类型，如对象关系、纹理和艺术风格，我们从这些数据集中收集候选语义和相关图像。对于其他情况，我们从演示视频中提取图像或通过谷歌收集图像，并进行人工验证以控制质量。视觉语义动作的描述以及这些行为所传达的规则或含义由大语言模型（LLM）或人工撰写人员协助生成。

对于用户特定编辑，我们考虑了9大类个性化信息来源，如喜爱的歌手、所养的宠物和母校。对于个人物品和宠物，我们从现有的个性化研究成果Nguyen等人（2024）；Alaluf等人（2024）中收集候选内容和图像。对于歌手、演员和卡通人物，我们首先生成一个候选列表，然后从谷歌抓取图像。对于其他类别，包括公司、大学、体育俱乐部和组织，我们从MMpedia获取候选内容，并手动验证和去除噪声图像。最后，我们使用大语言模型生成用户与这些对象之间的个性化关系和体验。

编辑知识生成

考虑到大型多模态模型（LMMs）的多模态特性，我们建议在构建基准测试时同时编辑文本和视觉模态。具体来说，我们专注于编辑视觉实体和视觉语义知识，同时保持用户特定知识不变。前者被视为知识编辑，而后者被视为知识插入。

对于视觉模态，我们采用先前工作Huang等人（2024）中基于图像替换的编辑方法，即将实体或语义动作的图像随机替换为同一类型的另一图像。例如，如图1和图2所示，在编辑后的视觉内容中，助理裁判的越位判罚手势被替换为换人手势。在文本模态中，我们分别将关于实体的关键信息以及规则或含义修改为用于视觉实体编辑和视觉语义编辑的反事实内容。此外，我们更新动作描述以与新的视觉内容保持一致。在越位手势的示例中，原始动作描述被替换为换人手势的描述，开球位置从犯规位置编辑到罚球点。

评估问题生成

我们遵循四个关键评估原则来生成问题和答案。可靠性和可移植性问题通过提示大语言模型生成，我们在附录中展示提示内容。

可靠性问题生成 可靠性标准评估编辑过程后编辑后的知识是否正确生成。在生成问题和答案时，我们向大语言模型提出要求，即问题必须询问编辑后的反事实内容的某一方面（例如，越位判罚的开球位置）。为了评估这一点，我们同时考虑文本可靠性和图像可靠性，衡量大型多模态模型跨文本和视觉模态进行编辑的能力。文本可靠性问题的设计使得无需图像即可回答，而图像可靠性问题使用{图像中的类型}格式来引用主要对象、行为或个性化物品。我们将可靠性问题集表示为，其中表示编辑后的图像，表示问题，表示答案。设和分别表示原始和编辑后的大型多模态模型，表示指示函数，则可靠性评估如下：

局部性问题生成 局部性标准通过比较编辑前后模型的输出来评估编辑后的模型中多少无关知识保持不变。对于局部性，我们同时评估文本和图像局部性，这测试了模型在处理来自每个模态的超出范围知识时的稳定性。遵循先前的工作，我们从VLKEB基准测试Huang等人（2024）中获取局部性问题和答案，其中文本问题来自NQ数据集Kwiatkowski等人（2019），图像问题由VLKEB专门设计。我们将局部性问题集表示为，局部性评估如下：

泛化问题生成 泛化准则评估模型对相邻样本的响应效果。与基于三元组的知识编辑不同，我们仅关注图像泛化，因为由于知识格式的自由性，不考虑文本泛化。对于图像泛化，我们从一个实体、视觉行为或个性化物品的多个可用图像中随机选择另一张图像，并复用图像可靠性测试中的相同问题和答案。我们将泛化问题定义为，其中和。泛化评估如下：

可移植性问题生成 可移植性准则评估编辑后的知识能否成功应用于相关内容。遵循先前的工作 Huang 等人（2024）的方法，我们对视觉实体编辑采用文本可移植性评估，对视觉语义和用户特定编辑采用图像模态可移植性评估，以加强视觉模态评估。

对于视觉实体编辑，我们围绕编辑后的内容生成问题，并利用维基百科的补充信息来生成问题。例如，如果当前实体是埃菲尔铁塔（Eiffel Tower），且编辑后的内容涉及该建筑的设计师，我们可能会提出这样的问题：“埃菲尔铁塔的设计师是谁？” 然后，我们可以围绕编辑后的内容生成另一个问题，例如询问设计师的出生年份。通过结合这两个问题，我们可以形成最终的概率问题：“埃菲尔铁塔的建造者出生于哪一年？”

在视觉语义和用户特定编辑的情况下，我们首先将主要行为或物品的图像与同类型的另一张图像组合，创建一个新图像，记为。然后，我们提出一个关注两张图像差异的问题，例如头发颜色或物体形状。通过将这个问题与一个与编辑内容相关的问题相结合，我们得出最终的可移植性问题。例如，如前图所示，给定一张包含两名助理裁判做出越位判罚手势和角球判罚手势的图像，我们可能会问：“图像中做出越位手势的裁判上衣是什么颜色？” 将可移植性问题记为，可移植性评估如下：

人工检查与基准统计

在基准构建过程中，我们多次手动收集、审查和筛选样本。在原始知识收集阶段，我们对与每个实体、行为和对象相关的图像进行了全面的手动审查，以确保收集到的视觉内容的质量。此外，在反事实编辑和问题生成之后，我们手动审查了问题，修改了不合适的问题，并纠正了错误的答案。

MMKE-Bench的统计信息如表所示。MMKE-Bench涵盖三类编辑后的知识，总计 2940 条知识和 8363 张图像。这些知识涵盖 175 种细粒度类型，凸显了MMKE-Bench的多样性。将数据集按 4:6 的比例划分为训练集和验证集，训练集仅保留给特定的知识编辑方法（例如，SERAC Mitchell 等人（2022b））。

实验与结果

实验设置

大语言模型（LMMs）和编辑方法为了评估我们的基准测试，我们在三种具有代表性的大语言模型上进行了实验：BLIP - 2（Li等人，2023a）、MiniGPT - 4（Zhu等人，2023）和LLaVA - 1.5（Liu等人，2024a）。此外，参照之前的基准测试，我们选择了五种具有代表性的多模态知识编辑方法：1) 微调（Fine - tuning，FT）。我们专注于微调大语言模型（FT - LLM）或视觉 - 语言对齐模块（FT - Alignment），其中仅对大语言模型的最后一层进行微调。2) 知识编辑器（Knowledge Editor，KE）（De Cao等人，2021）。KE使用带有约束优化的超网络在测试时预测权重更新。3) MEND（Mitchell等人，2022a）：MEND学习标准微调梯度的低秩分解。4) SERAC（Mitchell等人，2022b）：SERAC是一种基于记忆的方法，它将编辑内容存储在显式记忆中。5) 上下文内知识编辑（In - context Knowledge Editing，IKE）（Zheng等人，2023）：IKE受上下文内学习的启发，并且构建了新的示例格式化和组织策略来指导知识编辑。实验设置我们在单次编辑和顺序编辑两种情况下进行实验。单次编辑是最常用的方法，它针对每条知识更新基础模型，然后评估编辑性能。顺序编辑则是用多条知识连续更新基础模型，然后评估第一条知识。我们参照之前的基准测试，采用词元级别的编辑准确率。

结果

单次编辑结果

现有多模态知识编辑方法在MMKE - Bench上的实验结果如表3、表4和表5所示。基于这些结果，有以下几点观察。

FT - LLM是一个强大的基线，而IKE表现出了最佳的可靠性和泛化能力。FT - LLM作为一个强大的基线，其他多模态知识编辑方法如SERAC、MEND和KE的表现与FT - LLM相似，甚至更差。值得注意的是，IKE在三种大语言模型的几乎所有知识编辑任务中都取得了最佳结果，在文本可靠性、图像方面表现出色可靠性和图像泛化能力。这些结果表明，上下文示例显著增强了模型对知识编辑方式的理解，从而带来了更优的性能。
图像局部性比文本局部性更具挑战性，SERAC和MEND在保持局部性方面表现最佳。大多数知识编辑方法在文本局部性方面的结果优于图像局部性，这表明编辑大语言多模态模型（LMMs）往往会更严重地损害视觉知识，导致图像局部性得分较低。SERAC和MEND通过取得较高的局部性结果而脱颖而出。这可能归功于SERAC良好的检索准确性和MEND较少的参数更新。
所有知识编辑方法的泛化能力都较好，但在可移植性方面存在困难。图像泛化（I - gen）结果与图像可靠性（I - rel）结果相似，这表明当前的大型多模态模型可以从同一对象的不同图像变体中提取不变特征。然而，所有现有的多模态方法在可移植性评估中都表现不佳，这凸显了将编辑后的知识应用于新内容的难度。KE在大多数场景中的可移植性表现最佳，这表明基于参数的编辑方法能更有效地应对这一挑战。
视觉语义知识和用户特定知识对大语言多模态模型（LMMs）来说更难编辑。编辑复杂的视觉语义和用户特定知识比编辑视觉实体更具挑战性，这一点从较低的可靠性和可移植性得分可以得到证明。这表明需要更先进的编辑技术来编辑复杂的视觉语义并注入个性化信息，进一步凸显了所提出基准的价值。
现代大语言多模态模型（LMMs）在生成和应用编辑后的知识方面表现出色。在可靠性、泛化性和可移植性评估中，LLaVA - 1.5 优于 BLIP - 2 和 MiniGPT - 4。这种性能提升可归因于其更大的模型规模和更好的指令遵循能力，因为 LLaVA - 1.5 比 BLIP - 2 拥有更多参数，并且比 MiniGPT - 4 有更精细的指令微调设计。这些因素使其在理解和应用不断发展的知识方面具有卓越能力。
没有一种编辑方法能在所有评估标准上都表现出色。总之，没有一种知识编辑方法能在所有四个评估标准上都优于其他方法。基于上下文学习的方法在重现编辑后的知识方面表现强劲，基于记忆的方法在保留无关内容方面表现出色，而基于参数的方法在将编辑后的知识应用于新场景方面表现更好。
所提出的基准比以往的基准更具挑战性。图 4 展示了 MiniGPT - 4 的 IKE 与现有基准的比较，该方法在以往基准的大多数评估原则上都取得了高分，但在我们的基准上表现较差。这表明所提出的基准比之前的基准带来了更大的挑战。

顺序编辑结果

在现实应用中，单独编辑知识是不切实际的，而大量信息的持续更新是必要的。因此，我们进行了顺序编辑实验，并使用微调大语言模型（FT - LLM）、微调对齐（FT - Alignment）和 SERAC 作为编辑方法。排除增量知识编辑（IKE）和知识编辑（KE），因为编辑样本还需要作为测试样本，在这种情况下这是不可行的。

LLaVA - 1.5 的结果如表 6 所示，其中“间隔”指的是顺序长度，“用户数量”是用户的数量，每个用户最多允许有九个个性化项目。可以观察到，FT - LLM 和 FT - Alignment 都倾向于遗忘之前的编辑，这表现为随着间隔的增加，文本和图像的可靠性及泛化性性能下降。相比之下，SERAC 由于其显式记忆能够有效地保留编辑后的知识。此外，FT - Alignment 通常会保留无关的文本输出，而 FT - LLM 则表现出相反的行为。

洞察分析

案例研究：图5展示了一个使用IKE（交互式知识编辑，Interactive Knowledge Editing）和FT - LLM（微调大语言模型，Fine - Tuned Large Language Model）对LLaVA - 1.5进行视觉实体编辑的示例。IKE和FT - LLM都正确回答了文本可靠性问题。然而，IKE还对图像泛化和可移植性问题提供了正确答案，表现优于FT - LLM，凸显了IKE的卓越性能。图6展示了视觉语义编辑问答的案例研究。正如我们所见，编辑后，模型能够基于编辑知识有效回答问题。

结论

在本文中，提出了一个全面的多模态知识编辑基准，名为MMKE - Bench（多模态知识编辑基准，Multimodal Knowledge Editing Benchmark），旨在使用自由形式的自然语言表示来评估现实场景中的各种语义编辑。我们提议使用自由形式的自然语言表示结合图像来表示知识，而不是用三元组来表示。此外，我们提出了三种类型的编辑以适应现实场景。我们在具有代表性的大语言模型（LMMs，Large Multimodal Models）和知识编辑方法上进行了实验，发现大语言模型需要更先进的知识编辑方法。我们希望我们的工作能够激发更多的多模态知识编辑研究。

#CalibQuant

1比特KV量化，10倍吞吐提升无损性能：多模态适用的KV cache量化策略来了，即插即用无需改原模型

在InternVL-2.5上实现10倍吞吐量提升，模型性能几乎无损失。

最新1-bit多模态大模型KV cache量化方案CalibQuant来了。

通过结合后缩放和校准方法，可显著降低显存与计算成本，无需改动原模型即可直接使用。

即插即用、无缝集成

多模态大语言模型在各种应用中展现出了卓越的性能。然而，它们在部署过程中的计算开销仍然是一个关键瓶颈。

虽然KV cache通过用显存换计算在一定程度上提高了推理效率，但随着KV cache的增大，显存占用不断增加，吞吐量受到了极大限制。

为了解决这一挑战，作者提出了CalibQuant，一种简单却高效的视觉KV cache量化策略，能够大幅降低显存和计算开销。具体来说，CalibQuant引入了一种极端的1比特量化方案，采用了针对视觉KV cache内在模式设计的后缩放和校准技术，在保证高效性的同时，不牺牲模型性能。

作者通过利用Triton进行runtime优化，在InternVL-2.5模型上实现了10倍的吞吐量提升。这一方法具有即插即用的特性，能够无缝集成到各种现有的多模态大语言模型中。

动机

当前的多模态大语言模型在实际应用中常常需要处理大尺寸、高分辨率的图像或视频数据，KV cache机制虽然能提升效率，但其显存占用与输入长度（如视觉帧数、图像尺寸等）成正比。

当输入数据的规模增大（例如更多的视觉帧、更高的图像分辨率）时，KV缓存的显存使用量迅速增加，成为限制吞吐量的瓶颈。尽管当前有些针对LLM KV cache量化的方法可以将其压缩至2比特，但这些方法没有针对多模态问题中特有的视觉冗余做分析优化，导致其无法在极限情况1比特下被使用。

本文通过分析多模态大语言模型中的视觉KV cache的冗余，设计了适合多模态模型特有的KV cache量化方案。

方法

本文在通道维度量化的基础上提出了针对反量化计算顺序的后缩放优化方案和针对注意力权重优化的校准策略。

1、通道维度KV cache量化：

一种广泛使用的方法是均匀整数量化。给定一个比特宽度b>0和一个输入值x，它位于某个范围[α,β]内，则将其映射到一个离散整数，计算过程为：

这里的表示取整运算符。最朴素的方法是使用全局统计量来计算这些极值，但是模型性能会受较大影响，作者选择在通道维度上细化统计范围。具体来说，令表示一个K cache，其中和分别表示token的数量和head的维度。定义两个向量如下：

然后，通过上述过程对K中的每一行向量进行量化，其中乘法操作是逐元素进行的。作者同样将这种按通道的量化方法应用于V cache。

2、后缩放KV cache管理策略：

量化后的K cache可以用离散化的整数值、一个缩放因子（scale factor）和一个偏置项（bias term）来表示。在解码阶段，这些值被用于对K cache进行反量化，并随后与Q相乘。然而，通道维度的量化需要为每个通道分别指定不同的缩放因子和偏置向量，这将导致产生大量不同的数值，增加了反量化过程中的计算开销。此外，这种方式也使得CUDA内核中的计算效率降低。作者观察到量化后的K仅具有有限数量的离散取值（例如，对于2比特量化，其取值仅为0、1、2、3），于是提出利用简单的计算顺序重排来减少存储需求，并提高计算效率。具体过程如下：

设是 K cache矩阵中的任意一行向量，

为其进行比特整数量化后的结果，并伴随有逐通道的缩放因子。给定一个查询向量，在生成token过程中注意力计算如下：

其中，符号⋅和⊙分别表示向量之间的内积和逐元素乘积。通道维度上的反量化操作被延迟执行，并高效地集成到后续的向量乘法运算中。因此，这种方法仅存储经过b比特整数量化后的数值，并且避免了全精度反量化计算过程。这种方法确保了低比特反量化执行的高效性。这种后缩放方法也可以自然地应用到V cache的反量化过程中。

3、量化后的校准：

1比特量化的一个限制是经过反量化之后的数值往往会包含大量的极端值。这是因为1比特量化的码本总是包含了最小值和最大值，导致那些接近边界的输入值在反量化后直接映射到了极端值。

因此，重建后的KV cache通常包含过多的大绝对值，最终导致注意力分数产生明显的失真。为了解决这个问题，作者提出了一种量化后校准方法，用于调整softmax之前注意力分数的峰值。具体来说，假设中的所有元素都位于区间内。给定，定义一个线性变换将区间映射到，其表达式如下：

随后对注意力分数进行如下调整：

如下图所示，校准方法（Quant-C，红色）有效减轻了极端值的影响，使调整后的注意分数分布相较于未经校准的量化方法（Quant，蓝色）更接近全精度（Exact）分布。

实验结果

作者将提出的量化方法分别应用在LLaVA和InternVL model上，测试了其在captioning，VQA，Video QA三个不同的任务上的性能。以captioning任务为例，下图展示了本文所提出的方法在cococaption benchmark下和其他方法如KIVI，VLCache的对比。

在不同比特数（8，4，2，1）下，本文提出的方法在大部分测试指标上都优于其他两种方法。例如对于llava-1.5-7b，本文的方法在8比特下达到最高的CIDEr 分数 1.105，与全精度持平，并在1比特下提升至1.109，超过了VLCache（1.053）。同样地，对于InternVL-2.5-26B，本文的方法在4比特和2比特下分别取得了最高的CIDEr分数1.32和1.313，均优于VLCache和KIVI。

Runtime分析

为了展示本文提出的量化方法对解码效率的影响，作者使用InternVL-2.5系列模型，将所提出的1比特量化方法与16比特基线进行了吞吐量评估（即每秒生成的token数）。作者考虑了两种视觉token长度的情况：n=3328和8192。作者将GPU最大内存从5GB变化到30GB，并在每种内存限制下，寻找能够容纳的最大batch size，测量解码阶段的吞吐量。

如下图展示，1比特量化方法在所有显存预算下始终优于基线方法。例如，当n=3329且使用80亿参数模型时，本文的方法在5GB显存下实现了126.582tokens/s的吞吐量（基线为11.628tokens/s），在30GB下提升至459.016tokens/s（基线为40.816tokens/s）。这意味着相比基线，本文方法的吞吐量提升约为9.88×到11.24×，充分展示了该方法在受限显存条件下显著提升解码速率。

总结

本文探讨了多模态大语言模型中视觉KV cache的压缩方法。简单地将量化应用到极低比特数常常会引发分布偏移，导致模型性能下降。为了解决这一问题，本文提出了一种新颖的校准策略，作用于softmax之前的注意力分数，有效缓解了量化带来的失真。此外，本文还引入了一种高效的通道维度后缩放技术以提高计算和存储效率。

作者在InternVL和LLaVA模型系列上，针对COCO Caption、MMBench-Video和DocVQA等基准任务进行了实验，结果验证了所提出方法的有效性。作者利用Triton实现了本文所提出的方法，runtime分析表明本文提出的方法相较于全精度模型有大约10倍的吞吐量提升。

论文标题：CalibQuant:1-Bit KV Cache Quantization for Multimodal LLMs

论文地址：https://arxiv.org/abs/2502.14882

代码地址：https://github.com/insuhan/calibquant

#Vision-R1

激发多模态大模型的推理能力

实验表明，Vision-R1-7B 参数规模的模型便能在多项数理推理基准上逼近甚至超越 70B+ 大模型的表现。

论文：https://arxiv.org/pdf/2503.06749

GitHub：https://github.com/Osilly/Vision-R1

数据集：https://huggingface.co/datasets/Osilly/Vision-R1-cold

机构：华东师大、小红书

Vision-R1 提出了一条“冷启动+强化学习”相结合的训练路径，为多模态大模型（MLLM）注入类人式思维与推理能力。具体而言，先通过“模态桥接（Modality Bridging）”方法大规模生成高质量多模态推理数据并进行冷启动初始化；随后利用渐进式思维抑制训练（PTST）与强化学习相结合，逐步引导模型掌握正确且复杂的推理过程。实验表明，Vision-R1-7B 参数规模的模型便能在多项数理推理基准上逼近甚至超越 70B+ 大模型的表现。

图1。左图：我们的Vision-R1流程。首先利用现有的MLLM和DeepSeek-R1获得高质量的Multimodal CoT数据集，将其作为基础MLLM的冷启动初始化数据，从而得到经过冷启动后的Vision-R1-CI，然后在Vision-R1-CI上进行强化学习（RL）训练，最终获得具备推理能力的MLLM，即Vision-R1。

右图：我们观察到，直接在MLLM上应用RL无法有效地激发出强大的推理能力（参见(C)和(D)）。未经初始化直接通过RL训练的Vision-R1-Zero难以从有限的数据中泛化（参见(E)、(F)，特别指出Vision-R1-Zero应用了format reward function）。而Vision-R1-CI则面临“过度思考优化问题（Overthinking Optimization Problem）”，偏好较短的CoT推理序列，即正确的推理过程主要集中在较短的CoT推理序列中（参见(A)）。在后续的RL训练中，我们观察到推理步骤虽然有所延长，但性能却出现下降（参见(D)和(E)），这使得优化尤为困难。而Vision-R1则首先在RL训练下缩短CoT，以精炼正确的思考过程。PTST使Vision-R1逐步获得更为复杂的推理过程（参见(C)、(D)和(E)），性能得以提升，因此我们的Vision-R1以70亿参数实现了与具有700亿以上参数的最强MLLM相当的性能（参见(B)）。注意，Vision-R1使用了不同颜色的线条来表示PTST中的不同阶段。

图2。整体的数据生成流程，融合了我们的模态桥接（Modality Bridging）方法。首先将多模态数据送入MLLM，以获取包含图像描述（caption）和推理过程的“Pseudo-CoT”，并将其与原始的图像-问题对一起作为MLLM的输入，以生成详细的文本描述。通过这种模态桥接方法，文本描述向DeepSeek-R1提供了全面的信息，有助于生成高质量的CoT推理过程。这些推理过程经过后处理，与原始数据整合后，最终形成Vision-R1-cold数据集。

表1。在不同的多模态数学基准上，与当前最先进（SoTA）的MLLM（包括闭源、开源的通用型/数学型/推理型MLLM）进行的综合比较。“Avg.”表示所有基准上的平均表现。对于MathVista基准，我们特别在三个与数学推理密切相关的子任务上对所有模型进行了比较：几何推理（GEO）、代数推理（ARI）、几何问题求解（GPS）和数学文字题（MWP）。“ALL”表示在MathVista基准上的平均得分。在下文所有表格中，最好的结果用粗体标出，次优结果用下划线标出。我们的Vision-R1在数学推理任务中表现出卓越的性能，大幅超越了基线方法。

近两年，大模型（LLM）在各个领域大放异彩，从语言理解到图像识别，都出现了突破性的进展。然而，想要让模型真正地“像人一样”去进行推理、思考与解释，仍是一项极富挑战性的任务。以往我们大多在文本领域探索如何“让模型有自己的思维过程”（如链式思考 Chain-of-Thought），而在多模态领域（尤其是图文结合的情境）——如何把视觉信息与语言信息进行深度融合并激发复杂的推理能力，还远远没有走到头。

为此，本文针对多模态大模型（Multimodal LLM，简称 MLLM）的“推理能力激发”展开研究，并提出了一个全新的解决方案，名为 Vision-R1。它在视觉和语言的结合中，实现了用“强化学习（RL）+ 冷启动（Cold Start）”的方式，去让模型自发地产生更复杂、更类似于人类思考的推理链。

一、研究动机

语言大模型的推理火热，但多模态推理仍是短板

近年来，纯文本领域的推理方法（如“链式思考”、Tree-of-Thought 等）发展迅速，证明了在文本任务中，通过显式的多步推理，可以极大提升模型在复杂问题上的表现。然而，这些方法大多只聚焦在文字输入上，很少考虑视觉信息。多模态模型若只停留在“根据图像简单识别+给出答案”，常常难以在高难度推理场景（如数学场景的图文结合推理、几何题带图解等）表现优异。

直接用强化学习在多模态模型上激发“自发思考”并不容易

在纯文本模型上，已有工作（如 DeepSeek-R1）表明，利用强化学习去激发模型自我生成更复杂的推理链，确实有效。但想直接将这种强化学习方法“照搬”到多模态模型，会面临数据稀缺、模型过度胡乱生成长推理链等问题，导致效果不佳。因此，需要一个辅助的冷启动初始化步骤来帮助模型先学会“如何思考”，然后再进行强化学习，以提升推理过程的正确性与稳健性。

缺乏大规模高质量多模态推理数据

人工标注的图文推理数据往往只包含简单的“图像描述+答案”，很少显式写出内在的思考过程，即便有也通常比较“形式化”，缺乏像人类一样的“自我质疑”“多步检验”。如何构建能体现“人类式推理”的多模态数据，是推动 MLLM 学习复杂推理的关键。

二、主要挑战

直接强化学习难以激发

论文最先尝试了一个直觉做法：在没任何预热的情况下，直接对多模态模型进行强化学习训练，企图让模型自发生成复杂的推理过程。结果发现，模型难以从零开始形成准确且复杂的推理链，往往一味追求“产出长推理”却忽视了正确性，性能反而出现明显下降。

存在“过度思考”优化难题

如果在多模态模型上先通过监督学习学到一些高质量的推理，再做强化学习时，会出现另一类问题：模型往往倾向于生成过长的思考过程，其中充斥着很多错误或冗余的步骤，这种“思考过度”会让训练过程变得不稳定，难以成功优化到正确且高效的推理。

高质量数据匮乏

想让多模态模型学会“像人一样思考”，需要兼具视觉、语言乃至数学场景下的复杂推理示例，但纯人工大规模标注成本非常高。如何在极少或无人工干预的情况下，获得高质量、多样化的“多模态推理数据”，也是一个难题。

三、方法与技术亮点

论文提出了一个名为 Vision-R1 的多模态推理模型训练流程，其核心包含以下步骤：

冷启动初始化（Cold-start Initialization）

• 首先，作者提出了一个多模态推理数据生成方法，称为“Modality Bridging（模态桥接）”：

先让已有的多模态大模型（MLLM）从图片+文字问题对中，生成一个初步的“伪链式推理”（Pseudo-CoT），即包含图像描述和推理思路的文本，并将其与原始的图像-问题对一起作为MLLM的输入，以生成详细的文本描述。
将详细的文本描述输入到一个强大的纯文本推理模型 DeepSeek-R1，进行二次加工和过滤，得到质量更高、更接近人类思维过程的详细推理文本。
最终拿到一批既含有图像又配对上“自然思维过程”的高质量多模态推理数据（约 20 万条），称为 Vision-R1-cold dataset。

• 接着，把预训练的多模态大模型（比如 Qwen-2.5-VL）用上述数据进行一次监督微调（SFT），让模型先学会自然且复杂的推理格式和思路，得到 Vision-R1-CI（CI 即 Cold-Start Initialization）。

渐进式思维抑制训练（Progressive Thinking Suppression Training, PTST）

• 论文中指出，Vision-R1-CI 虽然在“复杂思维”上有了初步的雏形，但一上来就让它在强化学习时生成非常长的推理，会出现“越思考越出错”的问题，从而损害最终的性能。

• 为此，作者提出 PTST：在强化学习的前期，故意“抑制”推理长度，要求模型产出相对短且正确性较高的思维链，先保证能学到“正确”的思路；在后期再逐渐放松长度限制，让模型有机会学习更复杂、更丰富的思维过程。

• 整个强化学习过程使用 “Group Relative Policy Optimization (GRPO)” 算法进行多次对比采样，并结合“格式 + 答案正确性”两种奖励，来不断优化模型的推理能力。

多阶段训练 + 硬格式-结果奖励 (Hard Formatting Result Reward)

• 文中设计了一个“硬格式-结果奖励”函数：只有在推理输出的格式符合要求，并且最终答案正确时，才给模型高分，否则就是 0 分。这种“高标准奖励”在前期能强制模型集中精力先学好正确答题方式，以减少随机的冗长推理。

• 在多阶段的 PTST 训练后，作者最终得到 Vision-R1。相较于直接用 RL 或者单纯的 SFT，Vision-R1 凭借先冷启动、后渐进强化学习的策略，大幅提升了多模态复杂推理性能。

四、主要成果

效果对比

• 在多项数理推理（包含图文几何推理、方程推导等）基准上，Vision-R1-7B 尺度的模型，已经能与一些 70B+ 参数的大模型旗鼓相当。例如，在 MathVista、MathVerse、MM-Math 等基准上，Vision-R1-7B 都取得了显著提升，在MathVista上，Vision-R1-7B 73.5分，接近OpenAI o1的73.9。某些子任务（如几何推理）甚至逼近或超越现有最优水平。

• 说明只要“冷启动 + 强化学习”得当，中小参数量的多模态模型，也能产生相当强的推理能力。