从高效多模态模型到世界模型：综述

最新推荐文章于 2025-04-17 20:24:56 发布

三谷秋水

最新推荐文章于 2025-04-17 20:24:56 发布

阅读量1.5k

点赞数 27

分类专栏：大模型计算机视觉智能体文章标签：深度学习人工智能计算机视觉 transformer 机器学习

本文链接：https://blog.csdn.net/yorkhunter/article/details/143870543

版权

大模型同时被 3 个专栏收录

722 篇文章

订阅专栏

智能体

475 篇文章

订阅专栏

计算机视觉

426 篇文章

订阅专栏

24年7月来自复旦大学的论文“From Efficient Multimodal Models to World Models: A Survey”。

多模态大模型 (MLM) 正成为一个重要的研究重点，它将强大的大语言模型与多模态学习相结合，以跨不同数据模态执行复杂任务。本综述探讨 MLM 的最新发展和挑战，强调了它们在实现通用人工智能和作为世界模型途径方面的潜力。该文概述多模态思维链 (M-COT)、多模态指令调优 (M-IT) 和多模态上下文学习 (M-ICL) 等关键技术。此外，还讨论多模态模型的基本技术和具体技术，重点介绍它们的应用、输入/输出模态和设计特点。尽管取得了重大进展，但统一的多模态模型的开发仍然难以实现。本文讨论 3D 生成和具身智能的集成以增强世界模拟能力，并提出结合外部规则系统来改进推理和决策。最后，概述未来的研究方向，以应对这些挑战并推动该领域的发展。

世界模型

世界模型是目前AI领域最热门的研究方向之一，从OpenAI到Meta，各大AI公司都在努力研发世界模型。世界模型的概念可以追溯到强化学习和机器人控制领域。传统上，强化学习算法依赖于智体在真实环境中通过反复试验进行学习，这不仅成本高昂，而且有时不可行。为了突破这些限制，研究者开始探索在内部环境中进行模拟和学习的方法。Jurgen[1]描述了一种在无监督环境中快速训练的方法，使用生成循环神经网络（RNN）压缩时空表示，模拟常见的强化学习环境，Jurgen将此称为世界模型。在AI研究中，世界模型的提出旨在将这个方向与另一个研究重点区分开来：智体。

世界模型之所以受到广泛关注，得益于 Yann LeCun 的工作 [2]。Yann LeCun 提到，人类或动物的大脑似乎运行着一个世界的模拟，他称之为世界模型。这个模型帮助人类和动物对周围环境做出预测。LeCun 举了一个例子：婴儿在出生后的头几个月里，通过观察世界来学习基本的知识，比如看到物体下落时理解重力。这种预测接下来会发生什么的能力来自于常识，LeCun 认为这是智能的本质。Sora 模型是 OpenAI 开发、用于生成视频的模型，它利用多模态学习技术，通过结合文本和图像数据来生成逼真的视频内容。在最近的研究中，OpenAI 在报告中将 Sora 定义为一个能够生成视频的世界模拟器，并认为 Sora 的技术是一种很有前途、构建通用世界模型的方法。

综上所述，可以清晰地定义一个世界模型，如图所示。世界模型是指能够通过学习环境中的各种数据来预测和模拟环境状态变化的模型。与传统数据测试场景中数据不变不同，世界模型的数据可以独立变化，甚至生成测试数据集中没有的数据。世界模型的核心功能在于反事实推理，即推断出以前没有遇到过的决策结果。人工智能研究人员对世界模型的追求旨在实现这种反事实推理，这是人类的自然能力，而目前的人工智能却缺乏这种能力。

请添加图片描述

通向世界模型的途径

目前，开发世界模型的主要途径有两种：自回归方法和 JEPA（联合嵌入预测架构）方法。自回归模型在生成领域占有重要地位，其著名代表包括 GPT 系列和 Sora。这些模型基于 Transformer 架构 [3]，逐步生成数据，每个输出都取决于前一个隐藏状态。这种增量生成使模型，能够捕获上下文信息，从而产生连贯且合乎逻辑的序列。自回归模型具有强大的上下文理解能力，并且易于训练，因此成为世界建模领域的主导方法。通过在生成过程中利用先前生成的内容，自回归模型表现出理解和保持上下文一致性的娴熟技能，从而产生更连贯、更有意义的输出。自回归模型的训练过程相对简单，涉及基于已知序列数据的逐步预测和优化，这有助于它们在对大规模数据集进行训练时获得令人称赞的性能。虽然自回归模型在自然语言处理任务中表现出色，通过预训练和微调生成高质量的文本段落，但批评者认为这些模型缺乏现实世界的常识，被大量信息所掩盖。例如，与大语言模型所需的大量训练数据相比，婴儿只需很少的练习就能了解世界是如何运转的，并能预测结果。

对此，Meta 提出 JEPA 框架。JEPA 的核心思想是分层规划，这是一种决策和控制方法，特别适合处理复杂任务和大规模问题。这种方法涉及将问题分解为多个级别，每个级别解决不同抽象级别的子任务，从而简化整体问题解决过程。 LeCun 举例说明：从纽约去北京，需要先到机场，再坐飞机去北京，总成本函数代表从纽约到北京的距离。解决这个问题需要将任务分解为毫秒级的控制，找到最小化预测成本的动作序列。他认为，所有复杂的任务都可以通过这种分层方法来完成，其中最重大的挑战是分层规划。

JEPA 模型通过一系列编码器提取世界状态的抽象表示，并使用不同级别的世界模型预测器来预测不同时间尺度的各种状态。受人脑以分层方式理解和响应环境能力的启发，JEPA 使用分层架构将复杂任务分解为多个级别，每个级别处理不同抽象级别的子任务。这种方法使 JEPA 能够有效地捕捉和预测复杂动态系统的变化，从而提高模型对长时间跨度和多尺度数据的处理能力。其独特的分层预测机制，不仅提升对环境状态的理解和预测准确率，也提高了处理大规模、多样化数据的适应性和鲁棒性，在很多实际应用中展现出显著的优势。

综上所述，可以将世界模型的路径概括为两条，规则驱动和数据驱动。

多模态模型

无论世界模型通过哪种路径，多模态模型都是不可或缺的一部分。多模态模型是指能够处理和理解不同模态数据的机器学习模型，如图像、文本、音频和视频[4]，[5]。人与现实世界的交互涉及多种模态信息，包括语言、视觉和音频。因此，世界模型必须处理和理解多种形式的数据，这意味着它们必须具备多模态理解能力。此外，世界模型模拟动态环境变化以做出预测和决策，需要强大的多模态生成能力[6]。简单地说，世界是多模态的，世界模拟器必须能够接受和生成多模态信息。本质上，世界模型是通用模型（General-Purpose Models）。

多模态模型的研究大致可以分为几种技术途径：对齐、融合、自监督和噪声添加。基于对齐的方法将不同模态的数据映射到一个共同的特征空间进行统一处理。融合方法将多模态数据整合到不同的模型层中，充分利用每个模态的信息。自监督技术在未标记的数据上对模型进行预训练，从而提高各种任务的性能。噪声添加通过在数据中引入噪声来增强模型的鲁棒性和泛化能力。

结合这些技术，多模态模型在处理复杂的现实世界数据方面表现出强大的能力。它们可以理解和生成多模态数据，模拟和预测环境变化，并帮助智体做出更精确和有效的决策。因此，多模态模型在发展世界模型中起着至关重要的作用，标志着迈向通用人工智能（General AI）的关键一步。

多模态架构

通用多模态架构和训练策略

在多模态大模型（MLM）领域，研究人员提出了各种架构技术来实现和优化多模态模型的性能和应用。如图展示了一个用于处理文本、视觉和音频模态数据的通用架构。在这个架构中，每个模态的数据首先通过其各自的编码器（文本编码器、视觉编码器、音频编码器）进行处理以提取特征。然后通过对齐模块（文本对齐、视觉对齐、音频对齐）对特征进行规范化和匹配，然后通过投影模块（文本投影、视觉投影、音频投影）将特征映射到公共特征空间。最后，扩散模块（文本扩散、视觉扩散、音频扩散）进一步传播和调整特征。大语言模型（LLM）集成这些多模态特征来处理和生成复杂的跨模态任务。

请添加图片描述

这种设计允许在统一的特征空间中融合和处理不同模态的数据，增强多模态数据的理解和生成能力。专门的编码、对齐、投影和扩散模块使 LLM 能够高效处理和集成文本、视觉和音频数据，从而提高模型的整体性能和适用性。

端到端学习是多模态大模型的重要训练策略，其中整个模型作为一个整体进行优化，而不是分阶段进行优化。与分阶段训练相比，端到端学习消除了每一步的中间数据处理和模型设计。然而，多模态大模型的端到端学习有三个主要缺点。

最大的两个缺点是对大量数据和计算能力的需求。直接的端到端学习需要大量的多模态数据集和计算资源。例如，OpenAI 使用大约 2.15e25 FLOPs、大约 25,000 个 A100 GPU，训练了 90 到 100 天，GPT-4 训练的效率（MFU）约为 32% 到 36%，其中包括大约 1.3 万亿个 token。对于完整的多模态训练，这些要求至少会翻倍。

最后一个缺点是难以建立复杂的关系。手动设计的模块通常会注入人类的先验知识，例如编码器，解码器，对齐层等，这可以简化模型。例如，如果旨在通过视频检测微表情，模型设计通常涉及关键帧选择，人脸裁剪，面部动作单元识别，结合微表情理论和统计学。直接建立图像和微表情之间联系的端到端模型显然具有挑战性和复杂性。

鉴于这些挑战，大多数多模态大模型并不完全使用端到端训练。如图展示大模型训练中使用的两种训练策略。左侧显示冷启动训练策略，其中模型从头开始训练。它首先使用文本、视觉和音频编码器对来自不同模态的数据进行编码，然后通过扩散模块（文本扩散、视觉扩散、音频扩散）进行特征传播，然后使用大语言模型（LLM）将它们集成，最后通过投影模块（文本投影、视觉投影、音频投影）投影特征以生成输出。该过程强调逐渐扩展和调整特征，确保有效集成和处理多模态数据。右侧显示热启动训练策略，其中模型从一些预训练开始。预训练的LLM直接通过投影模块（文本投影、视觉投影、音频投影）处理输入数据，生成初始特征，并通过扩散模块（文本扩散、视觉扩散、音频扩散）对其进行细化。与冷启动相比，热启动利用预训练模型中的现有知识，提高训练效率和初始性能，适用于具有相关领域知识或基础模型的场景。这种方法使模型能够快速适应新任务并在训练早期表现出高性能。

请添加图片描述

通用多模态编码器

在视觉编码器方面，与主流 MLM 实践一致，通常选择预训练的 CLIP 模型进行视觉编码，因为它可以有效地对齐视觉和文本输入的特征空间。鉴于 MLM 参数中视觉编码器的比例相对较小，与语言模型相比，轻量级优化不那么重要。通过组合多个视觉编码器，可以捕获广泛的视觉表示，从而增强模型理解。例如，Cobra [65] 将 DINOv2 和 SigLIP 集成为其视觉主干，将 DINOv2 的低级空间特征与 SigLIP 的语义属性相结合。SPHINX-X [66] 使用两个视觉编码器 DINOv2 和 CLIP-ConvNeXt，使用不同的方法和架构进行预训练，以提供互补的视觉知识。高效的视觉编码模型使用token处理等技术来管理高分辨率图像，而不会产生过多的计算负担。高分辨率图像被输入到轻量级视觉编码器中，调整大小并分割以生成初始视觉tokens。这些tokens由视觉 tokens压缩模块压缩，以减少计算和存储开销。压缩后的tokens由高效的视觉语言投影仪投影到语言模型的特征空间中，与文本标记对齐。小型语言模型组合并处理这些对齐的视觉特征和文本tokens，生成语言响应。LLaVA-UHD [67] 引入了图像模块化策略，将图像分成更小的片段以进行高效编码，减少计算负荷，同时保持感知能力。视觉编码器的进步还包括 MAE（掩码版自动编码器）[68]，这是一种自监督学习方法，通过掩码和重建输入图像的部分来学习图像表示。

文本编码器是多模态模型的另一个重要组成部分，用于处理和理解文本数据。Transformer 是一种常见的文本编码架构，其自注意机制可以有效地捕获文本中的长程依赖关系。 BERT（Bidirectional Encoder Representations from Transformers）是一个基于 Transformers 的预训练模型，通过对大规模语料库进行双向训练生成高质量的文本表示，广泛应用于各种自然语言处理任务。

在音频编码中，AudioCLIP [69] 是一种有效的选择，它通过结合音频和文本信息来生成音频表示。AudioCLIP 使用类似于 CLIP 的架构，通过对比学习在同一特征空间中对齐音频、文本和图像特征。该方法增强了音频数据表示，并提高了音频文本和音频图像任务中的多模态模型性能。

通用多模态生成模型

模型的生成过程，可以描述为将从先验分布 p/z(z) 中提取的潜样本 z 转换为与目标数据分布 p/data(x) 一致的样本 x′。具体而言，潜变量 z 通过参数函数传递，通常以神经网络的形式实现，学习将先验分布映射到目标数据分布。然后，转换后的输出 x′ 被视为一个合成实例，它在统计上模拟原始数据分布的特征，可能对应于各种模态，例如图像、视频、3D 表示、音频或文本。

在多模态大模型 (MLM) 领域，生成模型在合成新数据样本方面起着至关重要的作用。主要的生成方法包括生成对抗网络 (GAN) [70]、变分自编码器 (VAE) [71]、基于流的模型、扩散模型和自回归模型，如图所示。

请添加图片描述

生成对抗网络 (GAN) [70]：GAN 由两个神经网络组成：生成器和鉴别器。生成器从潜变量 z 生成假样本 x′，试图欺骗鉴别器，后者区分真实样本 x 和生成的样本。GAN 广泛应用于图像和视频生成，以及高保真音频和文本创作。

变分自编码器 (VAE) [71]：VAE 包括编码器和解码器。编码器将输入数据 x 映射到潜空间 z，学习均值 μ 和方差 σ 以生成潜变量。解码器从潜空间 z 重构数据 x′。 VAE 旨在最大化数据似然度，同时保持生成多样性，常用于图像合成和生成多样化目标。

基于流的模型 [72]–[74]：流模型使用一系列可逆变换在数据空间 x 和潜空间 z 之间进行映射。正向流将输入数据 x 映射到潜变量 z，而反向流从潜变量 z 重建数据 x′。流模型的优势在于精确建模数据似然度，常用于图像和视频生成等高维数据。

扩散模型 [75]：扩散模型包括正向过程和反向过程。正向过程将数据 x/0 逐渐转换为噪声状态 x/T ，而反向过程将 x/T 去噪回数据 x/0。扩散模型学习逆转噪声过程，通过去噪从简单分布中生成高质量样本，特别适用于高分辨率图像生成和复杂的多模态场景。

自回归模型：自回归模型按顺序生成数据，每一步的输出取决于前一步的结果。该模型根据先前的点 x/t−1、x/t−2、…、x/1 生成每个数据点 x/t。自回归模型将数据的联合概率分布分解为条件概率乘积，广泛应用于文本生成、语言建模以及基于序列的任务，如音频和视频生成。

基于这些基本架构，最近出现了许多重大进展。基于生成模型的文本-到-图像生成主要遵循两种范式：扩散模型和基于 VIT 的模型 [76]，[77]。由于易于训练，扩散模型已成为主流范式。在扩散框架内，有像素-级和潜变量-级视频扩散模型。扩散模型使用 UNet 预测噪声来生成图像，尽管该过程需要迭代多个时间步骤（通常表示为 T），并且随着 T 的增加变得非常耗时。此外，扩散模型无法控制图像生成，只能随机生成。为了解决这些问题，潜扩散模型 (LDM) 提出了一种两阶段图像生成模型：第一阶段训练图像编码器-解码器，第二阶段生成图像 [78]。具体而言，LDM 通过将图像缩小到更低的比例并添加条件控制模块来简化计算，将图像和文本特征注入 UNet 以指导图像生成。谷歌的 Imagen [79] 进一步展示预训练大模型在文本-转-图像任务中的优势。该模型通过动态采样改进了噪声生成，并引入了一个轻量级的 UNet 模型。级联扩散模型 [80] 首先生成低分辨率图像，然后逐步上采样到高分辨率，提高图像清晰度和质量。 RePaint [81] 提出一种无需训练即可进行图像修复的方法。DALLE 2 [82] 使用 CLIP 模型的逆操作 (unCLIP) 进行图像生成，由图像解码器和先验模型组成，包括自回归和基于扩散的方法。SDXL [83] 进一步优化了扩散模型，通过级联 Base 和 Refiner 模型来改进高分辨率图像生成。

目前基于 LLM 的视频编辑遵循与 Instruct Pix2Pix [84] 类似的方案，使用 LLM 更有效地构建训练数据。Vid2Vid [85]–[87] 是一项涉及使用 LLM 构建训练数据的工作。该方法使用 LLM 模型生成合成视频指令对，然后训练编辑模型使用自然语言指令执行受控视频编辑。DiT（带有 Transformers 的可扩展扩散模型）[88] 是继 Sora 之后被广泛讨论的模型，它提出使用 Transformers 代替 UNet 结构来增强生成。

多模态优化

多模态指令调优 (M-IT)

多模态指令调优 (M-IT) 是一种针对包含多模态数据的指令或任务描述对模型进行微调的技术，从而增强模型理解和执行多模态任务的能力。指令调优涉及在以指令格式组织的数据集上对预训练大语言模型 (LLM) 进行微调，从而提高其对未见过任务的泛化能力 [89]、[90]。该方法已成功应用于 ChatGPT、Instruct-GPT、FLAN [91] 和 OPT-IML [92] 等自然语言处理模型。

传统的监督微调依赖于大量特定于任务的数据，而提示方法通过提示工程减少了对大规模数据的依赖，尽管零样本性能有限。与这些方法不同，指令调优强调学习泛化到未见过的任务，并且与多任务提示密切相关。具体来说，为多模态指令调优构建的数据集包括具体任务、输入的多模态信息和预期的模型输出。通过对这些多模态指令进行调优，模型可以更好地理解如何利用多模态能力来满足预期。在将指令调优扩展到多模态指令调优时，数据和模型需要进行调整，以考虑不同模态数据的特点及其在联合学习中的相互作用。例如，处理视觉-文本联合任务需要模型同时理解文本描述和相关图像信息。通过设计多模态任务描述，整合图像和文本作为输入，模型使用多模态对齐技术来学习多模态特征。M-IT 的核心目标，是微调模型以泛化和处理各种应用场景中未见过的任务，从而表现出更强的适应性和泛化能力。

多模态上下文学习（M-ICL）

多模态上下文学习（M-ICL）通过在训练或推理期间提供多模态上下文信息来增强模型对多模态数据的理解和处理 [93]，[94]。上下文学习 (ICL) ，是大语言模型 (LLM) 的一项重要且涌现的功能 [95]。ICL 通过类比学习实现小样本学习和复杂任务解决，不同于需要大量数据来学习隐式模式的传统监督学习范式。在 ICL 设置中，LLM 从少量示例和可选指令中学习，推广到新问题以解决复杂且未见过的任务。ICL 无需训练，可以灵活地集成到不同框架的推理阶段。

在多模态大模型 (MLM) 的背景下，ICL 扩展到更多模态，形成多模态上下文学习 (M-ICL)。在推理过程中，可以通过向原始样本添加演示集（一组上下文样本）来实现 M-ICL。具体而言，M-ICL 和 M-IT 之间的区别在于构建具有多模态输入输出信息的数据集，这些信息是上下文相关信息，而不是预期的模型响应。通过指令和提供的演示，LLM 理解任务目标和输出模板，生成预期答案。在教授 LLM 使用外部工具的场景中，示例通常只包含文本信息，并且更为详细。这些示例由完成特定任务的顺序步骤组成，与思维链 (CoT) 密切相关。结合这些技术，M-ICL 扩展了模型处理多模态任务的能力，并增强了它们在各种应用场景中的泛化和适应性。

多模态思维链 (M-COT)

大语言模型 (LLM) 在复杂推理中表现出色，特别是通过使用思维链 (CoT) 提示来生成中间推理链来推断答案 [4]，[96]。然而，现有的 CoT 研究主要集中在语言模态上。多模态思维链 (M-COT) 是一种使模型能够通过逐步推导和连贯思考进行复杂推理和决策的方法。如前文所述，CoT 是“一系列中间推理步骤”，在复杂的推理任务中被证明是有效的。CoT 的核心思想是促使 LLM 不仅输出最终答案，而且还输出导致答案的推理过程，类似于人类的认知过程。受自然语言处理 (NLP) 领域成功经验的启发，一些研究工作已将单模态 CoT 扩展为多模态 CoT (M-CoT)。

Zhang [97] 首次将语言关系推理应用于多模态模型。M-COT 是一个两阶段框架，通过微调语言模型来整合视觉和语言表征，从而更好地执行多模态语言关系推理。在第一阶段，模型通过结合视觉和语言输入进行微调，以理解和处理多模态数据。在第二阶段，模型利用这些多模态表示逐步生成中间推理步骤，在复杂任务中做出连贯、理性的决策。通过这种方法，M-COT 不仅增强了模型在多模态任务中的推理能力，而且扩展了其在复杂场景中的应用范围，使其能够更有效地处理融合图像和文本信息的任务。

基于当前的技术，从多模态模型构建世界模型主要有两种方法。第一种方法依赖于基于规则的方法，只需要少量数据。第二种方法以 OpenAI 为例，涉及使用大型数据集。

3D 生成和规则约束

3D 生成是多模态生成中的一个重要领域，生成逼真的 3D 模型并在生成过程中结合规则约束来创建类似于元宇宙那样高度逼真且可控的虚拟环境，从而实现世界模拟器。

3D 生成技术主要包括显式表示、隐式表示和混合表示。显式表示包括点云和网格，它们通过精确描述目标的几何形状来生成 3D 模型。隐式表示，例如神经辐射场 (NeRF) [113] 和隐式表面，通过学习数据的潜表示来生成高质量的 3D 内容。混合表示结合显式和隐式特征，保留几何细节，同时提供灵活的表示功能。

具体的生成方法包括生成对抗网络 (GAN)、扩散模型、自回归模型、变分自编码器 (VAE) 和归一化流。这些方法通过各种机制生成逼真的 3D 数据。例如，GAN 通过生成器和鉴别器之间的对抗训练来生成高质量的 3D 模型；扩散模型通过模拟数据的扩散过程来生成新样本；自回归模型通过逐步预测每个元素的条件概率来生成 3D 目标；VAE 通过学习输入数据的潜表示来生成数据；归一化流使用一系列可逆变换将简单分布映射到数据分布以进行数据生成 [114]。基于优化的生成方法使用优化技术在运行时生成 3D 模型，通常结合预训练网络根据用户指定的提示（如文本或图像）优化 3D 模型。例如，文本-到- 3D 技术使用文本提示来指导 3D 内容生成；图像-到- 3D 技术从指定的图像重建 3D 模型，保留图像外观并优化 3D 内容几何形状。程序生成使用预定义的规则、参数和数学函数来创建 3D 模型和纹理，包括分形几何、L 系统、噪声函数和细胞自动机 [115]、[116]。

生成式新视图合成，使用生成技术从单个输入图像预测新视图，根据条件 3D 信息生成新内容。基于 Transformer 的方法使用多头注意机制从不同位置收集信息进行新视图合成；基于 GAN 的方法使用 3D 点云作为表示，合成缺失区域并通过 GAN 生成输出图像。这些方法各有优势和应用场景，研究人员可以根据具体需求选择合适的 3D 生成技术 [117]、[118]。

尽管 3D 生成质量和多样性有了显著提升，但目前的挑战包括评估、数据集大小和质量、表示灵活性和可控性。多模态大模型需要更深的网络和更大的数据集进行预训练。多模态大模型往往在视觉和语言模态上进行预训练，未来的扩展可以包括图像、文本、音频、时间、热像等更多模态，基于多模态的大规模预训练模型具有更为广阔的应用潜力。

融入更多的外部规则系统

在构建世界模拟器的过程中，融入更多的外部规则系统是一种至关重要的途径。人类依靠客观世界中的数学、物理、化学和生物工具，利用一系列定理推导出尚未发生事件的结果并进行预测。比如，踢球，它会以弧线飞行。这些基于物理规律的预测有助于理解和操作现实世界。
同样，规则系统可以帮助模型实现状态记忆和反馈。假设一场洪水冲垮了堤坝，模型需要根据规则推断后续的洪水状态。这些规则源于人类的常识和定理库，是从长期的实践和经验中总结出来的。通过将这些结论注入模型，模型可以用更少的数据推断出合理的结果。

在构建多模态大模型时，融入外部规则系统可以显著增强模型理解和推理能力。比如，利用数学定理，模型可以精确计算目标的运动轨迹；利用物理定律，模型可以预测复杂的环境变化；利用生物学知识，模型可以模拟生态系统的动态变化。这些规则系统为模型提供了框架，使其能够更准确地模拟现实世界。

在实际应用中，具身智能机器人可以从这些规则系统中受益。当机器人在现实生活中收集大量多模态数据时，这些数据将与注入的规则系统相结合，增强机器人的预测和决策能力。例如，当机器人检测到水位上升时，它可以根据物理和地理知识预测潜在的洪水范围和影响，并采取相应的行动。

通过结合这些外部规则系统，多模态大模型可以在各种应用场景中表现出色，并实现更复杂、更详细的任务。这种方法不仅增强了模型智能，也为未来的发展提供了更坚实的基础。

目前，多模态大模型（MLM）的发展尚处于起步阶段，在相关技术和具体应用方面都存在许多挑战和研究问题。

现有MLM的感知能力有限，导致视觉信息不完整或不正确，进而引起后续推理错误。这种情况可能是由于当前模型在信息容量和计算负担之间的妥协造成的。例如，降低图像分辨率和简化特征提取可能会导致信息丢失，影响模型的整体性能。MLM的推理链比较脆弱，特别是在处理复杂的多模态推理问题时。即使是简单的任务，有时也会因为推理链断裂而导致答案错误。这表明模型在对不同模态信息的理解和链接方面还有改进的空间，需要更稳定、更连贯的推理机制来提高准确性和可靠性。

MLM的指令跟随性需要进一步提高。即使经过指令微调，一些MLM仍然无法对相对简单的指令输出预期的答案。这表明目前的微调方法和数据集还没有完全覆盖模型所需的各种指令场景，需要进一步优化和扩展训练数据。

目标幻觉问题普遍存在，MLM 输出的响应与图像内容不符，会虚构目标。这不仅影响 MLM 的可靠性，也暴露了视觉理解和语义生成的不足。解决这个问题需要更精确的视觉语义对齐和验证机制。

高效的参数训练是另一个迫切的问题。由于 MLM 的容量很大，高效的参数训练方法可以在有限的计算资源下释放更多的 MLM 能力。例如，引入更有效的训练策略和硬件加速可以显著减少模型训练时间和资源消耗，增强模型应用潜力。

目前，还没有真正统一的多模态大模型。虽然 GPT-4o 可能成为第一个，但重大进展尚未看到。这表明在实现真正统一的多模态世界模拟器之前，还有许多技术挑战需要解决。无论是通过OpenAI的大量数据训练，还是Meta提出的有限数据分层规划，亦或是本文提到的引入更多规则和知识库，都是实现世界模型的可行路径。从根本上讲，大量数据模拟人类自文明开始以来所接触的信息，而有限数据引入规则则模拟一种现象：后代利用祖先总结的经验和定理进行快速学习，这两种思路在直觉上都是合理的。但目前要解决的核心问题在于微观层面，尤其是简化注意机制、让GPU适应线性注意机制，可以大幅提升模型训练效率。通过部署边缘设备和具身智能快速收集数据，世界模型的到来已指日可待。