24年11月来自清华的论文“Understanding World or Predicting Future? A Comprehensive Survey of World Models”。
由于多模态大语言模型(如 GPT-4)和视频生成模型(如 Sora)的进步,世界模型的概念引起广泛关注,这些模型对于实现通用人工智能至关重要。本综述对世界模型的文献进行全面的回顾。一般来说,世界模型被视为理解世界现状或预测世界未来动态的工具。本综述对世界模型进行系统分类,强调了两个主要功能:(1)构建内部表示以理解世界的机制,(2)预测未来状态以模拟和指导决策。首先,研究这两个类别的当前进展。然后,探讨世界模型在关键领域的应用,包括自动驾驶、机器人和社会模拟,重点关注每个领域如何利用这些方面。最后,概述关键挑战并对未来的潜在研究方向提供见解。
科学界长期以来一直渴望开发一个统一的模型,以复制其对世界的基本动态,从而实现通用人工智能 (AGI) [98]。2024 年,多模态大语言模型 (LLM) 和 Sora [130] 的出现加剧围绕此类世界模型的讨论。虽然这些模型展示捕捉世界知识各个方面的能力——例如 Sora 生成的视频似乎完全遵循物理定律——但它们是否真正符合综合世界模型的资格仍然存在疑问。因此,在期待人工智能时代的新突破时,系统地回顾世界模型研究的最新进展、应用和未来方向既及时又必不可少。
世界模型的定义仍然是一个持续争论的主题,通常分为两个主要观点:理解世界和预测未来。如图所示,Ha & Schmidhuber [59] 的早期工作侧重于抽象外部世界以深入了解其潜在机制。相比之下,LeCun [98] 认为,世界模型不仅应该感知和建模现实世界,还应该具备预见未来可能状态的能力,以便为决策提供参考。诸如 Sora 之类的视频生成模型代表一种专注于模拟未来世界演变的方法,因此与世界模型的预测方面更加契合。这引发一个问题:世界模型应该优先了解现在还是预测未来状态。
世界模型的潜在应用涵盖广泛的领域,每个领域对理解和预测能力都有不同的要求。例如,在自动驾驶中,世界模型需要实时感知道路状况[195,177]并准确预测其演变[127,167,241],特别注重即时环境觉察和复杂趋势预测。对于机器人技术而言,世界模型对于导航[160]、目标检测[183]和任务规划[62]等任务至关重要,需要精确理解外部动态[47]并具有生成交互式和具身环境的能力[132]。在虚拟社交系统模拟领域,世界模型必须捕捉和预测更抽象的行为动态,如社交互动和人类决策过程。因此,全面回顾这些能力的进展,同时探索未来的研究方向和趋势,既及时又必要。
世界模型的概念最早由 Ha [58, 59] 于 2018 年系统地引入人工智能界。本文将世界模型概念的起源追溯到 1971 年建立的“心理模型”的心理学原理 [43],该原理提出人类将外部世界抽象为简单的元素及其相互关系以感知它。这一原则表明,当从深层的内部视角看待世界时,对世界的描述通常涉及构建一个抽象的表示,而这个抽象的表示不需要详细的描述。基于这一概念框架,引入一个受人类认知系统启发的代理模型,如上图所示。在这个开创性的模型中,智体从现实世界环境中接收反馈,然后将其转换为一系列用于训练模型的输入。该模型擅长模拟外部环境中特定操作后可能出现的结果。本质上,它创建一个未来世界潜演变的心理模拟,并根据这些状态的预测结果做出决策。该方法与基于模型的强化学习 (MBRL) 方法非常相似,其中两种策略都涉及模型生成外部世界的内部表示。这些表示有助于在现实世界中导航和解决各种决策任务。
在 2022 年关于自主机器智能发展的文章 [98] 中,Yann LeCun 介绍联合嵌入预测架构 (JEPA),这是一个反映人脑结构的框架。如上图所示,JEPA 包含一个处理感官数据的感知模块,然后是一个评估这些信息的认知模块,有效地体现世界模型。该模型允许大脑评估动作并确定最适合现实世界应用的反应。LeCun 的框架之所以引人入胜,是因为它结合双系统概念,反映“快”和“慢”思维。系统 1 涉及直觉、本能的反应:在没有世界模型的情况下做出的快速决策,例如本能地躲避迎面而来的人。相比之下,系统 2 采用深思熟虑的、计算推理,考虑世界的未来状态。它超越即时的感官输入,模拟潜在的未来场景,例如预测未来十分钟内房间内发生的事件并相应地调整行动。这种预见水平需要构建一个世界模型,以根据预期的环境动态和演变有效地指导决策。在这个框架中,世界模型对于理解和表示外部世界至关重要。它使用潜变量对世界状态进行建模,这些潜变量捕获关键信息并过滤掉冗余。这种方法可以高效、简约地表示世界,促进最佳决策和未来场景规划。
模型捕捉世界知识的能力对于它们在广泛的现实世界任务中的有效表现至关重要。在最近从 2023 年开始的一系列关于大语言模型的研究中,一些模型已经证明潜世界知识的存在。换句话说,这些模型捕捉直觉知识,包括空间和时间理解,这使它们能够对现实世界场景做出预测 [57, 119]。此外,LLM 能够通过认知地图对外部世界进行建模,最近的研究表明,其中嵌入类似大脑的结构 [104]。这些模型甚至可以根据先前的经验学习预测未来事件,从而增强其在现实世界中的实用性和适用性。
上述世界模型主要代表对外部世界的隐性理解。然而,在 2024 年 2 月,OpenAI 推出 Sora 模型 [130],这是一种被广泛认为是世界模拟器的视频生成模型。Sora 输入现实世界的视觉数据,并输出预测未来世界演变的视频帧。值得注意的是,它展示卓越的建模能力,例如在摄像机移动和旋转期间保持 3D 视频模拟的一致性。它还可以产生物理上合理的结果,例如在汉堡上留下咬痕,并模拟数字环境,例如在 Minecraft 游戏中渲染第一人称视角。这些功能表明,Sora 不仅模仿现实世界的外观,而且还在模拟场景中模拟现实世界的动态,专注于真实地模拟动态世界的变化,而不仅仅是表示静态的世界状态。
无论是专注于学习外部世界的内部表征还是模拟其运行原理,这些概念都凝聚成一个共识:世界模型的基本目的是了解世界的动态并预测未来情景。本文对世界模型的最新进展进行彻底的研究,并通过以下角度对其进行分析,如上图所示:
外部世界的隐性表征:此研究类别构建一个环境变化模型,以便做出更明智的决策,最终旨在预测未来状态的演变。将外部现实转化为表征这些元素为潜变量的模型,可促进隐性理解。此外,随着大语言模型 (LLM) 的出现,以前专注于传统决策任务的努力,已因对世界知识的详细描述能力而得到显著增强。进一步关注将世界知识整合到现有模型中。
外部世界的未来预测:最初探索模拟外部世界的生成模型,主要使用视觉视频数据。这些方法强调生成的视频真实性,这些视频反映物理世界的未来状态。最近将重点转向开发真正交互式的物理世界,进一步研究从视觉到空间表征以及从视频到具身的转换。这包括全面涵盖反映外部世界的具身环境生成相关的研究。
世界模型的应用:世界模型在各个领域都有广泛的应用,包括自动驾驶、机器人技术和社会模拟。
决策中的世界模型
在决策任务中,了解环境是为优化策略生成奠定基础的主要任务。因此,决策中的世界模型应该包括对环境的全面了解。它能够在不影响现实环境的情况下采取假设行动,从而降低反复试验的成本。在文献中,如何学习和利用世界模型的研究,最初在基于模型的强化学习领域提出。
此外,LLM 和 MLLM 的最新进展也为世界模型的构建提供全面的支撑。由于语言是一种更通用的表示,基于语言的世界模型可以适应更通用的任务。如图显示在决策任务中利用世界模型的两种方案。
基于模型强化学习中的世界模型
在决策中,世界模型的概念主要指基于模型强化学习 (MBRL) 中的环境模型。决策问题通常被表述为马尔可夫决策过程 (MDP),用元组 (S、A、M、R、γ) 表示,其中 S、A、γ 分别表示状态空间、动作空间和折扣因子。这里的世界模型由 M(状态转换动态)和 R(奖励函数)组成。由于奖励函数在大多数情况下都是定义的,因此 MBRL 的关键任务是学习和利用转换动态,这可以进一步支持策略优化。
世界模型学习。要学习准确的世界模型,最直接的方法是利用每个单步转换的均方预测误差(MSPE) [97、115、80、145、81]。除了直接利用确定性转换模型外,Chua [25] 还利用概率转换模型对随机不确定性(aleatoric uncertainty)进行建模,目标是最小化转换模型之间的 KL 发散度。
在这两种设置中,世界模型学习任务的阶段都可以转变为监督学习任务。学习标签是从真实交互环境中得出的轨迹,也称为模拟数据 [114]。
对于存在高维状态空间的更复杂环境,表征学习被广泛采用以提高 MBRL 中世界模型学习的有效性。Ha & Schmidhuber [58] 采用自动编码器结构通过潜状态重建图像。Hafner [61, 63] 提出学习视觉编码器和潜动态以进行视觉控制任务,而 Samsami [153] 提出一个 Recall-to-Imaging 框架,以在模型学习的同时进一步提高记忆能力。另一个最近的趋势是在不同任务之间进行统一的模型学习 [158],这是通过使用 Transformer 架构用下一个token 预测范式 [81] 表示 MDP 来实现的。这种方案展示获得一个通用模型的潜力,该模型可用于使用其他数据模态的多个任务决策模型。
使用世界模型生成策略。有了理想优化的世界模型,生成相应策略的最直接方法之一就是模型预测控制 (MPC)[92]。MPC 会根据给定模型规划出优化的动作序列。
Nagabandi [125] 采用简单的蒙特卡洛方法来采样动作序列。Chua [25] 提出一种新的概率算法,该算法与轨迹采样相结合,而不是统一地对动作进行采样。进一步还利用世界模型的使用提高优化效率 [61, 224, 70, 187]。
另一种生成世界模型策略的流行方法是蒙特卡洛树搜索 (MCTS)。通过维护一个搜索树,其中每个节点都引用由预定义价值函数评估的状态,将选择动作使智体可以处理具有更高价值的状态。AlphaGo 和 AlphaGo Zero 是使用 MCTS 在离散动作空间中的两个重要应用 [169, 170]。Moerland [123] 扩展 MCTS 来解决连续动作空间中的决策问题。Oh [128] 提出一个价值预测网络,将 MCTS 应用于学习模型,以根据价值和奖励预测搜索动作。
以语言为主干的世界模型
语言模型(尤其是 LLM 和 MLLM)的快速发展有利于许多相关应用的发展。由于语言是一种通用的表征主干,基于语言的世界模型已经在许多决策任务中展现出潜力。
通过 LLM 世界模型直接生成动作 LLM 已经展示其强大的推理能力,能够根据相应构建的世界模型直接生成决策任务中的动作。除了训练或微调专门的基于语言世界模型外,LLM 和 MLLM 还可以直接部署来理解决策任务中的世界环境。
LLM 世界模型的模块化,使用虽然在应用和部署中直接将 LLM 输出作为动作很简单,但这种方案的决策质量在很大程度上依赖于 LLM 本身的推理能力。将基于 LLM 的世界模型作为模块与其他有效的规划算法集成,可以进一步改进它。
Xiang [203] 在世界模型(VirtualHome [139] 的模拟器)中部署一个具身智体,其中相应的具身知识被注入到 LLM 中。为了更好地规划和完成特定目标,提出一种目标条件规划模式,其中使用蒙特卡洛树搜索 (MCTS) 来搜索真正的具身任务目标。Lin [106] 引入一个智体 Dynalang,它学习多模态世界模型来预测未来的文本和图像表示,并从想象的模型部署中学习行动。策略学习阶段使用纯粹基于先前生成的多模态表征 AC 算法。Liu [111] 进一步将 LLM 中的推理视为贝叶斯自适应马尔可夫决策过程 (MDP) 中的学习和规划。 LLM 与世界模型类似,在 MDP 的 AC 更新中以上下文方式执行。所提出的 RAFA 框架在多个复杂推理任务和环境中(例如 ALFWorld [168])表现出显著的性能提升。
模型学习的世界知识
大语言模型在对大规模网络文本和书籍 [180, 129] 进行预训练后,获得关于现实世界的广泛知识和与日常生活相关的常识。这些嵌入的知识被认为对它们在现实世界任务中具有出色的概括能力和有效执行能力至关重要。例如,研究人员利用大语言模型的常识进行任务规划 [234]、机器人控制 [73] 和图像理解 [110]。此外,Li [104] 发现嵌入在表示大语言模型中概念世界的高维向量中类似大脑的世界知识结构。
与常识和一般知识不同,从世界模型的角度关注大型语言模型中的世界知识。如图所示,基于目标和空间范围,大型语言模型中的世界知识可分为三部分:1)全球物理世界的知识;2)局部物理世界的知识;3)人类社会的知识。
全局物理世界的知识
Gurnee [57] 首次提出证据,证明大语言模型真正获得世界的空间和时间知识,而不仅仅是收集表面统计数据。他们在 LLama2 [180] 中识别出不同的“空间神经元”和“时间神经元”,表明该模型学习跨多个尺度的空间和时间线性表示。与之前专注于嵌入空间的观察不同,Manvi [119, 118] 开发关于文本地址的有效提示,以提取有关地理空间的直观现实世界知识,并成功提高模型在各种下游地理空间预测任务中的性能。
虽然大语言模型确实获得一些关于现实世界的隐性知识 [57, 104],但这些知识的质量仍然存在疑问 [150, 38]。例如,Feng [38] 发现大语言模型中嵌入的城市知识通常很粗略且不准确。为了解决这个问题,提出一个有效的框架来改善大语言模型中特定城市的城市知识获取。从这些工作中可以看到,虽然大语言模型已经证明捕捉现实世界知识某些方面的能力 [57, 104, 150],但显然还需要进一步努力来增强这些知识,以实现更广泛、更可靠的现实世界应用。
局部物理世界的知识
与全局物理世界的知识不同,局部物理世界代表人类日常生活和大多数现实世界任务的主要环境。因此,理解和建模局部物理世界是构建全面世界模型的一个更关键的课题。首先介绍认知地图的概念 [179],它说明人脑如何模拟外部世界。虽然最初是为了解释人类学习过程而开发的,但研究人员在大语言模型中发现类似的结构 [104],并利用这些见解来提高人工模型在学习和理解物理世界方面的效率和性能。
最近的研究探索如何积极鼓励模型通过各种环境中的认知地图类过程来学习抽象知识。例如,Cornet [52] 证明在简化的 Minecraft 世界中使用视觉预测编码构建空间认知地图进行学习的有效性。学习后,模型可以通过了解距离来成功预测未来。Lin [106] 研究通过世界模型学习过程来教导模型理解游戏环境,特别是通过预测环境的后续帧。通过这种方式,模型可以在动态环境中生成更好的动作。此外,Jin [84] 发现语言模型可以通过预测下一个token来学习程序语义的表示。
人类社会知识
除了物理世界之外,理解人类社会是世界模型的另一个重要方面。一个这样的相关理论是心智理论(Theory of Mind) [138],它解释个体如何推断周围其他人的心理状态。最近的研究广泛探索大语言模型如何开发和展示这种社会世界模型。一项研究 [174, 175] 侧重于评估大语言模型在各种心智理论任务中的表现,以确定它们的类人行为是否反映对社会规则和隐性知识的真正理解。例如,Strachan [174] 对人类和 LLM 在不同心智理论能力上的表现进行比较分析,例如理解错误信念和识别讽刺。虽然他们的研究结果证明 GPT-4 在这些任务中的潜力,但他们也发现它的局限性,特别是在检测失礼行为方面。
为了解决这些限制,研究人员提出创新方法来增强大语言模型在心智理论方面的能力,以应对复杂的现实世界应用。Wu [198] 介绍 COKE,它构建一个知识图谱,帮助大语言模型通过认知链明确地使用心智理论。此外,Alex [194] 开发一个两阶段提示框架 SimToM,以提高大语言模型在心智理论任务中的表现。
下表是模型学习的世界知识比较:
世界模型作为视频生成
视频生成与世界模型的整合,标志着环境建模领域的重大飞跃[130]。传统的世界模型主要侧重于预测离散或静态的未来状态[59, 98]。然而,通过生成捕捉连续空间和时间动态类似视频的模拟,世界模型[130, 211]已经发展到可以处理更复杂、更动态的环境。视频生成的这一突破将世界模型的能力推向一个新的水平。
视频世界模型
视频世界模型是一个计算框架,旨在通过处理视觉环境中的过去观察和潜动作来模拟和预测世界的未来状态[130]。这个概念建立在世界模型的更广泛概念之上,世界模型致力于捕捉环境的动态,并使机器能够预测世界将如何随时间演变。在视频世界模型的情况下,重点是生成代表这些演变状态的视觉帧序列。
Sora作为世界模型。Sora [130]是一个大型视频生成模型,是视频世界模型的一个突出例子。它旨在根据各种输入模态(例如文本、图像和视频)生成长达一分钟的高质量、时间一致的视频序列。Sora 利用强大的神经网络架构(包括编码器-解码器框架和Transformer)来处理多模态输入并生成视觉连贯的模拟。Sora 的核心功能在于它能够生成符合现实世界物理原理的视频,例如光在表面反射或蜡烛的融化。这些特性表明 Sora 有潜力充当世界模拟器,根据对初始条件和模拟参数的理解来预测世界的未来状态。
Sora 的局限性。然而,尽管 Sora 具有令人印象深刻的视频生成能力,但它仍有几个局限性,使其无法被视为一个功能齐全的世界模型。一个关键的限制涉及因果推理 [242, 23],其中模型在模拟环境内的动态交互方面受到限制。因此,Sora 只能根据观察的初始状态被动地生成视频序列,而不能主动干预或预测动作的变化如何改变事件的进程。另一个限制是它仍然无法一致地重现正确的物理定律 [86]。虽然 Sora 可以生成视觉上逼真的场景,但它难以准确模拟现实世界的物理,例如目标在不同力的作用下的行为、流体动力学或光影相互作用的准确描述。
其他视频世界模型。Sora 无疑引发对视频世界模型的研究浪潮,激发该领域的大量进步。继 Sora 成功生成高质量视频序列之后,许多后续模型被开发出来,每个模型都旨在突破视频世界模型所能实现的界限。例如,一些方法延长视频长度以实现长形式视频模拟 [220, 108, 68]。除了传统的语言引导视频生成外,更多的模态也被整合进来,比如图像和动作[235, 202]。研究人员也将重点从缺乏用户控制的基本视频生成转移到旨在复制现实世界决策空间并促进决策的交互式模拟[213, 215, 197, 227, 78, 202]。一些研究致力于增强动作转换的流畅性,提高物理定律的准确性,并保持时间一致性[211, 16, 148, 207]。与此同时,世界模型的概念已经超乎想象地发展,并被应用于各种场景特定的模拟,包括自然环境、游戏和自动驾驶[108, 190, 15, 120, 68, 188, 11, 238, 121]。下表总结视频世界模型在不同方面的改进分类。
视频世界模型的能力
尽管关于像 Sora 这样的模型是否可以被视为成熟世界模型的争论仍在继续,但毫无疑问,视频世界模型在推进环境模拟和预测方面具有巨大的潜力 [242, 23, 86]。这些模型可以通过生成逼真的动态视频序列,提供一种强大的方法来理解和与复杂环境交互。
长期预测能力。一个强大的视频世界模型应该能够做出长期预测,并在较长时间内遵守环境的动态规则。此功能使模型能够模拟场景的演变方式,确保生成的视频序列与现实世界的时间进程保持一致。尽管 Sora 已经实现具有高质量时间连贯性的长达一分钟视频序列生成,但它还远远不能模拟现实世界环境中复杂的长期动态。最近的努力探索延长视频长度以捕捉长期依赖关系并提高时间一致性 [220, 108, 68]。
多模态集成。除了语言引导的视频生成外,视频世界模型还越来越多地整合其他模态,如图像和动作,以增强真实感和交互性 [235, 202]。多种模态的整合允许更丰富的模拟,更好地捕捉现实世界环境的复杂性,提高生成场景的准确性和多样性。
交互性。视频世界模型的另一个关键能力,是它们的可控性和交互性潜力。理想的模型不仅应该生成逼真的模拟,还应该允许与环境交互。这种交互性涉及模拟不同动作的后果并提供反馈,使模型可用于需要动态决策的应用。最近的工作重点是增强对模拟的控制,允许更多用户引导的场景探索 [215, 197]。
多样化环境。最后,视频世界模型正在适应各种场景特定的模拟,包括自然环境、自动驾驶和游戏。这些模型正在超越基本的视频生成,以复制现实世界的动态并支持广泛的应用 [108, 190, 15]。
作为具身环境的世界模型
具身环境世界模型的开发对于模拟和预测智体如何与外部世界交互和适应外部世界至关重要。最初,生成模型专注于模拟世界的视觉方面,使用视频数据捕捉环境中的动态变化。最近,重点转向创建完全交互式和具身的模拟。这些模型不仅代表世界的视觉元素,还结合更准确反映现实世界动态的空间和物理交互。通过整合空间表示并从基于视频的模拟过渡到沉浸式具身环境,世界模型现在可以为开发能够与复杂的现实世界环境交互的智体提供更全面的平台。
作为具身环境的世界模型可分为三类:室内、室外和动态环境,如图所示。
相关工作总结在下表中,包括室内、室外和动态环境。在“Modality”列中,“V”表示视觉,“L”表示激光雷达,“T”表示文本,“A”表示音频。在“Num of Scenes”一列中,“-”表示没有报告数据,“任意”表示该方法可以支持生成任意数量的场景。
可以总结的是,大多数当前工作都集中在开发静态的、现有的室内和室外具身环境上。一种新兴趋势是通过生成模型来预测动态的未来世界,从而生成第一人称、动态视频模拟环境。这样的环境可以为训练具身智体提供灵活而真实的反馈,使它们能够与不断变化的环境进行交互并提高其泛化能力。
室内环境
室内环境提供受控的结构化场景,智体可以在其中执行详细的、特定于任务的操作,例如目标操作、导航和与用户的实时交互 [48, 134, 91, 164, 17, 139, 155, 201]。早期建立室内环境的研究,如 AI2-THOR [91] 和 Matterport 3D [17],只专注于提供视觉信息。这些研究通过提供逼真的设置来构建室内环境,智体可以在其中练习视觉导航并参与模拟现实家庭活动的交互式任务。这些环境强调使用基于视觉强化学习技术的重要性,这些技术允许智体根据环境线索优化其决策。通过模拟烹饪或清洁等现实世界任务,这些平台评估智体在不同类型的空间和目标中推广所学行为的能力。一系列进一步的工作有助于扩展所提供环境的数据模态。其中,iGibson [164] 引入激光雷达观测作为额外的信号反馈,有助于智体更准确地感知环境。AVLEN [134] 进一步补充音频信号,使智体能够在类似家庭的环境中执行诸如目标操纵和导航等任务。这里的挑战在于让智体能够在受限空间内理解和处理包括视觉、语言和声音在内的多模态输入。通过添加社交维度,像 GRUtopia [184] 这样的环境将智体引入他们必须导航并与目标和 NPC 交互的空间。在这里,智体需要了解社交动态,例如定位和任务共享,这需要更高级的交互建模形式。在这些设置中加入社交互动模块,展示如何训练智体在类似人类的社交行为和任务表现之间取得平衡。最近,随着 LLM 的发展,一些研究 [20, 216, 44] 寻求提供灵活的环境生成流水线,支持使用语言指令生成任意室内环境。
户外环境
与室内环境相比,创建户外环境 [184, 45, 200, 161, 37] 面临着更大的挑战,因为它们的规模更大,变化性更强。一些现有的研究侧重于城市环境,例如 MetaUrban [200],其中智体被部署在大规模城市环境中导航,它们会遇到诸如动态变化的交通、多样的建筑结构以及与其他实体的社交互动等挑战。这些任务通常需要使用上下文-觉察导航算法,允许智体根据环境的布局和条件调整其轨迹和行为。然而,MetaUrban 中的环境是通过从现有库中检索和组织 3D 资产创建的。最近,UrbanWorld [161] 利用先进的生成技术,显著扩大户外环境的范围,使用 3D 生成模型创建复杂、可定制的城市空间,从而实现更加多样化的城市场景。从基于静态资产的环境到生成环境的转变确保智体能够接触到更广泛的任务,从导航不熟悉的街道布局到与新类型的目标或结构交互。除了上述真实的开放世界生成工作外,还有一些虚拟开放世界平台,如 MineDOJO [37],通过模拟程序生成的沙盘环境,进一步扩展了这些挑战。这些平台受到 Minecraft 开放世界的启发,推动智体参与资源收集、建设和生存等任务,需要不断探索和自适应学习。在这样的环境中,智体会被激励去寻找新信息并调整其行为以完成给定的任务。在这样的环境中进行训练可以帮助智体学习各种任务和地形的知识,使它们能够在各种户外环境中有效运作。
动态环境
动态环境标志着传统静态模拟器的重大演变,它利用生成模型来创建灵活的实时模拟。与需要手动调整的预定义环境不同,这些模型允许动态创建各种各样的场景,使智体能够体验多样化的第一人称视角。这种转变为智体提供更丰富、更多样化的训练体验,提高它们在复杂、不可预测的现实世界情况下的适应性和泛化能力。代表性工作是 UniSim [214],它根据空间运动、文本命令和相机参数等输入条件动态生成机器人操作视频序列。利用来自 3D 模拟、现实世界机器人动作和互联网媒体的多模态数据,该系统生成多样、逼真的环境,智体可以在其中练习目标操作和导航等任务。这种方法的关键优势在于它的灵活性,使智体能够适应各种场景,而不受静态物理环境的限制。Pandora [202] 将动态环境生成从 Unisim 中的机器人动作扩展到更广泛的领域,包括室内和室外场景中的人和机器人动作。另一项后续工作 AVID [149] 在 UniSim 的基础上进行构建,通过以动作为条件并修改预训练扩散模型中的噪声预测,为动态环境生成生成动作驱动的视觉序列。除了基于视频传播的 Unisim 框架之外,EVA [22] 还引入额外的视觉语言模型,用于具身化视频预测,从而产生更一致的具身化视频预测。至于开放世界动态环境的生成,Streetscapes [29] 采用自回归视频传播模型来模拟城市环境,其中智体必须应对天气和交通变化等动态挑战。这些环境提供一致连贯但又灵活的城市设置,让智体接触到类似现实世界的变化。动态环境的核心趋势是使用提供可扩展、适应性强的模拟生成世界模型。这种方法大大减少环境设置所需的手动工作量,使智体能够快速在各种场景中进行训练。此外,对第一人称训练的关注与现实世界的决策非常相似,增强智体适应不断变化情况的能力。这些进步是开发支持智体在复杂、动态场景中学习具身环境的关键。
鉴于上述发展,很明显,作为具身环境的世界模型,在模拟和预测智体如何与动态现实世界场景交互方面取得重大进展。当前的研究主要集中于开发室内静态环境,而没有扩展到大规模室外环境和动态模拟环境。一个有希望的方向是构建动态环境,它可以提供第一人称、以动作为条件的未来世界预测,使智体能够更好地适应未见过的条件。这些方法有望为训练具身智体提供灵活、可扩展的环境,增强其对现实世界任务的泛化能力。
自动驾驶
近年来,随着基于视觉的生成模型[66,173,13]和多模态大型语言模型[109,1]的快速发展,世界模型作为理解世界状态和预测未来趋势的模块,在自动驾驶领域引起越来越多的关注。在这种情况下,世界模型被定义为以多模态数据(如语言、图像和轨迹)作为输入,并以车辆感知数据的形式不断输出未来世界状态的模型[55]。然而,自动驾驶中世界模型的概念早在基于生成世界模拟器出现之前就已经存在了。现代自动驾驶流程可以分为四个主要部分:感知、预测、规划和控制。整个过程可以看作是一个决策流程。感知和预测阶段也代表为车辆学习世界隐式表征的过程。这也可以看作是世界模型的一种形式,包括学习世界隐式表征模块和输出车辆感知数据的世界模拟器。如图所示:
机器人
世界模型已成为机器人技术的一个变革性范式,使机器人能够在复杂环境中感知、预测和有效执行。机器人技术的这场革命在一定程度上得益于神经网络 [181, 66] 和机器学习算法 [159, 144] 的进步,这些进步使机器人能够构建隐式表示,以捕捉世界的关键组成部分。另一方面,预测模型 [41, 42] 能够直接预测世界的未来状态,而不仅仅是抽象的表示,使机器人能够预测可能的环境变化并主动做出反应。借助上述强大的技术,机器人直接与现实世界环境交互并从中学习变得切实可行。如图所示,LLM [87, 218] 和世界模型 [18, 199, 64] 被视为人工智能 (AGI) 的可能途径之一,因为它们可以成为机器理解世界基本规律的起点。
下表总结机器人域世界模型的发展:
社会拟像(Social Simulacra)
“社会拟像”的概念最初是在 [133] 中作为一种原型技术引入的,旨在帮助设计人员创建一个包含许多不同智体的虚拟社会计算系统。传统基于专家定义规则 [157, 12] 或强化学习 [236] 构建智体的方法,面临着行为过于简单或缺乏可解释性等问题。然而,LLM 的出现为构建更现实的社会拟像提供一种变革性的工具,可以实现更令人信服的风格化事实 [101] 或准确的预测。社会拟像可以看作是一种反映现实世界社会计算系统的世界模型。从另一个角度来看,社会拟像中的智体也发展外部系统的隐式表征;也就是说,其构建一个支持其社会行为生成的隐式世界模型。世界模型与社会拟像之间的关系如图所示:
代表性方法的总结如下表所示: