InfiniteWorld：通用视觉-语言机器人交互的统一可扩展仿真框架-CSDN博客

本文链接：https://blog.csdn.net/yorkhunter/article/details/144860717

24年12月来自鹏城实验室、中山大学、南方科技大学和 MBZUAI 的论文“InfiniteWorld: A Unified Scalable Simulation Framework for General Visual-Language Robot Interaction”。

实现具身人工智能的规模化规律已成为关注点。然而，以前的工作分散在不同的模拟平台上，资产和模型缺乏统一的接口，导致研究效率低下。为了解决这个问题，推出 InfiniteWorld，一个基于 Nvidia Isaac Sim 构建、用于通用视觉语言机器人交互、统一且可扩展的模拟器。InfiniteWorld 包含一整套物理资产构建方法和通用的免费机器人交互基准。具体而言，首先构建一个统一且可扩展的具身学习模拟框架，该框架集成一系列基于生成驱动的 3D 资产构建、Real2Sim、自动注释框架和统一 3D 资产处理的改进。该框架为机器人交互和学习提供一个统一且可扩展的平台。此外，为了模拟逼真的机器人交互，构建四个新的通用基准，包括场景图协作探索和开放世界社交移动操作。前者往往被忽视为机器人探索环境、构建场景知识的重要任务，而后者则在前者的基础上，模拟具有不同层次知识智体的机器人交互任务，可以更全面地评估具身智体在环境理解、任务规划和执行以及智能交互方面的能力。

为具身人工智能（AI）[12]构建一个无限的世界，使机器人能够像人类一样在开放环境中自由交互和学习，是具身社区的一个重要方向。要实现这一点，机器人仿真学习平台必须具备几个关键属性：快速而精确的物理模拟、用户友好且便捷的界面设计、高度真实和多样化的3D资产以及全面的机器人交互任务设计。最近，NVIDIA的Omniverse Isaac Sim [47]在基于物理的渲染、低级交互复杂性、变形模拟等方面取得优异的成绩。然而，以前的工作[42、58、68、71、75]在资产构建和交互设计方面仍然缺乏系统统一的设计，导致社区内的努力分散、任务重复。因此，考虑如何在具身人工智能领域实现规模化规律和逼真的机器人交互已成为业界关注的两大问题。人工智能的最新进展，特别是多模态大语言模型 (MLLM) [1, 36, 66]，受到海量互联网规模数据的推动。相比之下，与网上丰富的视觉和语言资源相比，机器人数据仍然很稀疏。

一种直接的方法是直接在现实世界中收集大规模机器人数据，如 Open X-Embodiment [48] 和 DROID [29]。然而，它们受到高数据收集成本和跨不同硬件平台的泛化问题的严重限制。因此，模拟被视为一种有前途的替代方案。为了实现具身人工智能的规模化定律，社区做了很多尝试。例如，以前的工作 [20, 38, 45, 68, 71] 使用人工智能生成工具 [37, 45, 65, 75]，或半自动化 [20, 45] 或手动设计方法 [68] 来构建 3D 场景和目标资产。这些高质量资产的创建或收集需要大量劳动力，且通常分散在各个仿真平台上，从而影响其有效使用。造成这一困境的主要原因是当前仿真平台缺乏统一、高质量的具身资产构建界面。

另一方面，之前的具身基准测试主要侧重于目标定位、导航或操控等常规任务。最近，人们对更接近人机交互的社交导航 [52, 68] 越来越感兴趣。具体而言，GRUtopia [68] 提出一个具有全局视野的非玩家角色 (NPC)，并将其作为机器人导航任务中的交互目标，协助其完成相应的模糊任务。然而，由于现实中缺乏具有“上帝视角”的角色，这限制其完全模拟现实世界交互的能力。特别是在通讯受限的特殊场景（如煤矿），这需要机器人具备独立探索和协作完成任务的能力。模拟更真实的人类交互对于评估具身智体在任务推理、规划、感知和交互层面的能力至关重要，但目前模拟器中的交互与现实世界仍然存在很大差距。

具身智能模拟器

目前，已开发出许多用于具身智能相关研究的模拟器[6、9、10、25、42、52、54、58、70、71、73、75]。它们主要侧重于提高真实物理模拟的准确性和任务设计的多样性。例如在物理模拟方面，从将物理交互抽象为符号推理（例如 VirtualHome [51] 和 Alfred [61]），到在 3D 扫描场景中进行导航研究（例如 Habitat [58]），再到逼真的动作、环境交互和物理模拟（例如 Habitat 2.0 [64]、ManiSkills [22]、TDW [19]、SoftGym [35]、RFUniverse [18] 和 iGibson [31, 60]），虚拟与现实环境的差距正在逐步缩小。在任务设计方面，当前的工作主要探索具身 AI 任务设置的多样性 [25, 41, 56, 81]。例如，RoboGen [69] 和 MimicGen [40] 使用生成模型和 LLM 来生成任务，Surfer [56] 和 HandMeThat [67] 研究桌面操作的层次推理任务，GRUtopia [68] 和 Habitat 3.0 [52] 研究社交互动等。

模拟器中的交互

具身智能中的社交互动是最接近人类的交互方式，也是人机交互研究的关键。例如，Habitat 3.0 [52] 提出了一种人-在-环范式，利用 LLM 模拟真实的人类行为，探索家庭环境中人形机器人与机器人智体之间的协作。此外，GRUtopia [68] 设计一个具有全局真实环境信息的 NPC，用于人机交互，为机器人提供关键的交互信息，帮助机器人完成复杂任务，模拟真实世界的社交互动。这种 NPC 设计在一定程度上超越传统的人-在-环范式，但现实世界中并不存在具有全局环境信息的 NPC，不利于模拟真实的社交互动。

场景与资产处理

已实现仿真平台资产的扩展是当前具身智能发展中最关键的问题之一，是获取大规模机器人数据集的基础。为此，社区研究了各种具身资产生成技术，如基于 3D 高斯splatting技术的真实场景逼真虚拟化 [7, 26]、大规模 3D 场景 [75, 77] 和 3D 目标 [65] 以及铰接目标资产生成。但它们往往缺乏统一有效的接口，无法充分应用。

基于以上观察，本研究旨在基于 NVIDIA Isaac Sim 构建一个无限世界的统一机器人交互模拟平台：全面的物理资产构建和通用的自由机器人交互。

生成-驱动下 3D 资产构建

为模拟器平台构建大规模、交互式、逼真的环境对于具身学习至关重要。成本和多样性是困扰大型 3D 环境构建的主要限制。利用语言作为大规模场景生成-驱动程序 [34, 76] 是一种流行的解决方案。特别是，HOLODECK [77] 可以使用文本作为驱动程序，并利用广泛的 3D 资产数据库来创建具有准确语义、良好空间布局和交互性的 3D 环境。此外，受到 RoboCasa [45] 中使用手工设计的场景样式扩展场景资产的启发，基于 HOLODECK [77] 在 Isaac Sim 上实现大规模用户定义场景资产的自动扩展。它支持自由更换 236 种不同的地板和墙壁纹理。这意味着场景数量可以轻松扩大 236 倍。以及对场景中目标资产进行相似替换、删除、添加、纹理替换等编辑操作，为大规模自动场景生成提供统一高效的接口。

基于上述方法，首先构建10K个室内场景，主要包括家庭和社会环境。对于家庭场景，模拟真实家庭场景的布局，并为每个场景生成1-5个不同的房间号，以满足不同的任务需求。社交环境包括办公室、餐厅、酒吧、健身房和商店等许多场景。并且，还使用场景风格替换生成总共2.36 M个场景。如图展示一些语言驱动的自动场景生成和编辑示例。

请添加图片描述

此外，在InfiniteWorld模拟器中集成单幅图像到3D目标资产重建[65]和可控铰接生成[37]，以进一步丰富资产库。这为具身智体学习提供了大量多样化的交互场景。

深度先验约束的 Real2Sim

最近，以 GauStudio [78]、SuGaR [23] 和 PGSR [7] 为代表的 3D Gaussian Splatting (3DGS) [27] 变型在提供显式几何信息的同时实现高质量的网格重建效果。然而，它们难以解决光滑表面上反射产生的复杂性。如果这些反射处理不正确，它们会严重干扰点云初始化的基础步骤，特别是在运动恢复结构 (SfM) 阶段。为了缓解这些问题，引入两种基于深度的正则化损失和基于 PGSR [7] 的法向量。具体来说，采用预训练的深度估计模型 Depth Pro [4]，为每个 RGB 图像在相机坐标系内生成深度估计。此外，使用 PGSR 中的局部平面假设 [7] 来计算平面法向量，从而为 PGSR 中的单视图损失提供额外的监督。

如图展示相关方法在真实办公场景中的重建效果比较。如图所示，PGSR [7] 在场景重建任务中生成最高质量的网格。相比之下，改进的方法在处理某些平面和反射表面时能够生成精细的网格。此外，还为重建的场景设计一个完整的后处理步骤，以进一步优化模型在轴对齐、噪声、表面连续性和尺寸等问题上的性能。

请添加图片描述

Annot8-3D：自动注释框架

还提出一个工具 Annot8-3D，这是一种基于 Web 的智能点云自动注释框架，它将 AI 辅助自动化与人机交互细化相结合，以实现高效、准确的 3D 点云标记。该框架实现一个多阶段注释流水线，通过从粗到细的标记逐步细化分割结果，利用最先进的深度学习模型，同时在需要时允许人工指导。具体来说，如图显示 Annot8-3D 的多阶段注释流水线，主要包含三个阶段：初始粗分割、交互式细化和手动微调。首先，在初始粗分割阶段，流水线从使用 Point Transformer V3 [72] 的自动粗粒度分割开始，它提供了跨点云的初始目标提议。其次，在交互式细化阶段，系统允许人类审阅者通过正面和负面提示来检查和细化粗分割结果，这些提示引导对特定区域的重点细化。此阶段集成 SAM2Point [24] 来处理这些提示并生成精细的分割，允许迭代细化循环，直到获得满意的结果。最后，对于自动细化不足的情况，手动微调阶段提供手动分割工具进行精确调整。

请添加图片描述

统一的 3D 资源

此外，还将一些开源 3D 资源集成到 InfiniteWorld 模拟器中。目前，现有的流行 3D 资源通常具有不同的仿真平台和不同的数据格式。不同仿真平台之间缺乏统一的数据格式，导致资源互操作困难。为此，基于 Isaac Sim 为来自不同仿真平台的资源提供统一的接口。所有资产都统一为 .usd，从而实现 Isaac Sim 平台上不同资产的统一调用。具体来说，提供从不同格式到可用格式的转换脚本，以方便在 Isaac Sim 中进行物理模拟。它包括 3D 场景级资产（例如 HSSD [28]、HM3D[53]、Replica[63] 和 Scannet [8]）和 3D 目标级资产（例如 3D Front [17]、PartNet-mobility [43]、Objaverse (Holodeck) [11] 和 ClothesNet [82]）。

统一的目标资产涵盖水果、饮料、玩偶、家电、家具等广泛的类别。它还包括一些常用的铰接式目标。此外，在 Isaac Sim 平台上，还实现对软体和透明度等特殊目标的模拟。这有利于在模拟环境中实现逼真的物理模拟。这为具身智体执行各种复杂的操作任务提供强有力的支持。

总体而言，InfiniteWorld 模拟器的主要功能如图所示。

请添加图片描述

本文基准的概述如图所示：

请添加图片描述

基准 1：目标定位导航。目标定位导航任务评估智体根据语言指令导航到目标物体的基本能力。如果目标物体出现在智体的视野中，则任务成功。智体需要在场景中的特定区域中搜索并定位特定目标。当机器人与目标物体之间的距离小于 2 米且物体在机器人水平视野的 60 度范围内时，任务执行成功。

基准 2：定位操作。基于目标定位导航任务，开发一个定位操作任务。此任务验证智体在导航、操作和规划方面的基本能力。智体需要理解自然语言指令，找到正确的目标，执行适当的操作将目标移动到目标（target）位置，并最终成功放下它。

基准 3：场景图协作探索。传统的单机系统，机器人按顺序探索未知区域，逐步构建场景图。然而，这种方法在大规模或动态变化的环境中往往效率低下，限制了场景图构建的速度和获取信息的丰富度。引入多智体场景图构建可以显著提高该过程的效率和质量。多个机器人协同工作，共享信息并融合视图以构建统一的场景图。虽然每个机器人独立地感知和绘制部分环境，但智体通过无线通信共享地图数据、更新目标语义标签并同步它们的位置，从而有效提高绘制效率。

基准 4：开放世界社交移动操作。在这个基准中，设计一个开放世界社交移动操作。它主要包括两种交互方式：分层交互和水平交互。前者模拟具有分层知识结构的具身AI交互，后者模拟具有均等知识获取能力的具身AI交互。