HOLODECK:语言引导生成 3D 具身 AI 环境

CVPR‘24 来自 UPenn、斯坦福、华盛顿大学和 AI2 的论文“HOLODECK: Language Guided Generation of 3D Embodied AI Environments”。

3D 模拟环境在具身智能中起着至关重要的作用,但它们的创建需要专业知识和大量的手动工作,从而限制了它们的多样性和范围。HOLODECK,是一个可以完全自动生成 3D 环境以匹配用户提供的提示系统。HOLODECK 可以生成不同的场景,例如商场、水疗中心和博物馆,调整设计风格,并可以捕捉复杂查询的语义,例如“一个养猫研究员的公寓”和“一个星球大战迷教授的办公室”。HOLODECK 利用大语言模型(即 GPT-4)获取关于场景可能是什么样子的常识性知识,并使用来自 Objaverse 的大量 3D 资源来用各种目标填充场景。为了应对正确定位目标的挑战,提示 GPT-4 生成目标之间的空间关系约束,然后优化布局以满足这些约束。大规模人工评估表明,注释者在住宅场景中更喜欢 HOLODECK,而不是手动设计的程序基线,并且 HOLODECK 可以为各种场景类型生成高质量的输出。还展示了 HOLODECK 在具身智能中的一项应用,即训练智体在音乐室和托儿所等新场景中导航,无需人工构建的数据,这是开发通用具身智体的重要一步。

训练具身智体的主要方法涉及在模拟器中学习 [Phone2Proc 7, 20, AI2-THOR 23, Virtualhome 35, Habitat 40, Gibson Environ 51]。生成逼真、多样且交互式的 3D 环境对于此过程的成功起着至关重要的作用。

现有的具身 AI 环境,通常是通过手动设计 [Robothor 5, ThreeDWorld 12, AI2-THOR 23, Behavior-1k 24]、3D 扫描 [Phone2proc 7, HM3D 38, Habitat 40] 或使用硬编码规则程序生成 [ProcTHOR 6] 来制作的。然而,这些方法需要大量的人力,包括设计复杂的布局、使用交互式模拟器支持的资产并将其放入场景中,同时确保不同场景元素之间的语义一致性。因此,之前关于生成 3D 环境的工作主要集中在有限的环境类型上。为了突破这些限制,最近的研究采用 2D 基础模型从文本生成 3D 场景 [Scenescape 10, Text2Room 16, Text2NeRF 53]。然而,这些模型通常会产生具有严重伪影的场景,例如网格扭曲,并且缺乏具身 AI 所必需的交互性。此外,还有一些针对特定任务量身定制的模型,例如平面图生成 [Graph2plan 17, HouseDiffusion 42] 或物体排列 [Atiss 33, Lego-Net 49]。虽然它们在各自的领域都很有效,但它们缺乏整体场景一致性,并且严重依赖特定于任务的数据集。

HOLODECK 是一个基于 AI2-THOR [23] 构建的语言引导系统,可从文本描述中自动生成多样化、定制化和交互式 3D 具身环境。如图所示,给定一个描述(例如,一位养猫的研究人员的 1b1b 公寓),HOLODECK 使用大语言模型(GPT-4 [32])来设计平面图、分配合适的材料、安装门窗并使用基于约束的优化在场景中连贯地排列 3D 资产。 HOLODECK 从 Objaverse [8] 的 50K 多种多样且高质量的 3D 资产中进行选择,以满足各种环境描述。

请添加图片描述

HOLODECK 采用系统化的方法构建场景,利用一系列专门的模块:(1)地板和墙壁模块制定平面图、构建墙壁结构并为地板和墙壁选择合适的材料;(2)门窗模块将门窗融入环境中;(3)目标选择模块从 Objaverse 中检索合适的 3D 资源;(4)基于约束的布局设计模块利用空间关系约束在场景内排列资源,以确保目标的布局逼真。

上图中的每个模块都从语言模型中获取信息,并将其转换为最终布局中包含的元素。每个模块都设计了一个 LLM 提示,其中包含三个元素:(1)任务描述:概述任务的背景和目标;(2)输出格式:指定预期的输出结构和类型;(3)一次性示例:一个具体的例子,帮助 LLM 理解任务。图中蓝色对话框中的文本代表简化提示的示例。LLM 对这些提示的高级响应经过后期处理,然后用作模块的输入参数,以产生场景的低级规范。

受大语言模型 (LLM) [48] 涌现能力的启发,HOLODECK 利用 LLM 中固有的常识先验和空间知识。如图就是一个例子,其中 HOLODECK 创建了各种场景类型,例如街机、水疗中心和博物馆,通过将相关目标适当地放置在场景中来解释具体和抽象的提示,例如,桌子上的“R2-D2”代表“星球大战迷”。除了目标选择和布局设计之外,HOLODECK 还展示了其在风格定制方面的多功能性,例如通过对场景及其目标应用适当的纹理和设计来创建“维多利亚风格”的场景。此外,HOLODECK 还展示了其在空间推理方面的熟练程度,例如设计“由一条长走廊连接的三个教授办公室”的平面图,以及在场景中规则地排列物体。总体而言,HOLODECK 为 3D 环境生成提供了一种覆盖范围广泛的方法,其中文本提示解锁了场景创建中新的控制水平和灵活性。

请添加图片描述

如图说明了该模块提出的几种不同布局的示例,其中 HOLODECK 可生成适合即时需要的、复杂的多房间平面图。

请添加图片描述

如图所示,HOLODECK 可以根据场景类型生成具有合适材质的场景,例如在牢房场景中选择混凝土墙壁和地板。具有特定纹理要求的输入通常会反映在最终设计中,例如“粉红色”、“红色墙砖”和“方格地板”。

请添加图片描述

如图展示了 HOLODECK 在门窗方面的定制设计,例如方便“轮椅通行”的更宽的门和“日光室”环境中的多个落地窗。

请添加图片描述

如图显示了 HOLODECK 定制地板、墙壁、其他物品顶部甚至天花板上的各种物体的能力。

请添加图片描述

如图所示 LLM 生成的空间关系约束示例及其由约束满足算法找到的解决方案。HOLODECK 预定义了十种约束,分为五类:(1)全局:边缘、中间;(2)距离:近、远;(3)位置:前面、侧面、上面、上面;(4)对齐:中心对齐;(5)旋转:面向。LLM 为每个目标选择一个约束子集,形成房间的场景图。

请添加图片描述

上面定义的空间关系约束重新表述为数学条件(例如,如果两个目标共享相同的 x 或 y 坐标,则它们中心对齐)。为了找到满足 LLM 采样约束的布局,采用优化算法自回归地放置目标。该算法首先使用 LLM 识别一个锚目标,然后探索锚目标的位置。随后,它采用深度优先搜索 (DFS) 为剩余目标找到有效的位置。只有满足所有硬约束,位置才有效。该算法执行固定时间(30 秒)以获得多个候选布局并返回满足最多总约束的布局。

鉴于 LLM 的概率特性,HOLODECK 可以在相同提示下产生多个有效布局,如图所示。

请添加图片描述

如图所示,HOLODECK 的一个应用是合成训练环境以更好地匹配新的测试分布。为了研究这种应用,考虑 ObjectNav [1],这是一项常见任务,其中机器人必须导航至特定的目标类别。由于 ObjectNav 的现有基准 [5、6、38] 仅考虑家庭环境并且支持非常有限的目标类型集合(结合上述基准总共 16 种目标类型),引入了 NOVELTYTHOR,这是一个艺术家设计的基准,用于评估不同环境中的具身智体。随后,使用在 PROCTHOR-10K [23] 上预训练的 ObjectNav 模型,并在 HOLODECK 生成的 100 个场景上对其进行微调。这些场景是使用新的场景类型作为输入来提示 HOLODECK 创建的。然后在 NOVELTYTHOR 上对模型进行评估。

请添加图片描述

让两位专业数字艺术家手动创建了 10 个新的测试环境,每个环境为五个类别(办公室、日托、音乐室、健身房和游戏厅)各提供两个示例。每个场景都包含现有 ObjectNav 任务中未包含的新目标类型,例如音乐室中的“钢琴”、健身房中的“跑步机”等。在 NOVELTYTHOR 中,共有 92 种独特的目标类型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值