iGibson 1.0:大型现实场景中的交互式任务模拟环境

248 篇文章 0 订阅
196 篇文章 0 订阅

21年8月来自斯坦福的论文“iGibson 1.0: A Simulation Environment for Interactive Tasks in Large Realistic Scenes“。

iGibson 1.0,是一种模拟环境,用于开发大型现实场景中交互式任务的机器人解决方案。环境包含 15 个完全交互式的家庭大小场景,其中有 108 个房间,里面有刚体和铰接式物体。这些场景是真实世界家庭的复制品,物体的分布和布局与现实世界一致。iGibson 1.0 集成了几个关键功能,以促进交互式任务的研究:i)生成高质量的虚拟传感器信号(RGB、深度、分割、激光雷达、光流等),ii)域随机化以改变目标(视觉和物理)的材料和/或其形状,iii)集成的基于采样运动规划器,为机器人底座和手臂生成无碰撞轨迹,以及 iv)直观的人-iGibson 界面,可以高效收集人类演示。通过实验,场景的完全交互性使智体能够学习有用的视觉表征,从而加速下游操作任务的训练。iGibson 功能可以实现导航智体的泛化,并且人机界面和集成运动规划器有助于有效地模仿学习人类展示的(移动)操作行为。iGibson 1.0 开源,配备全面的示例和文档。

如图所示:机器人在 iGibson 1.0 中执行交互任务。它在 iGibson 一个完全交互场景的厨房中运行,使用集成的基于采样运动规划器,规划与手臂的交互,并采集第一人称视角。底部:同一场景可以随机化为不同的材料和/或目标模型。

请添加图片描述

有多种用于场景级交互任务的模拟环境,例如 Sapien [15]、AI2Thor [19]、VirtualHome [20] 和 ThreeDWorld (TDW [26])。这些模拟器采用不同的智体与世界交互方式。预定义动作 (PA) 由每种目标类型执行的一组动作组成。当智体足够接近某个目标且该目标处于正确状态 (先决条件) 时,目标可以选择预定义动作,然后该目标“转换”到下一个状态 (后置条件)。下表将这种技术称为具有预定义动作的刚体 (RBPA)。可以将具有预定义动作的刚体 (RBPA) 与刚体物理 (RBP) 结合起来,例如首先使用 RBPA 抓取目标,然后在释放后使用 RBP。

请添加图片描述

在最高级别,iGibson 遵循 OpenAI Gym [36] 惯例。环境接收动作并返回新的观察、奖励和其他元信息(例如,如果情节已经结束)。环境通过配置文件指定,配置文件确定场景、任务、机器人具身、传感器等。给定配置文件,iGibson 创建一个包含任务Task和模拟器Simulator的环境Environment。模拟器Simulator包含一个场景Scene,其中包含交互式目标Object列表和一个或多个机器人Robot实例。它还包含一个渲染器Render,可从任何角度生成虚拟视觉信号,例如安装在机器人上的摄像头或外部第三人称视角。任务Task定义场景和智体的奖励、初始和最终条件。虽然模块化且易于扩展,但大多数用户可能只需要在使用适当的配置文件实例化环境Environment 后与环境交互。

iGibson 附带多个易于使用的配置、演示和 Docker [37] 文件。它已被广泛用于训练可成功迁移到现实世界的视觉运动策略 [38、39、40、41],并且是 CVPR‘20 的 iGibson Sim2Real Challenge [42] 和 CVPR21 的 iGibson Challenge [43] 的平台。所提供的虚拟激光雷达传感器已用于机器人研究中社交导航 [44] 和移动操控 [10] 的规划和强化学习。iGibson 易于并行化,并支持集群上的离屏(off-screen)渲染。
iGibson 提供了 15 个高质量的完全交互式场景,包含 108 个房间(如图所示),其中充满了可交互的目标。这些场景是 Gibson v1 数据集中包含的 15 个 3D 重建场景的交互式版本。为了保留现实世界中的布局和目标分布,遵循一个半自动标注程序。这个过程与交互式 Gibson 基准(Interactive Gibson Benchmark) [35] 执行的注释截然不同。不是分割原始场景并用交互式目标模型替换部分网格,而是完全交互地从头开始创建 3D 重建。这消除了由于重建噪声或分割错误而修复原始网格中伪影的需要,并能够提高场景的整体质量。

请添加图片描述

场景生成过程由两个标注阶段组成。首先,用地板、墙壁、门和窗户打开标注场景的布局。然后,用 3D 边框和类标签标注所有目标。为 57 种不同的目标类别标注了边框,包括所有家具类型(门、椅子、桌子、橱柜、电视、架子、炉灶、水槽等)和一些小目标(植物、笔记本电脑、扬声器等)。标注带类别标签的边框,能够缩放和使用同一目标类别的不同模型,同时保持场景中目标的真实分布。通过这种方式,能够生成场景的真实随机版。为了实现最高质量,对于每个带类别标签的边框,选择最合适的目标模型。场景还标注了灯光,用灯光生成基于物理的渲染探照灯。还在墙壁、地板和天花板中加入了真实的光线追踪环境光和其他灯光效果。

目标模型来自开源数据集:ShapeNet [21]、PartNet Mobility [15, 45] 和 SketchFab。为了保留原始重建的视觉真实感,使用照片级真实感材料标注模型的不同部分,提高目标的视觉质量,然后 iGibson 基于物理的渲染器会使用这些材料。用来自 CC0Texture 的材料,包括木材、大理石、金属等。为了实现高度的物理真实感,策划从视觉材料到摩擦系数的映射。还为所有目标的每个链接计算碰撞网格、质心和惯性框架。为了给不同的目标分配真实的质量和密度,取亚马逊前 20 个搜索结果的中值。

此外,还提供与 Cubi-Casa5K [23] 和 3D-Front [24] 家庭场景存储库的兼容性。用它们的场景布局,并用带注释的目标模型填充它们,从而产生超过 12000 个交互式家庭场景。这些场景包含的目标比 15 个 iGibson 场景少,但提供了大量额外的模型来训练任务。

在 iGibson 中包含的完全交互式场景,支持在大型逼真的家庭场景中学习交互式任务。

iGibson 的一个关键组件是为模拟机器人生成高质量的虚拟传感器信号,即图像和点云。如图所示:

请添加图片描述

基于物理的渲染:在 iGibson 中,包含一个开源的基于物理渲染器,它实现了 BRDF 模型 [46] 的近似值,具有空间变化的材料图,包括粗糙度、金属和切线空间表面法线,延伸 [47]。

激光雷达传感:许多现实世界的机器人都配备了激光雷达传感器,用于检测障碍物。在 iGibson 中,支持虚拟激光雷达信号,包括 1 线束(例如 Hokuyo)和 16 线束(例如 Velodyne VLP-16)。包含一个简单的传感器噪声模型来模拟真实传感器中常见的故障情况,其中一些激光脉冲不会返回。此外,还提供将 1D 激光雷达扫描转换为局部占用图的功能,局部占用图是鸟瞰图,其中三种类型的像素表示空闲、占用或未知空间。

附加视觉通道:除了 RGB 和激光雷达,还支持各种视觉模式,例如深度图、光/场景流和法线、语义类、实例、材料和可移动部分的分割。这些模式可以支持以下研究主题:深度/分割/法线/affordance预测 [48、49、50]、动作条件流预测 [51]、多模态姿势估计 [52、53、54] 和假设完美视觉系统的视觉运动策略训练 [35、55]。

为了让策略更加稳健,对环境参数进行部分随机化是机器人学习的标准做法 [56, 57, 58, 59]。随着模型在广泛分布的环境中进行训练,它将更有可能推广到未知的评估环境。如果目标是在模拟中训练并将策略迁移到真实的机器人上,那么评估环境可能是现实世界。在 iGibson 中,包含域随机化,这会导致具有相同场景布局的视觉外观、动态属性和目标实例无限地变化。

首先,提供目标随机化。原始 3D 重建用类标记的目标边框进行注释。这些标签可用于将相应类的任何目标模型实例化到给定的边框中(例如,标记为“桌子”的边框可以用任何桌子模型填充)。这种随机化保持了场景的语义布局(即目标类别保持在相同的 3D 位置),同时实现了目标实例近乎无限的组合。它提供深度图和激光雷达信号的强烈变化,有助于根据这些观察结果强化策略。

其次,提供材料随机化。除了为目标和场景模型提供高质量的材料注释外,还提供了一种机制来随机化与每个目标部分相关的特定材料模型(例如,关联不同类型的木材或金属)。效果是鲜明的颜色随机化,但仍然代表了合理的材料组合。这种随机化会在 RGB 图像中产生强烈的变化,并有助于根据此观察结果强化策略。此外,所有目标链接的动态属性,都可以根据从视觉材料到动态属性精心策划的映射进行随机化。

运动规划器提供无碰撞轨迹,将机器人从初始配置移动到最终配置 [60]。它们可用于为机器人底座生成无碰撞导航路径,为机器人手臂生成无碰撞运动路径。在 iGibson 中,包括最流行的基于采样运动规划器实现:RRT [61]及其双向变型 BiRRT [62],以及惰性概率路线图 lazyPRM [63]。基于采样的运动规划器,可能具有相当次优和复杂的路径。为了缓解这种情况,包括加速度受限的快捷方式 [65] 以获得更平滑的路径。

提供人-iGibson界面 ,使用户能够使用查看器窗口上的鼠标和键盘命令在 iGibson 场景中导航和交互。用户可以导航和(拉、推、拾取和放置)与目标交互。虽然虚拟现实VR 或 3D 鼠标界面可以提供更直观的体验,但大多数用户并不具备所需的硬件。例如,该界面提供了一种自然而简单的方式进行模仿学习演示、评估任务的难度或可行性,或将场景更改为更好的初始状态。该界面还与运动规划器集成,以命令机器人达到所需的底座和/或手臂配置。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值