Habitat-Matterport 3D 数据集:1000 个用于具身 AI 的大型 3D 环境

21年3月来自Facebook AI,UT Austin,Georgia Tech,Simon Fraser U 和 Cornell U的论文“Habitat-Matterport 3D Dataset (HM3D): 1000 Large-scale 3D Environments for Embodied AI”。

Habitat-Matterport 3D (HM3D) 是一个大型数据集,包含来自现实世界中各种位置的 1,000 个建筑物规模的 3D 重建。数据集中的每个场景都由内部的纹理 3D 网格重建组成,例如多层住宅、商店和其他私人室内空间。HM3D 在物理规模、重建完整性和视觉保真度方面超越了很多可用于学术研究的数据集。HM3D 包含 112.5k 平方米的可导航空间,比其他建筑物规模的数据集(如 MP3D 和 Gibson)大 1.4 - 3.7 倍。与现有的照片级逼真的 3D 数据集(如 Replica、MP3D、Gibson 和 ScanNet)相比,从 HM3D 渲染图像的视觉保真度要高 20 - 85%。用真实相机拍摄的对应图像,由于表面重建不完整,HM3D 网格的伪影减少了 34 - 91%。

HM3D 的规模、保真度和多样性的增加直接影响使用它训练的具身 AI 智体性能。事实上,HM3D 在以下意义上是“Pareto 最优”的——无论是在 HM3D、Gibson 还是 MP3D 上进行评估,在 HM3D 上训练执行 PointGoal 导航的智体都能实现最高性能。在其他数据集上进行训练则不能做出类似的说法。HM3D 训练的 PointNav 智体在 Gibson 测试数据集上实现了 100% 的性能。

如图所示:Habitat-Matterport 3D (HM3D) 。左侧的图像显示 HM3D 扫描子集的拼贴画。右上角的图像是特定扫描的特写视图,右下角的图像是扫描中两个摄像机视点的快照。

请添加图片描述

如图是HM3D 数据集中的两个示例场景。每行从左到右依次为:自上而下的视图、横截面视图和两个从场景中可导航位置拍摄的自我中心视图。该数据集包含各种环境,例如住宅、商店和工作场所。

请添加图片描述

下表是HM3D 与其他室内场景数据集的比较。Gibson 4+ 指的是 Gibson 场景中被评为“高质量”且重建误差相对较小的子集 [6]。HM3D 超越了之前可用的数据集,扫描次数增加了 1.8 倍,总物理尺寸增加了 1.6 - 3.6 倍,提供了 1.2 倍的杂乱场景,并且导航复杂度相对较高。

请添加图片描述

在 PointGoal 导航(又名 PointNav)任务 [7] 上对具身智体进行了基准测试,该任务已成为探索导航理念的标准测试平台 [29、31-33] 和更多语义任务的起点 [34-36]。在 PointNav 中,智体会随机生成在新环境中,并被赋予相对于其起始位置的导航目标坐标 (∆x, ∆y)。它必须使用视觉输入(RGB 或深度传感器)有效地导航到该目标。具体来说,考虑 PointNav-v1 任务 [6],其中智体的观察空间由 256 × 256 RGB-D 视觉输入和用于定位的 GPS+指南针读数组成。智体的动作空间是 [向前移动、左转、右转、停止]。前进步长为 0.25 米,转弯角度为 10 度。如果智体到达目标位置 0.2 米范围内并执行 STOP,则算成功。用 (1) Success(衡量成功完成的情节比例)和 (2) SPL(衡量相对于最短路径的导航效率)来评估 PointNav 性能 [7]。

在 Gibson 4+、Gibson、MP3D 和 HM3D 数据集上训练和评估 PointNav 智体。将 1,000 个 HM3D 场景划分为 800 个训练/100 个验证/100 个测试场景的不相交集。对 Gibson 4+ 和 MP3D 使用标准训练/验证/测试分割 [6]。用 Savva 的生成脚本为完整的 Gibson 训练场景和 HM3D 创建新的 PointNav 情节数据集 [6]。具体来说,为 Gibson 生成了 4.11M 训练集,为 HM3D 生成了 8.0M 训练集 / 2500 验证集 / 2500 测试集。这些分割是公开的,有助于提高可重复性:https://github.com/facebookresearch/habitat-lab。一般来说,MP3D具有最难的情节,而 Gibson 的情节最容易。

用标准智体架构对不同的数据集进行训练 [29]。ResNet-50 主干提取视觉特征 [37],MLP 从 GPS+指南针读数中提取位置特征。LSTM 状态编码器随时间聚合这些特征 [38],并使用全连接层来预测动作日志(即策略)和状态值(即价值函数)。然后从预测的动作日志中随机抽样动作。用 DD-PPO 训练智体 15 亿帧,结果显示这足以实现接近最先进的性能 [29]。

分别针对两种类型的输入对智体进行基准测试。对于“RGB 输入”,使用 RGB 和 GPS+指南针传感器进行导航。对于“深度图输入”,使用深度图和 GPS+指南针传感器进行导航。为简便起见,“X 智体”是指在数据集 X 上训练的智体(例如 Gibson 智体),“X 智体 (R, D)”表示 X 智体在 RGB ® 和深度图 (D) 输入下的 SPL 性能。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值