3DS-SLAM: A 3D Object Detection based Semantic SLAM towards Dynamic Indoor Environments
摘要: 环境中可变因素的存在可能会导致相机定位精度下降,因为它违反了同步定位与建图(SLAM)算法中静态环境的基本假设。最近针对动态环境的语义 SLAM 系统要么仅依赖于 2D 语义信息,要么仅依赖于几何信息,或者以松散集成的方式组合它们的结果。在这篇研究论文中,介绍了 3DS-SLAM(3D 语义 SLAM),专为具有视觉 3D 对象检测的动态场景而定制。 3DS-SLAM 是一种紧耦合算法,可依次解决语义和几何约束。本文设计了一个 3D 部分感知混合transformer,用于基于点云的对象检测来识别动态对象。随后,提出了一种基于 HDBSCAN 聚类的动态特征过滤器来提取具有显着绝对深度差异的对象。与 ORB-SLAM2 相比,3DS-SLAM 在 TUM RGB-D 数据集的动态序列上平均提高了 98.01%。此外,它超越了其他四种专为动态环境设计的领先 SLAM 系统的性能。
引言:
适用于室内动态环境的 3D 视觉 SLAM 系统。现有的 ORB-SLAM2 由于移动人员的动态特征而失败,导致估计的轨迹无法使用。 3DS-SLAM采用HTx架构进行3D物体检测,并利用HDBSCAN提取动态特征(红点)并提高整体稳定性。
3DS-SLAM 建立在 ORB-SLAM2的基础上,提出了用于语义信息(3D 对象检测)的混合Transformer架构(HTx),并使用 HDBSCAN(基于分层密度的空间聚类)来解决几何约束,HTx 结果如图所示如图 1 所示。在 SLAM 中使用 3D 对象检测而不是 2D 对象检测可以改善空间理解、更好的遮挡处理、准确的尺度估计和增强的运动跟踪功能。
- 贡献:
- 轻量级 3D HTx 对象检测架构集成了本文的视觉 SLAM 系统,可为动态环境提供 3D 语义空间信息。
- 集成HTx 和HDBSCAN 的新型端到端管道,可有效解决语义和几何约束,优化整体性能。
- 实验验证表明,3DS-SLAM 增强了动态场景中的姿态准确性和稳定性,优于现有方法。
方法:
它主要分为三个部分:1.) 3D 对象检测线程。 2.) 动态特征去除线程。 3.) 跟踪、局部建图、局部闭环线程改编自 ORB-SLAM2。
所提出的 3DS-SLAM 通过合并两个附加线程(3D 对象检测和动态特征过滤器)扩展了最初为静态环境设计的 ORB-SLAM2 的功能。这些线程有效地过滤动态点,确保精确的相机轨迹估计。对于语义信息,3D 对象检测线程采用轻量级 HTx 架构,而动态特征过滤线程利用基于几何深度的 HDBSCAN 聚类来区分动态点。该系统利用 HTx 架构从 RGB 和深度图像提取的点云中提取语义信息。
-
Hybrid Transformer:轻量级 3D 物体探测器
在视觉 SLAM 中,传感器捕获的帧通常表现出不完整的前景物体,这可能会导致物体检测受损。这就需要开发能够意识到这些不完整的对象部分表示的部分对象定位方法。所提出的 HTx 架构将输入作为 3D 点云来预测对象位置,包括对象的深度、方向和位置。我们提出的 HTx 架构是基于(From points to parts: 3d object detection from point cloud with part-aware and part-aggregation network.)的部分感知对象定位和(An end-to-end transformer model for 3d object detection.)的类感知对象定位的构建块而设计的。 HTx 架构在数据层面与现有的 Transformer 架构不同,它结合了点云预处理并利用点和体素特征进行零件感知对象定位。
点云由一组无序的 N 个点组成,每个点都与其 3 维 XYZ 坐标无缝关联。由于与图像相比,它们的计算复杂性增加,因此本研究努力进行广泛的预处理以有效压缩点云。此外,点云固有的排列不变性,加上颜色信息和点法线的包含,也会导致 3D 对象检测的大量计算开销。受先前工作的启发,HTx 架构通过放弃使用颜色和点法线信息进行对象检测来优先考虑实时效率。此外,还执行了重要的数据预处理技术,例如体素下采样、平面滤波、基于半径的异常值去除。
Transformer 架构:3DS-SLAM 采用 3D 对象检测框架,该框架基于 Facebook AI Research的开创性 3DETR 架构构建。本文对该架构进行了重大修改,以增强其与视觉 SLAM 系统的兼容性,特别是通过增强中引入的局部感知对象检测层。这解决了现有视觉 SLAM 系统中的一个关键缺陷,即由于部分可见的物体、相机旋转和其他环境因素,该系统无法解决关键机器人应用中的物体检测问题。由于为部分感知和类感知对象定位设计损失函数的复杂性,开发了两个单独的损失函数。
预测 MLP(多层感知器)生成 3D 边界框 b ^ \hat{b} b^ ,并使用实际框 b 进一步评估。每个预测框 b ^ = [ c ^ , d ^ , a