摆脱高性能GPU依赖!MGSO:轻量、快速、精确的稠密SLAM

0. 论文信息

标题:MGSO: Monocular Real-time Photometric SLAM with Efficient 3D Gaussian Splatting

作者:Yan Song Hu, Nicolas Abboud, Muhammad Qasim Ali, Adam Srebrnjak Yang, Imad Elhajj, Daniel Asmar, Yuhao Chen, John S. Zelek

机构:University of Waterloo、American University of Beirut

原文链接:https://arxiv.org/abs/2409.13055

1. 摘要

具有密集3D映射的实时SLAM在计算上具有挑战性,尤其是在资源有限的设备上。三维高斯分布(3DGS)的最新发展为实时密集三维重建提供了一种有前途的方法。然而,现有的基于3DGS的SLAM系统难以平衡硬件简单性、速度和地图质量。大多数系统在上述一两个方面都很出色,但很少能实现所有方面。一个关键问题是在同时进行SLAM时初始化3D高斯分布的困难。为了应对这些挑战,我们提出了单目GSO (MGSO),这是一种集成光度SLAM和3DGS的新型实时SLAM系统。光度SLAM为3DGS初始化提供密集的结构化点云,加速优化并使用更少的高斯函数生成更高效的地图。结果,实验表明,我们的系统生成的重建具有质量、存储效率和速度的平衡,优于最先进的技术。此外,我们的系统实现了使用RGB输入的所有结果。我们针对当前的实时密集重建系统评估了副本、TUM-RGBD和EuRoC数据集。我们不仅超越了当代系统,而且实验还表明,我们在笔记本电脑硬件上保持了我们的性能,使其成为机器人、A/R和其他实时应用的实用解决方案。

2. 引言

同时定位与地图构建(SLAM)是自主机器人导航中的一项基础任务。它是指机器人在构建环境地图的同时,实时跟踪自身位置的过程。精确的自定位是执行高级移动机器人任务的重要前提。传统上,SLAM系统提供的地图表示在定位和基本导航方面效率较高,但缺乏执行复杂任务所需的细节。例如,稀疏点云虽然适用于定位,但缺乏机器人抓取所需的表面细节。对于这些复杂的机器人任务而言,密集且高保真度的空间数据变得日益重要。

为满足这一需求,SLAM系统已进化为能够在执行定位的同时生成密集3D地图。密集SLAM系统分为两类方法:解耦方法和耦合方法。解耦方法将跟踪与重建分开,使用传统SLAM系统为密集重建过程提供输出。耦合方法将密集重建与建图和跟踪相结合,提高了地图质量,但往往面临速度瓶颈,因为精确定位依赖于构建高质量的地图,这需要时间。

解耦系统中的一个关键挑战是SLAM和密集重建组件之间缺乏协同作用。SLAM算法往往无法为高质量密集重建提供最佳数据,从而损害了整体系统性能。为解决这一挑战,我们定制了SLAM系统以满足3D高斯溅射(3DGS)的特定需求。3DGS通常需要初始点云来开始重建,而更密集、结构良好的初始点云会带来更好、更快的结果。然而,传统的基于特征的SLAM方法产生的稀疏点云并不适合3DGS初始化。虽然RGB-D数据可以提供密集且准确的点云,但为获得更广泛的应用性,使用单目相机更为可取。

在本文中,我们介绍了单目高斯溅射优化(MGSO),这是一种密集视觉SLAM系统,它使用单个单目相机实时进行高质量的在线3D重建。MGSO是一个解耦系统,它采用光度SLAM来初始化并行运行的3D高斯溅射(3DGS)模块,从而实现实时密集场景重建。MGSO的缩写结合了直接稀疏里程计(DSO)(我们构建的光度SLAM系统的基础)和高斯溅射(GS)。与生成稀疏点云的传统基于特征的SLAM方法不同,MGSO旨在跟踪一组密集的像素,从而产生更密集且结构良好的点云输出。我们利用这种密集且结构化的点云来在未映射区域初始化3D高斯溅射(3DGS)。使用高质量的点集进行初始化可以加速3DGS优化,引导其生成更紧凑、伪影更少、冗余度更低的重建结果。因此,我们的方法能够实现具有高质量和内存紧凑性的密集3D地图的实时重建。

3. 效果展示

图1展示了TUM-RGBD数据集的定性渲染结果,输入为点云。通过以密集、结构化的点云初始化3D高斯溅射(3DGS),MGSO能够生成内存效率高且高质量的重建结果。

图片

早期的基于3D高斯溅射(3DGS)的SLAM系统,如MonoGS、SplaTAM、GS-SLAM和高斯-SLAM,采用了一阶段方法,其中跟踪和建图紧密耦合。这种方法导致在跟踪之前必须依赖于地图细化,因此如表I所示,性能较慢。即使是更新的耦合系统,如CG-SLAM、RTG-SLAM和SplatSLAM,也难以实现超过20帧每秒(fps)的运行速度。为了使密集3DGS-SLAM运行得更快,出现了如Photo-SLAM、IG-SLAM和GS-ICP等两阶段系统,这些系统将跟踪和建图功能解耦。此外,当前的大多数3DGS系统都严重依赖于深度数据来进行3D重建(如表I所示),这使得它们依赖于RGB-D传感器。

图片

我们的系统MGSO在仅使用RGB数据的情况下,对现有的两阶段基于3DGS的SLAM系统进行了改进。它以30 fps或更高的速度运行,这一性能仅与Photo-SLAM和GS-ICP相当(见表I)。虽然MGSO与结合了3DGS和ORBSLAM3的Photo-SLAM最为相似,但我们解决了Photo-SLAM倾向于创建大型且内存效率低下的地图的问题。GS-ICP提供了出色的速度,但需要深度数据来初始化其迭代最近点跟踪,而我们的系统仅使用RGB数据即可运行。与以牺牲性能为代价使用伪深度RGBD数据的IG-SLAM不同,MGSO在保持实时速度的同时,能够生成准确且紧凑的地图。

4. 主要贡献

MGSO的主要贡献如下:

• 一个实时密集SLAM系统,充分利用了光度SLAM和3DGS之间的协同作用。

• 我们的系统仅需要一个单目相机。

• 实验表明,我们的系统在速度、地图质量和内存效率方面,与其他密集SLAM系统相比具有无可比拟的优势。

5. 方法

我们系统的跟踪主干基于源自直接稀疏里程计(DSO)的一系列视觉SLAM方法构建。DSO的关键创新在于证明了与图像中使用所有像素相比,对光度跟踪进行选择性像素采样可以提高定位精度。我们选择基于DSO进行构建,因为我们发现其像素选择策略也与3D高斯溅射(3DGS)的初始化非常契合。DSO在连续帧i和j中跟踪一组像素,通过最小化每个跟踪像素的光度损失方程来优化相机位姿(p)。

在每一帧中,我们系统的跟踪过程都会计算相对于最新关键帧的位姿变化,同时假设地图是固定的。只有在插入关键帧时,才会调整跟踪像素的地图。新的关键帧是一个参考帧,相对于现有的关键帧,它捕捉到了场景中一个独特的视图。在完成建图后,会调整所有当前关键帧的位姿和由跟踪像素点组成的地图。然后,我们的系统将跟踪像素的地图转换为点云地图,并将其与关键帧位姿一起添加到密集重建模块中。我们采用了DSO的窗口化关键帧管理策略,该策略在检测到视场、旋转或光照发生显著变化时生成关键帧。如果关键帧的数量超过了窗口大小(默认为8),则会使用基于距离的评分来移除较旧的关键帧,以确保在3D空间中有一组分布良好的关键帧。

图片

我们方法的灵感来源于对原始3DGS的最终3DGS高斯位置的分析(见图3)。我们意识到,最终地图的高斯最终位置、颜色和分布与DSO的点云输出相似(见图3)。基于这一观察,我们推测,使用光度SLAM初始化3DGS是可行的。DSO结构良好的密集点云的一个重要方面是其像素选择策略。DSO通过将图像划分为块,并在每个块中选择高于梯度阈值的最高梯度像素来进行像素选择。然后,它会使用较低的阈值和更大的块重复此过程。这种方法不仅可以在复杂区域跟踪更多的像素,还可以确保在更简单区域进行像素选择。这与传统方法不同,传统方法通常只跟踪易于识别的特征,如角点和边缘。这两种方法之间的差异可以在图4中观察到。推荐课程:彻底剖析激光-视觉-IMU-GPS融合SLAM算法:理论推导、代码讲解和实战

图片

这一点很重要,因为我们观察到,虽然完成的3DGS地图在复杂区域有更多的高斯点,但它们仍然在非复杂区域保留了一些高斯点。此外,DSO跟踪的是具有高梯度的像素,这些像素比可跟踪的特征点要常见得多。因此,DSO输出的点云与完成的3DGS地图的密度更为接近。我们的实验表明,虽然DSO的像素选择密度对于跟踪是最优的,但增加像素选择密度可以提高3DGS的性能,特别是在对跟踪具有挑战性的低梯度区域。为了解决这个问题,我们修改了DSO,使其包含未用于位姿估计的额外跟踪像素,以增加输出点云的密度(见图5)。这一修改使系统同时拥有了跟踪和3DGS所需的最优像素密度。

图片

尽管进行了这些增强,但在梯度极小或没有梯度的平坦区域,跟踪像素仍然很少。这是因为DSO的像素跟踪系统至少需要一些梯度来进行跟踪,因此,在没有梯度的区域,像素根本不会被跟踪。因此,我们实现了一种插值方法,该方法根据附近的跟踪像素来估计低梯度区域的点位置。我们的方法使用Delaunay三角剖分算法,以跟踪像素为顶点,将图像划分为一系列三角形。每个插值点的深度计算为其所在三角形顶点的平均深度,这通常能为平面上的像素提供准确的结果。虽然像Photo-SLAM这样的基于特征的系统也会对非活动的2D特征点进行插值,但由于我们的方法具有更高的初始点数,并且专注于在插值最准确的平坦区域进行插值,因此我们的方法优于它们,这可以在图3中观察到。

6. 实验结果

图片

图片

图片

图片

7. 总结 & 未来工作

多目标遗传模拟优化(MGSO)将实时光度同步定位与地图构建(SLAM)与三维高斯溅射(3DGS)相结合,仅使用单目相机即可实现密集、高质量且内存高效的三维重建。我们的方法解决了多个挑战,以充分利用这两种技术的自然兼容性。它在各种环境中都得到了验证,无需使用深度传感器,因此在机器人技术、增强现实/虚拟现实(AR/VR)和数字孪生应用中表现优异。未来的研究可以探索实现全局一致性的闭环检测和自适应场景重建的实时重新渲染,从而在复杂、大规模环境中提高MGSO的精度和效率。

对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值