视觉定位新思路！HGSLoc：轻量、即插即用的位姿优化框架！-CSDN博客

本文链接：https://blog.csdn.net/weixin_46788581/article/details/142551266

0. 论文信息

标题：HGSLoc: 3DGS-based Heuristic Camera Pose Refinement

作者：Zhongyan Niu, Zhen Tan, Jinpu Zhang, Xueliang Yang, Dewen Hu

机构：National University of Defense Technology

原文链接：https://arxiv.org/abs/2409.10925

1. 引言

视觉定位是一个研究方向，旨在通过分析和处理图像数据来确定相机在已知场景中的位置和姿态。该技术在增强现实（AR）、机器人导航和自动驾驶等领域具有重要应用。通过使设备能够在复杂的3D环境中准确识别其空间位置，视觉定位促进了自主导航、环境感知和实时交互。视觉定位的核心目标是估计相机的绝对姿态。然而，由于光照变化、动态遮挡和视角变化等因素，这一任务极具挑战性，需要开发鲁棒且高效的算法来解决这些复杂性。

视觉定位的方法主要分为两大类：绝对姿态回归（APR）和场景坐标回归（SCR）。APR是一种端到端的深度学习方法，直接从输入图像中回归相机的姿态。APR的主要优势在于其简单性和计算效率。然而，APR在复杂或未见过的环境中表现出明显的局限性，其泛化能力较弱。相比之下，SCR采用了一种间接的姿态估计策略。它首先使用深度学习模型预测每个图像像素的3D场景坐标，然后通过这些坐标的空间变换来计算相机的姿态。虽然SCR在熟悉场景中表现出高精度和鲁棒性，但由于需要预测大量像素级坐标，它产生了相当大的计算成本。

在本文中，我们提出了一种基于经典视觉定位方法的新范式，旨在通过集成3D重建来提高视觉定位中姿态估计的精度和准确性。神经辐射场（NeRF）是一种基于神经网络的3D场景建模方法，能够通过神经网络训练合成和渲染高质量的3D场景图像。然而，NeRF的像素级训练和推理机制导致了显著的计算开销，限制了其实际应用。相比之下，3D高斯溅射（3DGS）通过将场景点表示为高斯分布来解决这个问题，从而显著降低了渲染过程中的数据处理负载。此外，3DGS利用CUDA内核函数加速训练和推理，成为3D重建领域中的一种重要方法。在已知或部分已知的静态环境中，已经开发了诸如3DGS-ReLoc和GSLoc等方法。3DGS-ReLoc方法使用归一化互相关（NCC）度量进行粗定位的效率网格搜索，这会影响定位精度。GSLoc方法具有更多步骤，并使用MASt3R进行辅助定位。而我们的方法是一个轻量级框架，能够对任何图像进行有效的位置优化。

绝对姿态回归（APR）和场景坐标回归（SCR）提供粗姿态估计，作为进一步细化的基础。为了实现高质量的场景渲染，我们引入了3D高斯溅射（3DGS），通过构建密集点云来丰富数据库图像，从而促进更详细的场景重建。在此基础上，我们采用启发式细化算法[19]来优化估计的姿态。该算法具有高效的路径查找能力，结合自定义的启发式函数，可以有效地调整当前姿态的渲染视图以匹配查询图像，从而实现更精确的姿态对齐。我们的模块化方法显著降低了对昂贵神经网络训练的依赖，与通常用于姿态优化的深度学习方法相比，提供了一种更具成本效益的解决方案。此外，我们的方法具有强大的泛化能力，即使在存在噪声姿态数据的情况下，也能保持快速收敛和姿态精度的显著提高。这种适应性在实际应用中尤为重要，因为它确保了所提出的方法可以在不同的平台和数据质量级别上部署，为各种场景提供稳健的解决方案。我们在几个基准数据集上进行了实验，包括7Scenes和DB，以证明我们方法的有效性。这些结果强调了我们方法在经典视觉定位数据集以及与3D高斯溅射相关的数据集上的性能。

2. 摘要

视觉定位是指在已知场景表示中确定摄像机姿态和方向的过程。这一任务通常因照明变化和视角变化等因素而变得复杂。在本文中，我们提出了一种新的轻量级、即插即用的姿态优化框架HGSLoc，它将3D重建与启发式优化策略相结合，以实现更高的姿态估计精度。具体来说，我们引入了用于3D表示和高保真渲染的显式几何图，允许生成高质量的合成视图来支持精确的视觉定位。与基于NeRF的神经绘制定位方法相比，我们的方法具有更快的绘制速度和更高的定位精度。我们引入了一种启发式的优化策略，其高效的优化能力可以快速定位目标节点，同时我们设置了步长级的优化步长来提高误差较小的场景下的位姿精度。通过精心设计的启发式函数，它提供了高效的优化能力，能够快速减少粗略定位估计的误差。与神经网络联合优化策略相比，我们的方法减轻了对复杂神经网络模型的依赖，同时在挑战性环境中展示了改进的抗噪声鲁棒性和更高的定位精度。本文提出的优化框架通过集成3D重建和启发式优化策略的优点引入了新的视觉定位方法，在多个基准数据集(包括7Scenes和DB数据集)上表现出了良好的性能。

3. 效果展示

如图1所示，通过集成3DGS，可以为姿态估计提供更丰富的几何信息，并通过粗位置估计的启发式优化，可以显著提高复杂场景中的定位精度。

4. 主要贡献

我们方法的贡献总结如下：

• 我们提出了一种轻量级、即插即用的姿态优化框架，便于对任何查询图像进行高效的姿态细化。

• 我们设计了一种启发式细化策略，并设置了步骤级优化步骤以适应各种复杂场景。

• 我们提出的框架在定位精度上高于基于NeRF的神经渲染定位方法[20]，并在噪声条件下优于神经网络联合姿态优化策略。

5. 方法

通过预训练的姿态估计器生成粗略的姿态估计，然后通过高斯致密化获得高质量的重建场景。场景中粗略姿态的渲染图像与查询图像差异显著。在应用启发式优化算法后，渲染图像与查询图像的匹配度显著提高，从而得到更准确的姿态估计。

6. 实验结果

对于 7scenes 数据集，我们在融合 HGSLoc 后评估了 Marepo 和 ACE 的性能。表 II 表明，我们的方法有效地减少了从 Marepo 和 ACE 获得的粗略姿态估计中的误差。与其他非回归姿态（NRP）方法相比，我们的方法实现了更小的相对姿态误差。此外，表 III 展示了相对姿态误差在 1 厘米和 1° 以内的查询图像的比例，显示在应用 HGSLoc 框架后有了显著改善。这表明我们的方法有效地优化了涉及小相对姿态误差的情况，从而进一步提高了准确性。

我们选择了两个场景“playroom”和“drjohnson”进行测试。对于Marepo和ACE方法，我们观察到粗略姿态误差显著较大。这可能是由于DB数据集相比7Scenes数据集具有更高的复杂性，以及训练数据有限，可能阻碍了模型收敛。因此，我们采用了一种替代方法（HLoc），该方法利用点云来获得初始姿态估计，并对比了结果。如表IV所示，通过提升（boosting）获得的改进并不明显，这可能是由于DB数据集的高图像质量，已经在使用HLoc框架时提供了相对准确的初步姿态。为了更好地展示我们姿态优化方法的有效性，表V引入了不同级别的步进噪声，使可视化结果更加直观。

7. 总结 & 未来工作

在本研究中，我们提出了一种轻量级、即插即用的视觉定位优化框架，该框架结合了启发式细化策略与三维重建技术，以显著提升姿态估计的准确性，并在两个数据集上实现了最先进的性能。与基于NeRF的神经渲染定位方法相比，所提出的方法展示了更快的渲染速度和更高的定位精度。通过集成精心设计的启发式函数，该方法能够有效地优化并快速减少粗定位估计中的误差。我们的模块化方法不仅减少了对复杂神经网络训练的依赖，增强了算法的灵活性和实用性，还在噪声环境中表现出色，有助于实现快速收敛和更高精度。这种鲁棒性确保了该方法在不同平台和不同数据质量下均能表现一致。综上所述，将启发式细化策略与三维高斯分布相结合，为视觉定位提供了一种新颖且有效的解决方案，为未来视觉定位系统的开发与优化提供了有价值的参考。

对更多实验结果和文章细节感兴趣的读者，可以阅读一下论文原文~

3D视觉工坊可提供顶会论文的课题如下：