DeViLoc视觉定位_learning to produce semi-dense correspondences for-CSDN博客

本文链接：https://blog.csdn.net/weixin_45761399/article/details/139414159

Learning to Produce Semi-dense Correspondences for Visual Localization

论文：https://arxiv.org/pdf/2402.08359

摘要： 这项研究解决了在夜间场景、恶劣天气和季节变化等苛刻条件下执行视觉定位的挑战。虽然许多先前的研究都集中在提高图像匹配性能以促进图像之间可靠的密集关键点匹配，但现有方法通常严重依赖于重建 3D 模型上的预定义特征点。因此，他们往往会在匹配过程中忽略未观察到的关键点。因此，密集的关键点匹配没有得到充分利用，导致准确性显着降低，特别是在嘈杂的场景中。为了解决这个问题，我们提出了一种新颖的定位方法，该方法基于密集关键点匹配提取可靠的半密集 2D-3D 匹配点。该方法涉及使用点推理网络将半密集 2D 关键点回归为 3D 场景坐标。该网络利用几何和视觉线索，有效地从观察到的关键点推断出未观察到的关键点的 3D 坐标。丰富的匹配信息显着提高了相机姿态估计的准确性，即使在涉及噪声或稀疏 3D 模型的场景中也是如此。综合评估表明，该方法在具有挑战性的场景中优于其他方法，并在大规模视觉定位基准中取得了有竞争力的结果。

这篇文章提出了一种新的基于特征匹配的半稠密视觉定位（DeViLoc）方法，旨在预测稠密的2D-3D匹配关系以实现稳健和准确的定位。与现有的仅依赖于预先存在的3D点的特征匹配（FM）方法相比，DeViLoc直接将半稠密的2D-2D匹配转换为2D-3D匹配。

方法：主要两个组件
1、点推理网络（PIN）：将所有的2D关键点（观察到的和未观察到的）回归到3D场景坐标。该过程涉及将观察点的场景几何图形编码为潜在向量，并通过注意力层将 3D 信息传播到未观察到的位置。
2、基于置信度的点聚合模块（CPA）：聚合来自多个查询-参考对的 2D-3D 匹配，识别与多个匹配视图中相同 2D 关键点相对应的一致且高度可信的 3D 点。此步骤有效地去除了密集匹配中的异常值，并且过滤后的 2D-3D 匹配加快了基于 RANSAC 的姿态估计。
在这里插入图片描述
DeViLoc 总体框架图。

首先，采用特征匹配器来检测每对查询参考图像的 2D-2D 匹配。随后，PIN 模块根据参考图像中观察到的数据推断出所有检测到的 2D 关键点的一组 3D 坐标。最后，CPA 模块集成在所有查询-参考对中获得的所有 2D-3D 匹配。

Point Inference Network（点云推理网络）
在这里插入图片描述
学习所有关键点和观察深度的嵌入。随后，注意力层被用于几何和视觉引导。最后，利用学习到的潜码对3D点连同置信度值进行回归。
PIN旨在利用观察到的关键点，观察到的深度和特征图来估计参考关键点的深度。
为了实现几何引导，使用两个基于MLP的编码器来学习所有2D关键点坐标，以及观察到的深度的嵌入，此外还利用自注意力层从观察到的深度对场景几何进行编码。
观察到的和未观察到的关键点之间的相对位置充当将深度信息从观察到的位置传播到未观察到的位置的主要几何线索。用潜码表示观察到的位置，该代码由关键点嵌入和深度特征组合而成，然后将这些潜码传递到较差注意力层生成与参考关键点相关的潜码。
为了缓解因观测数据稀疏性造成的鲁棒性差，引入视觉特征提供更详细的信息。此处利用了图一的双线性网络。
在学习了对应参考关键点的最终潜在特征，使用两个基于MLP的网络来预测深度和置信度。

Confidence-based Point Aggregation（基于置信度的点聚合）
PIN生成2D-3D对应关系，以及每个查询-参考对的相关置信度值。CPA的目标是消除聚合匹配中的异常值，并确定高置信度和一致性的最终匹配。
首先通过一个阈值丢弃置信度较低的匹配，然后使用关键点量化对相邻匹配进行分组，如果两个关键点的坐标比 s （{2，4}）个像素更近，则将这些关键点分配到同一组。一旦识别出同一组内的匹配项，就使用基于置信度的平均操作将它们合并。
在这里插入图片描述
实验略
补充
注意力层省略了传统的位置编码步骤，因为其提出的网络显式地学习了关键点嵌入来指导深度估计。利用一个交叉注意力层和三对自注意力层和交叉注意力层来分别执行几何（等式 7）和视觉引导（等式 9）。
略