CVPR'24开源 | 吊打LightGlue！OmniGlue：最强通用特征匹配！-CSDN博客

本文链接：https://blog.csdn.net/weixin_46788581/article/details/139282081

点击下方卡片，关注「计算机视觉工坊」公众号
选择星标，干货第一时间送达

作者：Hanwen Jiang | 编辑：计算机视觉工坊

添加小助理：dddvision，备注：方向+学校/公司+昵称，拉你入群。文末附行业细分群

扫描下方二维码，加入3D视觉知识星球，星球内凝聚了众多3D视觉实战问题，以及各个模块的学习资料：近20门视频课程（星球成员免费学习）、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研，欢迎扫码加入！

1. 这篇文章干了啥？

局部图像特征匹配技术提供了两幅图像之间的细粒度视觉对应关系，这对于实现准确的相机姿态估计和三维重建至关重要。过去十年见证了从手工制作到基于学习的图像特征的演变。最近，提出了新颖的可学习图像匹配器，展示了对传统基准测试性能的不断改进。尽管取得了实质性进展，但这些进步忽视了一个重要方面：图像匹配模型的泛化能力。如今，大多数本地特征匹配研究集中于具有丰富训练数据的特定视觉领域，导致了在训练域上高度专业化的模型。不幸的是，我们观察到这些方法的性能通常在域外数据上急剧下降，这些数据可能在某些情况下甚至没有传统方法显著更好。基于收集高质量对应标注的成本，我们认为假设每个图像领域都有丰富的训练数据可用是不现实的，就像在其他一些视觉任务中一样。因此，社区应该专注于开发架构改进，使可学习匹配方法泛化。

受以上观察启发，我们提出了OmniGlue，这是第一个以泛化为核心原则设计的可学习图像匹配器。在基于领域无关的本地特征的基础上，我们引入了提高匹配层泛化性的新技术：基础模型引导和关键点位置注意引导。借助引入的技术，我们使OmniGlue在分布外域上更好地泛化，同时保持源域上的优质性能。

首先，我们融合了基础模型的广泛视觉知识。通过在大规模数据上训练，基础模型DINOv2在各种图像领域的各种任务中表现良好，包括稳健的区域级匹配。尽管基础模型产生的匹配结果的粒度有限，但这些模型在专门的匹配器无法处理领域转移时提供了可泛化的潜在匹配区域的指导。因此，我们使用DINO来引导图像之间的特征传播过程，降低不相关的关键点，并鼓励模型融合来自潜在匹配区域的信息。

其次，我们还使用关键点位置信息引导信息传播过程。我们发现，先前的位置编码策略在将模型应用于不同领域时会影响性能，这促使我们将其与用于估计对应关系的匹配描述符解耦。我们提出了一种新颖的关键点位置引导注意机制，旨在避免在关键点和相对姿态变换的训练分布中过于强烈地专门化。

在实验中，我们评估了OmniGlue在不同视觉领域中的泛化能力，跨越了从场景级到物体中心和航空数据集的合成和真实图像，以及小基线和宽基线相机。我们展示了与先前工作相比的显著改进。

2. 摘要

图像匹配领域一直在不断涌现新的可学习特征匹配技术，其在传统基准测试上的性能不断提高。然而，我们的调查表明，尽管取得了这些进展，但它们在真实世界应用中的潜力受到了限制，因为它们对新颖图像领域的泛化能力有限。在本文中，我们介绍了 OmniGlue，这是第一个以泛化为核心原则设计的可学习图像匹配器。OmniGlue利用视觉基础模型的广泛知识来指导特征匹配过程，提高了对训练时未见过的领域的泛化能力。此外，我们提出了一种新颖的关键点位置引导的注意力机制，该机制能够解耦空间和外观信息，从而提高了匹配描述符的性能。我们在包括场景级、以对象为中心和航拍图像在内的 7 个数据集上进行了全面实验。OmniGlue的新颖组件相对于直接可比较的参考模型，使未见领域的相对增益达到了 20.9%，同时也优于最近的 LightGlue 方法，相对增益达到了 9.5%。代码和模型可以在https://hwjiang1510.github.io/OmniGlue/找到。

3. 效果展示

OmniGlue是一个通用的可学习匹配器。引入基础模型指导和增强的注意机制，OmniGlue学习有效的图像匹配，能够在训练过程中未见的图像领域中进行良好的迁移。我们将其与参考方法SIFT和SuperGlue进行比较，在一系列多样化的数据集上取得了显著的改进：室外场景（MegaDepth-1500的姿态AUC@5°），室内场景（ScanNet的姿态精度@5°），航空场景（DeepAerial的PCK@1%）以及以对象为中心的图像（GSO-Hard和NAVI-MultiView/NAVI-Wild的姿态精度@5°）。

4. 主要贡献

1.我们将基础模型引导引入到可学习特征匹配过程中，利用广泛的视觉知识增强了在训练时未观察到的领域中的对应关系，使姿态估计精度提高了最多5.8%（相对提高了14.4%）。

2.一种新的关键点位置编码利用策略，避免了过度依赖于来自训练领域的几何先验，使跨域传输提高了最多6.1%（相对提高了14.9%）。

3.我们在来自各种领域的7个数据集上进行了全面的实验，展示了现有匹配方法的有限泛化能力以及OmniGlue的强大改进，在所有新领域中的平均相对增益为20.9%。

4.通过使用来自目标域的有限数据对OmniGlue进行微调，我们展示了OmniGlue可以轻松适应，并提高了最多8.1%（相对提高了94.2%）。

5. 基本原理是啥？

OmniGlue概述。我们使用冻结的DINO和SuperPoint来检测关键点并提取特征。然后，我们构建密集连接的图像内关键点图，并利用DINO特征构建图像间的图。我们根据构建的图对关键点特征进行了细化，执行信息传播。在此过程中，我们仅使用关键点位置进行指导，将其与关键点局部描述符区分开来。最后，基于更新后的关键点局部描述符生成匹配结果。

（左）构建图像间图。我们根据 DINO 特征相似性对密集的成对图进行修剪。（右）位置引导的注意力。关键点位置参与计算注意力权重，而输出注意力更新仅由局部描述符组成。

6. 实验结果

从Synthetic Homography到MegaDepth。如表2所示，与基准方法SuperGlue相比，OmniGlue不仅在领域内数据上表现出优越性能，而且表现出强大的泛化能力。即使从SH100到SH200的数据分布发生轻微变化，SuperGlue的性能也会大幅下降，精度和召回率均降低20%。这一结果表明，SuperGlue过度依赖于学习到的位置相关模式，无法处理进一步的图像变形失真。相反，OmniGlue展示了强大的泛化能力，在精度上比SuperGlue提高了12%，在召回率上提高了14%。同样，在从SH200到MegaDepth的转移过程中，OmniGlue在召回率上实现了显著的15%改进。

从MegaDepth到其他领域。如表3所示，与所有其他方法相比，OmniGlue不仅在MegaDepth-1500上实现了与最先进的稀疏匹配器LightGlue可比较的性能，而且在6个新领域中的5个上表现出更好的泛化能力。具体而言，在MegaDepth-1500上，OmniGlue相对于基准方法SuperGlue展示了12.3%的相对增益（姿态AUC @5°）。在6个新领域中，OmniGlue相对于SuperGlue和LightGlue分别展示了20.9%和9.5%的平均相对增益（对于姿态和最严格阈值下的注册准确性）。此外，OmniGlue在更难的新领域上对LightGlue展示了更大的性能提升，例如在GSO-Hard、NAVI-Wild和DeepAerial上。我们在图5和图4中展示了在新领域上的zero-shot泛化和在源领域上的性能。

如表4所示，OmniGlue更容易适应目标领域。具体而言，在从0到30个实例进行训练时，OmniGlue在两个测试子集上始终表现出增强的性能。仅使用10个实例进行训练时，OmniGlue将姿态估计准确度提高了5.3%和4.0%。通过加入10个以上的对象来扩展训练集，性能进一步提高了2%。此外，OmniGlue在所有实验中始终优于SuperGlue，实现了约10%的相对增益。这些结果共同证明了OmniGlue在真实场景中作为一种多功能和泛化方法的适用性。

消融研究和见解。我们对每个提出的模块进行了全面的消融研究，详见表5。请注意，GSO数据集上报告的数字基于一个子集，包含了所有测试案例的一半，以进行快速评估。每种提出技术的有效性。表5中的结果突显了我们基础模型指导的有效性，提升了在领域外数据上的泛化能力。此外，表5中的第三行展示了位置引导注意力的影响，在领域内和领域外数据上都有所改善。此外，我们采用不同的方法对关键点位置特征进行解耦的消融实验。表5中的前两行表明，当不使用任何位置特征或仅在自注意力上应用位置引导（而不在交叉注意力上应用位置引导）时，性能会下降。这突显了我们位置引导注意力在促进信息在图像内和图像间上的传播方面的有效性。此外，即使在领域内性能下降，删除位置嵌入后，模型也表现出更好的泛化。这一结果表明，SuperGlue使用位置信息的不当方式限制了其泛化能力。

整合DINO特征的方式。如表5（3）所示，我们探索了整合DINOv2的不同方法。第一种方法涉及合并DINO特征和SuperPoint局部描述符。这种整合是在信息传播模块之前使用MLP进行的。实验结果显示性能下降，表明这两个特征不兼容，可能是由于DINO的粗粒度。如何有效地合并这些特征仍然是一个未解决的问题。第二种方法涉及应用DINOv2指导构建图像内和图像间图的方法，与（5）相比，表现出性能降低。我们假设原因在于图像内信息传播（自注意力）需要全局上下文，特别是用于在特征空间中区分所有关键点。减少图像内图的连接性会对全局上下文产生不利影响，与在SuperGlue中注意力范围研究中的发现一致。

基础模型指导的细节。我们消融了用于确定在图中其他图像中源关键点数量的超参数，如表5（4）所示。结果表明，选择其他图像中前一半关键点用于构建图像间图是最佳选择。

7. 总结 & 未来工作

我们提出了OmniGlue，这是第一个以泛化为核心原则设计的可学习图像匹配器。我们引入了基础模型的广泛视觉知识，这指导了图构建过程。我们确定了先前描述符-位置交织表示的局限性，并提出了一种新颖的注意模块来处理它。我们证明了OmniGlue在跨域泛化方面优于先前的工作。此外，OmniGlue还可以轻松适应目标域，只需收集少量数据进行微调。对于未来的工作，值得探索如何利用目标域中的未注释数据来提高泛化能力。更好的架构设计和更好的数据策略都可以为基础匹配模型铺平道路。

8. 参考

[1] OmniGlue: Generalizable Feature Matching with Foundation Model Guidance

计算机视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群，包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向，细分群包括：

2D计算机视觉：图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型：NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉：相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM：视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶：深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、BEV感知、Occupancy、目标跟踪、端到端自动驾驶等。

三维重建：3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机：四旋翼建模、无人机飞控等

除了这些，还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群

添加小助理: dddvision，备注：研究方向+学校/公司+昵称（如3D点云+清华+小草莓）, 拉你入群。

▲长按扫码添加助理

3D视觉学习知识星球

3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括：星球视频课程近20门（价值超6000）、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球，一起学习进步。

▲长按扫码加入星球

3D视觉课程官网：www.3dcver.com

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪，无人机等。

▲长按扫码学习3D视觉精品课程

3D视觉相关硬件

图片	说明	名称
	硬件+源码+视频教程	精迅V1(科研级)）单目/双目3D结构光扫描仪
	硬件+源码+视频教程	深迅V13D线结构光三维扫描仪
	硬件+源码+视频教程	御风250无人机(基于PX4)
	硬件+源码	工坊智能ROS小车
	配套标定源码	高精度标定板(玻璃or大理石)
添加微信:cv3d007或者QYong2014 咨询更多