简介
图像匹配旨在识别图像之间相应的像素位置,在广泛的科学学科中至关重要,有助于图像配准、融合和分析。近年来,基于深度学习的图像匹配算法在快速准确地找到大量对应关系方面大大优于人类。然而,当处理在不同成像模态下捕获的图像时,由于带注释的跨模态训练数据的稀缺,这些算法的性能往往会恶化。这种限制阻碍了各个领域中依赖多种图像模态来获取互补信息的应用程序。为了应对这一挑战,我们提出了一个大规模的预训练框架,该框架利用合成跨模态训练信号,结合来自各种来源的不同数据,来训练模型以识别和匹配图像中的基本结构。此功能可转移到现实世界中看不见的跨模态图像匹配任务。我们的主要发现是,使用我们的框架训练的匹配模型使用相同的网络权重在超过 8 个看不见的跨模态配准任务中实现了显着的泛化性,大大优于现有方法,无论是为泛化而设计还是为特定任务量身定制。这一进步显著提高了图像匹配技术在各个科学学科中的适用性,并为多模态人类和人工智能 (AI) 分析及其他领域的新应用铺平了道路。项目页面:https://zju3dv.github.io/MatchAnything/。
1. 引言
图 1:由我们的框架预先训练的图像匹配模型的功能。绿线表示图像之间已识别的相应像素定位。使用相同的网络权重,带有Transformer的无检测器匹配器[78]在广泛的看不见的现实世界单模态和跨模态匹配任务中表现出令人印象深刻的泛化能力,使(a)医学图像分析、(b)组织病理学、(c)遥感、自主系统(包括(d)无人机定位、(e)自动驾驶等学科中的各种应用受益。最好用彩色和放大来查看该图以清晰。
跨模态图像匹配旨在根据不同成像原理在图像之间准确找到相应的像素位置,是各个学科面临的基本挑战。估计的匹配是恢复图像配准中图像转换的基础,有利于医学图像分析、组织病理学、遥感、基于视觉的自主系统等领域的广泛应用,如图 1 所示。1. 具体来说,在医学图像分析中,将 MRI 等断层扫描图像与同一患者的 CT、PET 或 SPECT 对齐,可以将不同类型的信息组合到一个单一的统一分析中,提供互补的见解并有助于更准确的诊断 [68, 10, 62].此外,在组织病理学中,匹配和配准用不同技术染色的组织切片图像,如苏木精和伊红(H&E)和各种免疫组织化学(IHC)染色剂,这些染色突出了独特的组织特征,可以显著促进人类专家或人工智能的全面临床评估[46,33,48] .在遥感中,图像配准需要将不同传感器捕获的图像进行匹配,例如可见光与合成孔径雷达 (SAR) 或热图像,每种传感器都具有独特的成像优势。这种配准使多模态图像分析的图像融合成为可能[24,58],有利于地质勘探、救灾等应用。在基于视觉的自动驾驶系统中,由不同传感器捕获的匹配图像(例如可见光和热图像)增强了无人机 (UAV)、自动驾驶和机器人等应用在弱光环境中的稳健定位和导航。
通过人工标记查找对应关系既耗时又费力,因此在处理大型数据集时不切实际。例如,为 481 对组织病理学图像对的配准进行注释匹配需要 9 位专家大约 250 小时的工作 [9]。因此,已经提出了许多计算机视觉算法来应对这一挑战。图像匹配最初被表述为手工制作或基于深度学习的方法中的关键点检测、描述和匹配管道。给定两个输入图像,首先在每个图像中检测到一组显著的关键点。然后从这些关键点周围的邻域中提取局部描述符。最后,通过在特征空间中进行最近邻搜索或使用更复杂的匹配算法来识别相应的点。然而,跨模态匹配任务对图像匹配方法提出了重大挑战,主要是由于成像原理的差异导致了巨大的外观变化。依赖关键点检测器的方法 [16, 56, 34, 11, 61] 在初始阶段往往难以从不同模态的图像中识别出可靠的关键点,这阻碍了后续的匹配过程。
最近,一些基于学习的无检测器方法 [64, 12, 77, 78, 20] 在 Transformer [75] 机制的帮助下直接匹配图像像素。不受关键点检测的限制,它们已被证明在具有挑战性的数据(如低纹理场景和大视角变化)中比基于检测器的方法更稳健。然而,最先进的无检测器匹配方法[78,20] 通常在丰富的单模态数据上进行训练,对跨模态任务的泛化性有限。此外,为每个跨模态配准任务训练具有很强泛化性的匹配模型也具有挑战性,因为这些方法通常需要具有密集真值对应关系的大规模数据集,而用于跨模态匹配的注释数据很少。由于患者隐私保护,这个问题在医学研究中尤为明显 [1]。这些限制阻碍了跨模态匹配在实际场景中的实际应用。
在本文中,我们提出了一个大规模的跨模态匹配预训练框架,该框架可以释放基于 transformer 的无检测器匹配器在不同领域中各种看不见的真实世界跨模态任务上的泛化能力。我们认为主要局限性是缺乏带注释的跨模态训练数据,其中有两个关键组成部分可以解决这个问题:(1) 跨模态刺激信号,它鼓励网络学习对外观不敏感的基本图像结构信息,从而促进泛化到看不见的跨模态任务。为了实现这一目标,我们建议利用像素对齐图像翻译网络 [93, 84] 来合成其他模态的图像,以构建具有显着外观和结构变化的跨模态训练对。(2) 训练数据源的多样性,这是使网络能够泛化到前所未见的结构(如卫星视图和组织切片)的基石。具体来说,我们采用一种混合训练方法,其中包含各种类型的资源,包括带有场景重建的多视图图像、广泛的未标记视频序列和大规模的单图像数据集。此外,对于未标记视频序列的训练,我们设计了一种从粗到细的策略,通过利用视频帧的连续性来构建伪真实匹配。通过对这些不同资源的联合训练,我们利用它们的独特特性来提高图像匹配网络的鲁棒性和泛化能力,以应对看不见的跨模态匹配任务。
所提出的预训练框架可以有效地应用于几种无检测器的匹配方法,而无需任何修改。我们选择ROMA [20](一种强调鲁棒性的密集匹配器)和ELoFTR [78](一种平衡效率和有效性的半密集匹配器)作为训练的基础模型。我们的研究结果表明,使用所提出的框架进行预训练的模型可以使用_单个网络权重_在超过 _8 个看不见_的真实世界跨模态任务中表现出普遍的泛化性,而无需进一步训练,使包括医学图像分析、组织病理学、遥感、自主系统等在内的广泛学科受益。我们模型的能力概述如图 1 所示。1. 对 9 个数据集进行的广泛实验表明,使用我们的框架预训练的模型在多模态配准任务中的性能明显优于最先进的匹配和图像对齐方法,无论它们是为泛化而设计的还是为特定任务量身定制的。我们相信,匹配和配准方面的这些进步将为使用跨学科多模态数据进行人类和人工智能 (AI) [24, 13, 83] 分析的新应用铺平道路。
图 2:跨模态断层扫描图像配准数据集的比较。我们将训练的模型与四个具有代表性的基线进行比较。a 部分和 b 部分分别是 Harvard Brain 数据集和 Liver CT-MR 数据集的结果。不同阈值下成功率 (SR) 量度的曲线显示在每个部分的左侧,其中 SR@10 像素量度的详细比较与相对改进显示在左下侧。预测匹配项和对齐图像的定性比较显示在每个部分的右侧。匹配项按匹配错误着色,其中绿色表示匹配错误小于 5 像素。有关与基线的定量比较的完整表,请参阅扩展数据选项卡。 2.
2. 实验
进行了广泛的实验,以比较由所提出的大规模预训练框架训练的匹配模型的性能与跨 9 个数据集的最先进的图像匹配和配准方法,包括超过 8 个跨模态配准任务。这些任务涵盖各个领域,包括医学图像分析、组织病理学、遥感、无人机定位和自动驾驶。我们选择半密集匹配器 ELoFTR [78] 和密集匹配器 ROMA [20] 进行预训练。对于每个模型,我们使用框架预先训练的_单个权重_在所有_数据集_上进行实验,无需任何微调来说明通用匹配能力。为了进行更全面的评估,我们使用特定于下游任务的指标评估跨模态匹配的有效性,包括注册精度和姿态估计精度。有关实验设置和指标的详细信息,请参见方法(第 4.6 节)。
多模态断层扫描图像配准。
在医学影像分析和诊断中,通常使用多模态影像来提供有关患者病情的补充信息。临床诊断中常用的方式包括计算机断层扫描 (CT)、磁共振 (MR) 成像、正电子发射断层扫描 (PET) 和单光子发射计算机断层扫描 (SPECT)。CT 提供快速、高分辨率的图像,使其成为紧急情况、创伤评估以及骨骼和肺结构的详细可视化的理想选择。MR 提供卓越的软组织对比度,无电离辐射,使其成为神经、肌肉骨骼和心血管成像的首选。PET 擅长检测代谢和功能异常,这对肿瘤学、神经病学和心脏病学至关重要。SPECT 虽然空间分辨率低于 CT,但由于其成本效益和较低的辐射暴露,对于心脏病学和神经学的功能成像很有价值。通过记录和融合来自单个患者的这些图像,医疗保健专业人员可以结合两种模式的优势来做出更准确的诊断 [68, 10, 62]。我们的实验包括跨模态配准任务,涉及各种模态之间的 2D 切片。具体来说,我们使用哈佛大脑数据集 [63],其中包括来自 810 名患者的 CT-MR、PET-MR 和 SPECT-MR 脑部图像,以及肝脏 CT-MR 数据集 [6],其中包括来自 111 名患者的 CT 和 MR 肝脏图像。
定量和定性比较如图 1 所示。2. 由于 SPECT 和 MR 等图像在外观和结构上存在严重差异,现有的匹配器往往无法产生准确的匹配,从而导致图像配准和融合错误。相比之下,由所提出的大规模预训练框架端到端训练的模型取得了比所有基线明显更好的性能,尽管从未接触过医学图像或断层扫描模式。值得注意的是,使用我们的框架训练的 ROMA [20] 模型显示,与 Harvard Brain 数据集相比,相对提高了 76.9%(图 D)。2a),并且使用我们的框架训练的 ELoFTR [78] 模型在肝脏 CT-MR 数据集上实现了 423.7% 的显着相对改进(图 .2b)。模型在完全看不见的结构和模态上的泛化能力得到了显著提高,这凸显了我们训练框架的有效性,它成功地教会了模型学习和匹配基本的图像结构。
图 3:跨模态组织学配准和视网膜图像配准任务的结果。 a、b 部分显示了在 ANHIR 数据集上评估的组织学配准任务的结果以及使用 FIRE 数据集的视网膜图像配准任务的结果。对于每个部分,上表显示了与最先进基线的定量比较,而下图显示了我们训练模型的匹配和配准结果。
不同染色的组织学图像配准。
在组织病理学中,组织切片通常通过采用各种染色技术的组织学图像进行分析,例如苏木精和伊红 (H&E)、免疫组织化学 (IHC) 等。每种染色方法都突出了不同的细胞结构和特征。通过配准和融合来自不同染色的组织学图像,可以更全面地了解组织的病理学,从而促进更准确的分析和诊断 [46, 33]。然而,不同染色方法之间的显著外观差异以及组织切片之间的相对位移和变形对图像匹配和配准算法提出了相当大的挑战。我们利用 ANHIR [9] 激发数据集来评估跨模态匹配在以不同染色的组织学图像配准中的性能。该数据集包括来自各种器官的组织切片,包括肺、肾、乳房、乳腺等。它包含不同染色剂的大量图像对,包括 PAS-CD31、PAS-aSMA、CD1a-CD68、H&E-Ki67、H&E-ER、H&E-PR 等。
如图 3a 所示,与现有精心设计的基于优化的方法(包括第一个和后续竞争解决方案)相比,由所提出的框架训练的 ROMA 模型在所有指标上都取得了有竞争力的性能。与基于学习的图像对齐方法 DeepHistReg [80] 相比,该方法直接回归翘曲场并经过专门组织学配准训练,我们的方法实现了明显更好的准确性,尤其是在平均指标上。此外,我们训练的 ROMA 模型在 Average-Average rTRE 指标上显示出比原始 ROMA 模型 33.2% 更高的准确性,而我们训练的 ELoFTR 模型比其原始模型实现了 55.3% 相对改进。这些结果表明,我们的框架有效地增强了这些匹配模型对以前未见过的组织切片和染色的泛化能力。
图 4:可见光-热配准任务的结果。我们将训练的模型与四个具有代表性的基线进行比较。 a、b、c 部分分别显示了遥感、鸟瞰和地面视图场景的结果。每个部分的左列显示了使用成功率 (SR) 和一系列阈值与基线的定量比较,以及使用 SR@10 像素对 a 部分进行与相对改进的详细比较,对于第 b 部分、c 使用 SR@10 ° 进行对比。右列显示了与基线在匹配质量和配准误差方面的定性比较。绿色匹配表示 a 部分的匹配误差小于 5 像素,而极误差小于 3×10-3 部分、c 部分的匹配误差。对齐图像和翘曲误差显示在 a 部分中,姿态估计误差显示在 b、c 部分中。有关与基线的定量比较的完整表,请参阅扩展数据选项卡 2。
Retina 图像配准
来自不同视点的视网膜图像的匹配和配准在眼科中起着至关重要的作用。综合视角可以帮助诊断和治疗各种眼病,如青光眼、黄斑变性和糖尿病性视网膜病变 [14, 15]。我们使用 FIRE [26] 数据集进行评估,该数据集包含来自不同角度的 134 对可见视网膜图像。该实验验证了我们的框架为单模态任务训练的跨模态匹配模型的性能。
结果如图 1 所示。3b.现有的基于学习的匹配器在单模态可见光匹配任务中表现良好。我们的研究结果表明,尽管我们的模型具有强大的跨模态匹配能力,但我们模型也可以在可见光匹配任务上取得相当的性能。具体来说,我们训练的 ROMA 模型在 AUC-Easy 指标上实现了最佳准确性,超过了专为视网膜图像匹配训练的 SuperRetina [37]。这些结果表明,跨模态训练的模型可以作为单模态任务的通用匹配器。
热光和可见光图像配准
热传感器在广泛的应用中发挥着至关重要的作用,包括遥感、无人机定位等自主系统、自动驾驶、机器人技术等。它捕获的图像揭示了温度分布,这在遥感应用中很有价值 [24, 58],例如监测山地森林火灾和分析城市热量分布。此外,热传感器能够在弱光条件下以及雾和烟雾中有效运行,这使其成为增强自主系统中定位稳健性的宝贵工具。在这些应用中,热图像和可见光图像之间的匹配对于遥感中的多模态图像融合、自动驾驶中的多传感器校准和视觉定位等任务至关重要,其中来自自主设备的热图像与基于可见光数据构建的地图进行匹配,用于无人机和机器人导航。
我们评估了各种热光和可见光数据集(代表不同类型场景)的平面内变换和相对 6-DoF 姿态估计的准确性。结果如图 4 和扩展数据表 2 所示。 SuperFusion [65] 是专门针对可见光-热匹配任务进行训练的,在这些分布外数据集上的泛化效果很差。使用我们的框架训练的模型在所有数据集中始终以很大的优势优于所有基线方法。在由卫星图像组成的可见光-热遥感数据集 [31]上,由于热图像和可见光图像的特性明显不同,以及与典型训练数据的视角存在很大差异,现有的匹配器表现不佳。我们训练的 ROMA 和 ELoFTR 模型分别实现了 10 像素度量的成功 74.2% 率 (SR) 和 41.9% 成功率 (SR),这代表了与原始版本相比的 255.0% 相对改进和 136.7% 比较。从无人机设备捕获的可见光-热鸟瞰图数据集 [38] 由于图像之间的 3D 视点发生显著变化,这带来了挑战。我们的训练框架对 ROMA 模型和 89.3% ELoFTR 模型进行了相对改进 128.9% 。在描绘户外街景的可见光-红外地面视图数据集 [28]上,现有方法的性能相对较好,因为它们的训练数据具有相似的视角。尽管如此,我们的框架在 SR@10 °度量上仍然实现了 16.8% ROMA 和 11.6% ELoFTR 的相对改进。这些结果一致表明,我们的训练框架显著提高了模型在所有这些数据集中的性能。此外,他们强调,尽管在训练期间使用了合成热对,但经过训练的模型可以有效地推广到真实世界的热可见数据。
图 5:可见光 SAR 和可见矢量化地图配准任务的结果分别显示在 a 、 b 部分中。我们将训练的模型与四个具有代表性的基线进行比较。左列显示了在一系列阈值下使用成功率 (SR) 指标与基线的定量比较,以及使用 SR@10 像素的详细比较以及我们的方法相对于基线的相对改进。右列比较匹配质量和按从匹配中恢复的转换对齐的图像。对于部件 b,匹配项按匹配误差着色,其中绿色表示误差在 5 像素以内。有关与基线的定量比较的完整表,请参阅扩展数据选项卡 2。
SAR 图像和可见光图像配准
合成孔径雷达 (SAR) 图像在电磁波谱的微波部分捕获,使其能够穿透云层和烟雾,无论天气条件或一天中的时间如何,都能提供一致的成像能力。这种全天候、昼夜运行的能力确保了可靠的数据采集,这对于环境监测和灾害响应等遥感应用非常重要。SAR 与可见光图像之间的匹配和配准对于实现信息融合至关重要,这大大增强了全面的遥感分析 [24]。
我们使用 Visible-SAR [82] 数据集,其中包含从卫星视图捕获的 SAR 和可见光图像对,视角发生了变化,结果如图 5a 所示。与基线方法相比,使用我们的框架训练的模型实现了显着的性能改进,尽管 SAR 模态和卫星视点在训练数据中完全不可见。具体来说,我们训练的 ROMA 和 ELoFTR 模型在 10 像素指标上分别实现了 93.3% 和 72.5% 的成功率,这代表了与原始版本相比的 78.5% 相对改进和 207.5% 比较。
矢量化地图和可见光图像配准
矢量化地图是一种常用且易于访问的数据源,表示城市建筑物的高度抽象布局,经常用于日常定位和导航。将矢量化地图与可见光图像进行匹配和配准对无人机定位和导航非常有益[23,90],特别是在GPS信号可能被建筑物遮挡的城市场景中。此过程增强了设备的自定位能力。我们使用 [31] 数据集来评估匹配器在此任务中的能力。
结果如图 5b 和扩展数据表 2 所示。由于外观上的显著差异,现有的最先进的匹配器 ELoFTR 性能不佳,ROMA 甚至完全失败。 MCNet [92] 专门在可见矢量化映射对上进行了训练,在分布外测试集上表现不佳。相比之下,使用我们的框架训练的匹配模型实现了实质性的改进。如定性结果所示,经过训练的模型可以产生更好的匹配质量和更好的图像对齐,误差要小得多。具体而言,ROMA 和 77.2% ELoFTR 的 SR@10 像素量度实现 90.4% 。虽然 SuperFusion [65] 在 SR@20 像素指标上表现良好,这可能是由于其语义级监督机制,但它在高精度指标上表现不佳。相反,使用我们的框架训练的模型在严格的 SR@5 像素阈值上实现了明显更高的准确性。矢量化地图和可见光图像之间_完全看不见_的图像匹配任务的这些重大改进凸显了我们的训练框架在增强匹配模型的泛化性和准确性方面的有效性。
我们使用与 ROMA 和 ELoFTR 模型的原始实现相同的超参数,只是网络权重不同。因此,使用我们的框架训练的匹配模型的运行时间与原始模型相同。对于匹配两个分辨率为 640×480 的图片,ELoFTR 模型消耗 40 毫秒,而 ROMA 模型消耗 303 毫秒。运行时间是在单个 NVIDIA RTX 3090 GPU 上评估的。
3. 讨论
跨模态匹配是多模态图像配准的基础,这是医学成像、组织病理学、遥感、自主系统等各个科学学科的重要任务。然而,现有匹配模型的有限泛化性阻碍了它们的实际应用。在本文中,我们介绍了一个大规模的预训练框架,该框架使最先进的无检测器匹配器能够在各种看不见的任务上实现通用的跨模态匹配能力。我们的方法从混合训练策略开始,该策略结合了各种训练数据资源,包括具有地面实况重建的多视图图像数据集、广泛的未标记视频序列和大规模单图像数据集。为了有效地利用未标记的视频数据进行训练,我们创新了一种从粗到细的策略来构建伪真实匹配。这种联合训练方法利用不同数据集的互补优势来提供丰富多样的训练数据。此外,我们使用图像生成技术引入了跨模态刺激训练信号,以鼓励匹配模型学习匹配对外观不敏感的基本图像结构。对 9 个数据集的广泛实验表明,使用我们的框架预先训练的模型在超过 8 个看不见的真实世界跨模态配准任务上表现出非凡的泛化性,而无需额外的任务特定训练,明显优于最先进的匹配和图像对齐方法。我们相信这些结果代表了计算机视觉和机器智能的一个里程碑,为使用广泛学科的多模态数据进行人类和人工智能 (AI) [24, 13, 83] 分析的新应用铺平了道路。
我们训练框架的局限性在于,由于透视和外观的极端差异,经过训练的模型目前在鸟瞰图和地面视图图像之间的跨模态匹配上表现不佳。我们认为问题源于缺乏相关的训练数据,因为我们的框架无法有效地模拟这些视图之间的剧烈视角变化。在未来的工作中,可以通过使用小规模标记数据,如LoRA [27]和ControlNet [87],在特定的跨模态任务上微调我们的预训练模型来解决,这可以提高模型的特定任务性能,同时保持强大的泛化能力。
4. 方法
图 6:方法概述。一个。我们首先介绍了两种类型的基于 transformer 的无检测器匹配架构,包括 denred 和 semi-dense,作为我们预训练框架的基础模型。b.所提出的大规模通用跨模态预训练框架包括 (1) 一个多资源数据集混合引擎,旨在通过整合各种数据类型的优势来生成具有真实匹配的图像对。该引擎由以下部分组成:(i) 具有已知几何数据集的多视图图像,这些图像通过使用深度图将像素扭曲到其他图像来获得地面实况匹配;(ii) 视频序列,利用视频帧固有的连续性以粗到细的方式构建点轨迹,然后在远距离帧之间构建具有伪地面实况匹配的训练对;(iii) 图像扭曲,对转换进行采样,以构建具有大规模单图像数据集透视变化的合成图像对。(2)随后,生成跨模态训练对,在学习基本图像结构和几何信息方面训练匹配模型,这是通过使用图像生成模型获得其他模态中的像素对齐图像,然后替换训练对中的原始图像来实现的。
我们的目标是训练高度可推广的无检测器图像匹配模型,能够在训练期间从来自不同看不见的模态的一对图像中找到准确的对应关系。为此,我们提出了一个大规模的跨模态预训练框架,该框架集成了多数据资源和多模态刺激信号,如图 2 所示。6. 在以下部分中,我们首先对第 4.1 节中我们的框架使用的无检测器匹配架构进行了初步介绍,然后详细阐述了我们框架的两个关键组件:多资源数据集混合训练引擎(第 4.2 节)和跨模态刺激数据生成器(第 4.3 节)。相关工作在第 4.5 节中回顾,实验细节在第 4.6 节中介绍。最后,进行消融研究(第 4.7 节)以探索我们框架的关键设计选择。
4.1关于 Detector-Free Matchers 的初步知识
无检测器匹配器是使用地面实况匹配进行端到端训练的,在 transformer 架构的帮助下,在处理常见单模态图像匹配任务中的极端视角变化方面表现出卓越的性能。我们利用所提出的大规模、多资源、跨模态训练框架,在跨模态匹配任务中释放无检测器匹配器的通用能力。
Our framework can be applied to several detector-free matcher without necessitating modifications to the methods. In this work, we select two state-of-the-art detector-free matchers as base models for training to demonstrate the efficacy of the proposed framework: ROMA [20], a dense method that focuses on robustness, and ELoFTR [78], a semi-dense method that balances both efficiency and effectiveness.
我们的框架可以应用于多个无检测器的匹配器,而无需修改方法。在这项工作中,我们选择了两个最先进的无检测器匹配器作为训练的基础模型,以证明所提出的框架的有效性:ROMA [20],一种专注于稳健性的密集方法,以及 ELoFTR [78],一种平衡效率和有效性的半密集方法。
4.1.1密集的 Matcher:ROMA
ROMA [20] 给定一个图像对(标记为 left l 和 right r ),预测一个密集的翘曲场 Wl→r ,随后通过考虑匹配置信度和空间分布进行采样,以提取可靠的对应关系。首先,它使用预先训练的 DINOv2 [47] 主干从输入图像对中提取粗略的图像特征图,并使用 CNN 主干从输入图像对中提取精细特征。然后,它使用基于 transformer 的解码器使用粗略特征预测粗调场。随后,通过使用精细级特征的卷积细化网络迭代细化翘曲场的前一级,实现高分辨率的精细翘曲场。
由于编码器和解码器中的参数空间都很宽,ROMA 在匹配具有挑战性外观和视角变化的场景时表现出强大的优势。此功能使其特别适合大规模预训练和泛化到看不见的跨模态任务。
4.1.2半密集垫片:ELoFTR
ELoFTR [78] 通过带有变压器机构的粗到精策略实现无检测器匹配。最初,它使用 CNN 网络提取下采样分辨率 ( 1/8 ) 的粗略特征和原始图像分辨率的精细特征,然后应用全局自注意力和交叉注意力机制来转换粗略特征图以获得更好的判别性。在此之后,通过使用这些转换后的粗略特征的密集互邻最近邻 (MNN) 匹配来建立粗匹配。随后,这些粗略匹配被优化为亚像素精度:对于粗略匹配,其在左右精细特征图中对应的局部特征块被裁剪,然后通过特征相关性和 MNN 进行局部匹配,以获得像素级精度的中等精细匹配。最后,通过保持左侧图像中的匹配固定,同时在右侧图像中匹配周围的本地 3×3 窗口上执行特征关联和期望来进一步细化它,以获得最终的亚像素级精细匹配。由于它对下采样的粗略特征图执行密集像素级匹配,然后对其进行优化以获得高精度,因此这种方案通常称为_半密集匹配_。
虽然它的性能不如 ROMA,但 ELoFTR 的优势在于其效率明显更高,这是由于其相对更轻的架构。这使得 ELoFTR 特别适用于速度和计算资源效率至关重要的应用。
4.2多资源数据混合训练
提供多样化的训练数据是训练具有高通用能力的跨模态匹配器的基石。上述匹配模型的训练需要图像之间密集的地面实况对应关系作为监督信号,这通常是通过已知的深度值和相机参数将一个图像中的每个像素扭曲到另一个图像来获得的。但是,此过程需要访问每个场景的地面实况重建,这成本很高,并且阻碍了训练数据的扩展。
为了解决这个问题,我们提出了一种利用跨多个资源数据集的联合训练的方法,包括具有已知几何形状的多视图图像,这些图像难以获取且多样性有限,但提供逼真的视点变化以及地面实况; 视频序列,提供适度多样化和逼真的视点变化,但缺乏真实对应关系; 大规模单图像数据集的图像扭曲,它提供了最多样化但最不真实的视点变化。这些数据集的联合训练使我们能够利用每个数据集的优势,同时减轻它们各自的弱点。
4.2.1具有几何图形的多视图图像
通过已知的场景重建,可以通过深度翘曲获得每个图像对的地面实况对应关系,其中左侧图像中的 2D 点首先通过其深度值和相机参数提升到世界坐标中的 3D 空间,然后通过右侧相机参数投影到右侧图像。
由于场景重建中存在噪声,例如不准确的深度值或扫描的网格有孔,我们会仔细检查翘曲深度误差和循环一致性误差,以过滤掉不准确的地面实况匹配。翘曲深度误差 ed和周期投影误差 ec定义如下:
=
∥
D
r
(
x
p
r
o
j
)
−
d
p
r
o
j
∥
D
r
(
x
p
r
o
j
)
,
=
∥
x
l
−
π
l
⋅
ξ
l
→
r
−
1
⋅
D
r
(
x
p
r
o
j
)
⋅
π
r
−
1
(
x
p
r
o
j
)
∥
,
w
h
e
r
e
x
p
r
o
j
=
π
r
⋅
ξ
l
→
r
⋅
D
l
(
x
l
)
⋅
π
l
−
1
(
x
l
)
.
\begin{aligned} & =\frac{\|\mathbf{D}_{r}(\mathbf{x}_{proj})-d_{proj}\|}{\mathbf{D}_{r}(\mathbf{x}_{proj})}, \\ & =\|\mathbf{x}_{l}-\boldsymbol{\pi}_{l}\cdot\boldsymbol{\xi}_{l\to r}^{-1}\cdot\mathbf{D}_{r}(\mathbf{x}_{proj})\cdot\boldsymbol{\pi}_{r}^{-1}(\mathbf{x}_{proj})\|, \\ & \mathrm{where}\mathbf{x}_{proj}=\boldsymbol{\pi}_{r}\cdot\boldsymbol{\xi}_{l\to r}\cdot\mathbf{D}_{l}(\mathbf{x}_{l})\cdot\boldsymbol{\pi}_{l}^{-1}(\mathbf{x}_{l}). \end{aligned}
=Dr(xproj)∥Dr(xproj)−dproj∥,=∥xl−πl⋅ξl→r−1⋅Dr(xproj)⋅πr−1(xproj)∥,wherexproj=πr⋅ξl→r⋅Dl(xl)⋅πl−1(xl).
X是左视图中的采样 2D 点, 𝐃(⋅) 是参考视图或查询视图的深度图, 𝝅 是由内部参数确定的投影, 𝝃l→r=𝝃r⋅𝝃l−1 并且是左视图和右视图之间的相对姿势。 dproj 是查询视图中对应于的 𝐱proj 3D 点 z 的值。如果投影深度误差 ed<0.05 和循环投影误差 ec❤️ 像素匹配,则地面实况中将保留一对对应的点。
对于这种类型的数据,我们使用 MegaDepth [32]、ScanNet++ [86] 和 BlendedMVS [85] 数据集进行混合训练,包括 1079 个场景,涵盖室内和室外环境。然而,由于收集高质量重建数据的挑战,扩大这种类型的数据集是困难的。因此,我们整合了其他多样化的数据集,包括视频序列和单图像数据,用于大规模训练。
4.2.2视频序列
可以轻松收集视频序列并提供逼真的透视变化,这是训练图像匹配器的理想选择。然而,当前的大规模视频序列数据集通常缺乏用于训练的密集重建。一种很有前途的方法[59]涉及使用最先进的无检测器匹配器来匹配更简单的相邻帧并构建轨迹,然后利用视频序列的连续性来获得更远帧的匹配,这些帧随后用作训练数据。然而,由于无检测器匹配器生成的匹配取决于图像对,因此将它们应用于连续帧会导致不一致,从而导致轨迹不完整。这种碎片化阻碍了长距离点轨道的构建,而远程点轨道对于获得具有显著视角变化的远距离对的匹配至关重要。为了克服这个问题,我们提出了一种从粗到精的策略来生成长距离轨迹和准确的伪真实匹配。我们的方法概述显示在 Extended Data Fig 中。7.
最初,我们使用 ROMA [20] 模型按顺序将 ith 图像与下一个 10 图像匹配。为了构建点轨迹以获取远距离帧之间的匹配项,例如 ith 图像和具有具有挑战性的透视变化的图像 (i+40)th ,将合并零碎的匹配项以构建粗略的轨迹。具体来说,对于每个图像,我们收集它与其他图像的所有对应关系以及匹配器生成的相关置信度值。然后,使用 size 7×7 的滑动窗口在整个图像中执行非极大抑制过程。此过程将碎片匹配项合并到其本地区域内置信度最高的位置,从而构建连续轨迹。
但是,由于在上一个合并过程中移动了点,因此通信的准确性会受到严重影响。为了纠正这个问题,我们使用基于 transformer 的多视图优化方法 [25] 进一步优化合并的点轨迹以实现亚像素精度。对于粗略轨迹,首先提取每个轨迹中点周围的特征块,并通过多视图转换器进行处理,以获得判别性特征。随后,对一个视图中的查询点的密集网格进行采样,并将其特征与其他视图中的特征补丁相关联,以生成匹配分布图。将每个查询点的所有分布图的方差总和作为不确定性标准进行计算。然后将其他视图中的最佳查询点及其峰值特征相关性响应标识为优化的轨迹位置。
通过精细的远程点轨迹,我们能够通过选择相距超过 10 帧且至少 300 表现出共可见对应关系的图像对来构建具有伪真实匹配的图像对。在实践中,我们采用DL3DV [35]数据集作为大规模视频数据集进行训练,其中包括10K个高质量视频序列,涵盖了广泛的场景类别。对于每对,从 ROMA 估计的密集翘曲流中采样 10K 匹配,以确保匹配质量。然后使用 RANSAC [21] 进行几何验证,以进一步去除异常值。
4.2.3图像变形
由于易于从 Internet 收集,单图像数据集因其多样性而得到认可。它们被纳入我们的培训框架中,以进一步增强数据多样性。为了从单个输入图像创建训练对,我们通过采样单调变换来应用图像变形,这涉及旋转、平移、缩放和剪切的调整。采样转换会扭曲输入图像以生成目标图像,然后将两者构建为图像对。通过应用采样变换来扭曲输入图像中的密集像素位置,可以建立相应的地面实况匹配。
但是,由于此方法仅创建具有平面变换的图像对,因此无法准确模拟真实世界的透视变化。因此,专门使用这种扭曲的单图像数据训练的模型在实际应用中往往表现不佳。为了解决这个问题,我们建议以混合训练的方式将单图像翘曲数据与具有几何和视频序列的多视图数据相结合。这种方法利用了单张图像数据的多样性,同时受益于多视图和视频数据提供的真实透视变化。在实践中,我们使用大规模的单图像数据集,包括GoogleLandmark [79]和SA-1B [29]进行训练。
4.3跨模态刺激数据生成
基于所提出的多资源数据集混合训练框架,我们现在将跨模态刺激数据注入到训练数据中,鼓励网络学习图像的基本结构信息。这种方法使网络能够有效地泛化各种前所未见的跨模态匹配任务。我们建议使用图像生成技术来创建用于训练的合成多模态图像对。
具体来说,我们使用像素对齐图像泛化模型将每个训练对中的一张图像转换为其他模态。然后,生成的图像将替换为训练对中的原始图像,以形成新的跨模态对。这种方法的关键方面是图像生成模型的像素对齐特性,因为它使获得的图像能够保持与输入图像相同的结构信息,同时表现出明显不同的外观。这种对齐方式允许在训练中使用原始对的对应关系。在实践中,我们使用图像风格翻译网络和单眼深度估计网络作为像素对齐图像生成模型。
图像样式转换
是一种生成模型,可在保留内容的同时将一个图像的样式转换为另一个图像。我们使用这种技术生成不同模态的图像,这些图像具有显着的外观变化,用于训练。值得注意的是,我们不希望网络能够“记住”专门训练的跨模态匹配任务,因为合成模型无法完全复制真实世界的成像原理,例如描述场景中温度分布的热图像。相反,我们使用具有显著外观变化的合成图像对来训练网络学习匹配不同模态的基本图像结构。然后,这种学习到的能力可以转移到现实世界的跨模态任务中。
具体来说,我们分别训练图像翻译模型,将可见光图像转换为热图像和夜间图像,这是真实场景中两种常见的成像条件。由于用于训练翻译模型的像素对齐真值图像对资源有限,我们使用 CycleGAN [93] 作为图像风格翻译器,它可以利用循环一致性损失以无监督的方式进行训练,并表现出强大的泛化能力。在实践中,可见光到红外的翻译模型是在 Tardal [36] 数据集上训练的,昼夜转换模型是在 Aachen [88] 数据集上训练的。
单眼深度估计。
我们发现,以前的图像样式翻译模型主要模拟不同模态之间的外观变化,对图像结构的影响有限。然而,现实世界的模态差异不仅仅是外观变化。例如,由于温差最小,在可见光图像中具有足够视觉纹理的区域在被热传感器捕获时可能缺乏纹理。
为了解决这个问题,我们通过将可见光和深度图对纳入训练过程来引入图像结构变化。单目深度估计器预测输入图像中每个像素的深度值,并在基于大规模预训练的基础上显示出显着的泛化能力。此外,与通过样式转换生成的图像相比,深度图引入了明显更大的结构变化,增强了匹配模型处理跨模态变化的能力。我们试验了各种深度估计网络,并选择了 DepthAnything [84],考虑到其效率和性能的最佳平衡。估计的深度图将重新缩放为灰度图像,然后替换原始图像以形成跨模态对。值得注意的是,对于具有真实几何的数据集,它们的深度图直接用于生成跨模态对,而不需要深度估计网络。
4.4 训练细节
我们的多资源跨模态训练框架生成 ∼ 800M 图像对,包括可见光-可见光、可见光-合成热、可见光-合成夜间和可见光-深度图对。对于匹配的模型,我们使用它们的官方实现分别训练 ROMA 和 ELoFTR,保持相同的超参数和损失函数,以便与它们的原始模型进行公平的比较。训练在 16 个 NVIDIA A100-80G GPU 上进行,批处理大小为 64。ELoFTR 的训练过程大约需要 4.3 天,ROMA 大约需要 6 天。使用 AdamW 优化器 [39] 的初始学习率为 8×10−3 。对于每种方法,都使用一个预先训练的模型权重来执行本文中介绍的所有实验,突出了我们的训练框架所释放的强大泛化性。
4.5 相关工作
跨模态图像配准。
图像配准旨在估计一对 2D 图像之间的 2D 或 3D 转换。这些变换包括平面变换(如仿射或同源性)、3D 空间中具有六个自由度 (6DoF) 的相对摄像机姿势,以及 B 样条曲线等非刚性变换。估计这些转换的目标是实现图像的融合或促进相机校准和定位任务,这在各个领域的应用中都是必不可少的。许多传统方法 [2, 3, 22, 55, 30, 40, 81] 通常遵循一个管道,其中初始图像对应是通过人工标记或使用 2D 图像匹配算法(如 SIFT)建立的 [41].在此之后,根据这些对应关系求解转换,允许通过估计的转换进行图像对齐。(可选)为了提高精度,后续对具有变形的图像对采用非刚性对齐。这涉及通过非线性优化估计非刚性 B 样条变换,利用点翘曲距离损失和遮罩互信息 [43] 损失,这是强度不变的,因此对不同模态的不同外观更稳健。最近的匹配方法 SRIF [31] 通过提出图像强度转换来解决模态之间的显着外观变化,从而扩展了 SIFT 以处理多个跨模态任务。但是,它仍然依赖于手工制作的设计来实现强度转换和匹配。学习的先验不能用于有益的匹配,从而限制了其性能。
至于基于深度学习的方法,DeepHistReg [80] 提出了一个神经网络,直接回归变形场以配准具有不同染色剂的组织学图像,并以自我监督的方式进行训练。然而,它的应用仅限于单个任务,并且由于缺乏多样化的训练数据,它的准确性有限。 [4, 44] 使用 3D 卷积或注意力机制回归变形场,以记录同一患者在不同时间的大脑图像。然而,这些方法本质上是特定于任务的,并且难以处理跨模态数据,例如 CT 和 MRI、SPECT 和 MRI 之间的配准,或者应用于肾脏等其他器官时,主要是由于训练数据的可用性有限。此外,它们对 3D 体积作为输入的依赖限制了它们在 2D 图像上的应用,从而限制了它们在更广泛的临床环境中的多功能性。SuperFusion [65] 回归密集光流以融合可见光和热图像,并通过语义监督进行训练。然而,由于训练数据集缺乏多样性,它的泛化性受到限制,并且它不太适合匹配具有较大视角变化的图像,因为它依赖于光流的小位移假设。XoFTR [73] 建立在 LoFTR [64] 的基础上,具有基于合成热数据训练的改进图像匹配模型。然而,它在模态和场景变化方面的有限多样性限制了它对其他跨模态匹配任务的泛化性。一些方法 [92, 89] 直接回归输入图像对的同源变换,可用于跨模态配准。然而,这些方法的应用仅限于平面图像,不能扩展到 6DoF 位姿或非刚性变换估计。
在这项工作中,我们通过开发通用的跨模态图像匹配器来解决所有这些限制,这些图像匹配器能够为各种任务中的转换估计管道提供准确的对应关系。
图像匹配。
经典的图像匹配方法 [41, 53, 8] 依赖于手工制作的技术来检测关键点,描述它们,然后通过最近邻搜索进行匹配。相比之下,最近的进展采用深度神经网络进行检测 [53, 57, 5, 37] 和描述 [69, 45, 70, 18],显著提高了检测的稳健性和局部描述符的区分性。此外,一些现代方法 [17, 16, 50, 42, 71] 设法同时学习检测器和描述符。SuperGlue [56] 将变压器 [75] 机制引入匹配。后续工作 LightGlue [34] 使用适应匹配难度的策略,进一步提高了基于 transformer 的匹配器 SuperGlue 的效率和准确性,以进行早期停止匹配。
无检测器方法直接匹配图像,无需检测特定关键点,而是产生半密集或密集匹配。这种方法增强了稳健性并展示了更强大的模型功能。早期的方法 [51, 52] 通过 4D 相关体积来实现这一点。LoFTR [60] 首先在无检测器匹配中使用变压器 [75] 来模拟长距离依赖关系,并以粗到精的方式产生半密集匹配。许多后续工作 [77, 12, 67] 通过对多尺度特征进行关注 [77, 12],使用流程引导 [12],或在分层关注相关区域 [67] 期间限制注意力持续时间,进一步提高了匹配准确性 [67].为了在保持鲁棒性的同时提高效率,ELoFTR [78] 提出了一种聚合注意力机制,该机制自适应地选择标记并对冗余计算进行排序。它的效率明显高于 LoFTR,同时表现出更好的匹配精度。最近,旨在估计两个图像之间所有可能的对应关系的密集匹配方法[72,19,20] 在较大的视角变化中显示出很强的鲁棒性。作为副作用,由于架构较重,与稀疏和半密集方法相比,它们通常要慢得多。
然而,由于图像之间的严重外观变化,跨模态匹配任务对于这些基于学习的匹配器来说仍然具有挑战性。在完善的匹配架构下,瓶颈在于缺乏大规模的跨模态训练数据。所提出的大规模预训练框架规避了这个问题,并且可以使多种基于学习的匹配方法受益。
图像匹配器的训练。
由于定义关键点固有的模糊性,以前的关键点检测和描述方法[16]采用了多阶段训练策略,其中包括人工标记和自我监督技术。匹配器 [56, 64, 12, 78, 19, 20] 通常利用由多视图图像组成的训练数据集,与相应的场景重建相吻合,以生成地面实况匹配。一些方法[56,34] 还包含一个预训练阶段,涉及在真实数据集上训练之前进行单张图像翘曲。为了解决已知重建数据稀缺的问题,CAPS [76] 采用了使用外极几何约束的弱监督。然而,在泛化到不同的任务时,与完全监督的方法 [91] 相比,这种策略会导致性能欠佳。最近的方法GIM [59]提出了通过匹配和传播过程为未标记的视频序列生成真实对应关系,该过程利用了视频的固有连续性。但是,它面临着来自无检测器匹配的不一致对应关系的挑战,因此需要合并策略。此方法仅限于使用较小的合并范围,以防止匹配准确性显著降低。因此,此限制限制了构建具有挑战性透视变化的图像对的传播长度。
不同的是,我们提出了一种新的跨模态多资源混合训练框架,该框架有效地利用了多视图图像、单图像 warping 和视频序列的优势。此外,我们设计了一种从粗到细的策略,旨在为未标记的视频序列获得长距离和准确的地面实况对应关系。
4.6 实验细节
在以下部分中,我们提供了有关实验和基线设置中使用的评估数据集的详细信息。扩展数据选项卡 2、3 中提供了更广泛的基线方法以及使用不同的评估指标的完整结果。我们用不同的随机种子进行了五次实验,并报告了平均结果。图中还显示了代表标准差的误差线。
4.6.1 数据集评估
包含来自同一患者的对齐 CT 和 MR 体积。为了构建评估数据集,我们从每个体积中统一切片 5 张图像,并随机扭曲图像以模拟 CT 和 MR 图像之间的错位,这是临床实践中的常见场景。总共有 555 对用于评估。
由于图像对是通过图像变形创建的,因此 Ground Truth 变换自然是已知的,并用于评估。我们通过求解每个图像对的仿射变换来评估方法的性能。然后,源图像中的一组控制点 {𝐱s} 分别被预测 𝐓^ 和真实 𝐓gt 变换扭曲,而扭曲误差则由两组扭曲点之间的平均欧几里得距离计算:
E
r
r
o
r
=
1
m
∑
i
=
1
m
∥
T
^
(
x
i
)
−
T
g
t
(
x
i
)
∥
2
,
\mathrm{Error}=\frac{1}{m}\sum_{i=1}^{m}\|\hat{\mathbf{T}}(\mathbf{x}^{i})-\mathbf{T}_{\mathrm{gt}}(\mathbf{x}^{i})\|_{2},
Error=m1i=1∑m∥T^(xi)−Tgt(xi)∥2,
其中 m 是控制点的总数。如果 warping 误差小于 n pixels 阈值,则认为注册成功,其中报告了所有对的成功率 (SR)。在实践中,我们使用源图像的四个角作为控制点。
哈佛大脑数据集 [63]
包含 CT-MR、PET-MR 和 SPECT-MR 之间精确对齐的脑成像对,总共包含 810 对。我们通过随机扭曲图像来创建评估对,方法与肝脏 CT-MR 数据集相同。我们使用像素下 n 平均点翘曲误差的成功率作为评估指标,与之前的肝脏 CT-MR 数据集相同。
组织学图像数据集。
我们使用 ANHIR 激发数据集 [9] 进行评估,该数据集涵盖了从各种器官和病症(包括病变、肺、乳腺、结肠腺癌 (COAD)、肾脏和乳房)收集的组织切片图像对。它包括 251 不同染色剂的测试对,包括 H&E-Ki67、H&E-ER、H&E-PR 等。为每对提供了一组 Ground Truth 对应关系,这些对应关系由专家进行注释和仔细检查。为了评估这些具有非刚性变形的对的匹配性能,我们首先估计每对之间的刚性仿射变换,作为粗略对齐。随后,在估计匹配的约束下,SGD 优化了细粒度 B 样条非刚性变换。
我们遵循 ANHIR 挑战赛中的评估指标。对于所有测试对中的一对 (𝐈i,𝐈j) ,源图像 𝐈i 中的评估标志 𝐱li 首先由求解的变换扭曲到 𝐈j 。然后,相对目标配准误差 (rTRE) 由翘曲点 𝐱^lj 与图像对话框 dj 标准化的带注释的地面实况对应 𝐱lj 关系之间的欧几里得距离计算:
r
T
R
E
l
i
j
=
∥
x
^
l
j
−
x
l
j
∥
2
d
j
.
\mathrm{rTRE}_l^{ij}=\frac{\left\|\hat{\mathbf{x}}_l^j-\mathbf{x}_l^j\right\|_2}{d_j}.
rTRElij=dj
x^lj−xlj
2.
随后,计算对中所有评估标志的平均 rTRE (ArTRE) 和中位数 rTRE (MrTRE)。该算法的整体性能由平均 ArTRE、平均 MrTRE、平均 ArTRE 和平均 MrTRE 指标整体测试对进行评估。
图像数据集。
我们使用 FIRE 数据集 [26] 来评估我们的大规模跨模态预训练模型在视网膜可见光-可见光图像对上的性能。该数据集包含 134 个图像对,每对图像对都有手动注释的真值对应关系。原始论文将这些对分为简单、中等和困难子集,以便单独评估。
我们遵循 SuperRetina 中的评估方案 [37]。对于每对,我们使用生成的对应关系估计单调变换,将地标从源图像扭曲到目标图像,并计算扭曲地标与其地面实况匹配之间的平均欧几里得距离。然后,使用 25 像素阈值处平均翘曲误差的曲线下面积 (AUC) 作为评估指标。
热-可见光卫星数据集
压缩来自卫星图像的 200 个图像对。对于每对,真值转换以 3×3 矩阵的形式提供。与之前的肝脏 CT-MR 数据集相同,我们通过真值转换计算源图像中翘曲控制点之间的平均欧几里得距离,并通过生成的匹配项计算求解的转换。报告不同阈值下翘曲误差的 SR 指标。
热-可见光鸟瞰图数据集和地面视图数据集。
我们使用 [82] 作为鸟瞰图评估数据集,包含 2145 个图像对并描绘了真实世界的 3D 透视变化。对于每对,都会附加 Ground Truth Camera 姿势。至于地面视图数据集,我们使用 [28]。此数据集提供视频图像序列及其相应的像素对齐热图像序列。由于没有提供真实摄像机姿态,我们首先利用当前最先进的 SfM 方法 [25] 使用可见光图像序列恢复摄像机姿态。由于可见光图像和热图像之间的像素对齐,估计的相机姿态也适用于热图像。然后,我们创建热图像对和可见光图像对进行评估,其中 492 对进行采样。
通过使用生成的匹配项求解基本矩阵来恢复每对之间的相对位姿 (𝐑,𝐭) ,其中 RANSAC [21] 用于删除异常值。然后,我们使用 Ground Truth 摄像机姿势计算相对姿势误差:
E
r
r
o
r
=
max
(
R
e
r
r
,
t
e
r
r
)
,
w
h
e
r
e
R
e
r
r
=
arccos
(
t
r
a
c
e
(
R
^
T
R
g
t
)
−
1
2
)
,
t
e
r
r
=
arccos
(
t
^
⋅
t
g
t
∥
t
^
∥
∥
t
g
t
∥
)
.
\begin{aligned} \mathrm{Error} & =\max(R_{\mathrm{err}},t_{\mathrm{err}}), \\ \mathrm{where} \quad R_{\mathrm{err}} & =\arccos\left(\frac{\mathrm{trace}(\hat{\mathbf{R}}^{T}\mathbf{R}_{\mathrm{gt}})-1}{2}\right), \\ t_{\mathrm{err}} & =\arccos\left(\frac{\hat{\mathbf{t}}\cdot\mathbf{t}_{\mathrm{gt}}}{\|\hat{\mathbf{t}}\|\|\mathbf{t}_{\mathrm{gt}}\|}\right). \end{aligned}
ErrorwhereRerrterr=max(Rerr,terr),=arccos(2trace(R^TRgt)−1),=arccos(∥t^∥∥tgt∥t^⋅tgt).
报告了各种误差阈值下相对位姿估计的成功率。
可见光 SAR 数据集。
我们使用包含 1209 个可见光 SAR 图像对的 [82] 数据集,其中每对都提供了一组真实匹配。仿射变换是通过预测的匹配项来估计的,这些匹配项用于将评估界标从源图像扭曲到目标图像。我们使用不同误差阈值下平均翘曲误差的成功率作为评价指标。
可见矢量化地图数据集。
[31] 数据集提供了 200 个可见矢量化地图图像对,它们完美对齐。与之前的 Liver CT-MR 数据集一样,我们随机扭曲图像以创建透视变化并获得真值转换。使用不同错误阈值下 warping 错误的成功率作为指标。
4.6.2基线
图像匹配基线。
我们将大规模训练模型与手工制作的匹配方法 SIFT [41]、SRIF [31]、基于学习的同源回归器 MCNet [92] 和一组最先进的基于学习的匹配方法进行了比较,包括 ROMA [20]、DKM [19]、GIM [59]、SuperFusion [65]、ELoFTR[78]、MatchFormer [77]、AspanFormer [12] 和 SuperPoint [16]+LightGlue [56] (SP+LG)。对于基于学习的图像匹配方法,我们使用他们的户外模型进行评估。ROMA、DKM、ELoFTR、MatchFormer 和 AspanFormer 模型在 MegaDepth 数据集上以完全监督的方式进行训练。LightGlue 首先在 Oxford-Pairs 数据集 [49] 上通过具有强烈光度增强(包括模糊、色调、饱和度、照明等)的单图像单向性翘曲进行预训练,然后在 MegaDepth 数据集上通过全面监督进行微调。GIM 模型使用视频传播策略在所提出的视频数据集上进行训练。其经过训练的具有最佳性能的 DKM 模型用于比较。SuperFusion 使用 MSRS [66] 数据集专门针对可见光图像和热图像匹配和融合进行训练。对于 MCNet,我们利用了在 GoogleMap 数据集中的可见矢量化地图对上训练的权重。他们的结果是通过使用他们发布的模型和超参数运行开源代码来获得的。在视网膜图像配准数据集上比较了 SuperRetina [37] 基线。它使用部分人类标记的视网膜图像对和渐进式关键点扩展策略,以半监督方式在视网膜数据集上进行了专门训练。它的结果来自他们的原始论文,因为我们的实验使用相同的评估数据集和指标。
图像对齐方法。
我们在使用 ANHIR 挑战数据集的非刚性组织学图像配准任务上将所提出的方法与基于优化和基于学习的图像配准方法进行了比较。对于所有这些方法,我们使用原始论文报告的结果。Elastix [30] 是一款开源软件,它使用遮罩互信息相似性标准和自适应随机梯度下降优化器来优化 B 样条变形,从而对齐图像对。第一名的解决方案 MEVIS [40] 和第二名的解决方案 AGH [81] 在竞争设备精心设计的管道中。MEVIS 首先通过尝试多种不同的图像旋转来执行初始对齐,然后使用高斯-牛顿方法估计仿射变换。然后使用曲率正则化和 L-BFGS 优化找到非刚性变换。第二名解决方案 AGH 应用了几种不同的方法并自动选择最佳解决方案。它首先使用 RANSAC 从多种匹配方法(包括 SIFT [41]、SURF [7] 和 ORB [54])产生的匹配项中确定刚性变换。然后,使用局部仿射配准、各种版本的 demons 算法或基于特征点的薄板样条插值找到非刚性变换。
DeepHistReg [80] 基线直接回归组织学图像配准任务的刚性仿射变换以及非刚性变形场。它通过最小化负归一化互相关成本函数,以无监督的方式在 ANHIR [9] 训练集上进行训练。它的结果来自他们的原始论文,因为我们的实验使用相同的评估数据集和指标。
4,7消融研究
我们进行了几次实验,在多个跨模态评估数据集上使用 ROMA 匹配模型验证了我们的大规模预训练框架的设计选择。
跨模态激活信号
我们在训练阶段消融跨模态刺激信号的整合。首先,我们删除所有跨模态数据,其中仅使用可见的图像对进行训练。扩展数据表 1 (1) 显示,所有跨模态评估数据集的性能都显著下降,这表明对看不见的模态的泛化能力大大降低。我们还尝试用常用的光度图像增强方法替换跨模态数据,以带来外观变化,包括照明、模糊、饱和度和色调。如扩展数据表 1 (2) 所示,与仅使用可见图像对相比,光度增强几乎没有带来什么改进。然而,使用所提出的跨模态刺激信号之间存在显著的性能差距。这些实验验证了使用跨模态刺激数据训练图像匹配模型的有效性,显著提高了它们在看不见的跨模态任务中的泛化性。
随后,我们进一步分析了跨模态数据各部分的影响。扩展数据表 1 (3) 中的结果表明,合成热数据的删除导致实际热可见配准数据集上的 SR@10 ° 度量 % 下降 9.7。其他跨模态任务的表现也持续下降。这表明使用合成热训练数据不仅可以提高真实热数据的泛化性,还可以提高其他跨模态任务的性能。如果没有深度图或合成夜间图像,训练模型的性能会下降,如扩展数据表 1 (4, 5) 所示。尽管这两部分训练模态与测试模态有很大不同,但它们仍然为图像匹配模型学习跨模态匹配提供了有价值的信息。
多资源数据集混合训练。
我们首先用多阶段方式替换我们的多资源数据集混合训练策略,该策略按顺序在单个图像数据集、多视图几何数据集和视频数据集上进行训练。扩展数据表 1 (6) 中报告的结果表明,具有精心调整的学习率的多阶段训练性能低于所提出的多资源数据集混合训练策略。我们相信,联合训练的好处来自于利用这三种数据资源的最佳优势。然后,我们分别删除单张图像数据集和视频数据集,以查看每个数据源的影响。如果没有它们中的任何一个,训练模型的性能会显著下降,如扩展数据表 1 (7, 8) 所示。结果表明,这两个数据源的丰富多样性归因于匹配模型在看不见的图像结构和跨模态任务上的泛化性。
粗到细视频数据集 Ground Truth 生成。
扩展数据表1 (9)报告了替换所提出的粗点到细点轨迹构建策略的结果,方法是将距离小于1像素的匹配项合并,以保持GIM 中的精度[59]。所提出的策略使可见光 SAR 数据集上的 SR@5 个像素 % 提高了 7.1,证明了所提出的策略的有效性。这些结果强调了我们的粗到精策略的优势在于,我们可以使用更大的合并窗口,其大小为, 7×7 以产生更长的轨迹,从而构建具有更大视角变化的图像对。然后,接下来的多视图航迹优化阶段有助于将轨迹精度提高到亚像素级,这对于准确的地面实况训练对应至关重要。