Abstract
本文研究了点云配准问题,提出了CoFiNet,是一个无需关键点检测的由粗到细的网络,能够从粗糙到精细的层次中提取点云的对应关系。CoFiNet首先在粗尺度上通过一个加权方案进行节点匹配,这个方案依据节点邻近区域的重叠度来引导模型,从而减少后续阶段需要搜索的空间。接着,在细尺度上,将粗尺度上的节点扩展成包含多个点及其描述符的补丁。通过一个密度自适应匹配模块,将补丁的重叠区域中的点对应关系进行进一步的细化。
CoFiNet能够从无序和不规则的点云中提取出连续的粗到细的对应关系。此外,它还提出了一种新的权重方案和密度自适应匹配模块。
在室内和室外的标准基准测试中,CoFiNet显示出了卓越的性能,而且使用的参数数量仅为其他方法的三分之二。
Introduction
首先讨论了点云配准(Point Cloud Registration)的挑战和最新的研究进展。点云配准的目标是恢复两组部分重叠的点云之间的转换关系,在场景重建、自动驾驶、SLAM等实际应用中非常关键。然而,由于点云的无序性和不规则性,提取可靠的对应关系一直是一个难题。早期的方法主要依赖手工设计的特征,而最近深度学习方法的兴起在提升对应关系的可靠性方面取得了重要进展。
深度学习方法可以大致分为三类:第一类方法基于ICP的思路,迭代地寻找稠密对应关系并估计位姿。第二类方法则是不依赖于对应关系,而是通过最小化特征距离来对齐两组点云。然而,这两类方法在处理大型数据集时都存在缺陷:第一类计算复杂度高且对应精度低,第二类对噪声和部分重叠的鲁棒性较差。
第三类方法采用两阶段策略,首先学习稀疏点的局部描述符进行匹配,然后使用RANSAC等鲁棒的位姿估计器恢复转换关系。这些方法在大规模数据集上表现出色,常用的降采样方法包括均匀采样和关键点检测。相比于随机采样,关键点检测能有效减少匹配中的歧义性,但采样的稀疏性也增加了重复性问题,导致配准效果受到限制。
为了克服这些问题,提出了一种新的检测自由框架——CoFiNet,使用从粗到细的机制提取点云的对应关系。通过加权匹配和密度自适应的匹配模块,在粗略和精细层次上逐步优化对应关系,提高了在不规则点云上的鲁棒性。
Related work
主要讨论了3D点云配准中局部描述符、关键点检测以及粗到细匹配机制的发展。
最早的局部描述符方法主要依赖于均匀分布的局部补丁作为输入,例如3DMatch基准使用孪生网络匹配截断距离场(TDF)的体素网格。随后,PPFNet和PPF-FoldNet等方法引入了自然旋转不变的描述符,分别利用原始点和点对特征(PPF),并通过无监督学习增强模型的旋转不变性。然而,基于补丁的方法通常存在计算效率低的问题,因为相邻补丁共享的激活值没有被重复使用。为了解决这一问题,FCGF通过稀疏卷积首次实现了整个点云的密集描述符计算,提升了速度,同时保持了与基于补丁方法相当的性能。
在关键点检测方面,USIP自监督地回归每个局部补丁中最显著点的位置,但在关键点数量较少的情况下表现不佳。D3Feat采用全卷积编码-解码架构进行密集检测和描述,但在重叠较少的场景中鲁棒性较低。PREDATOR则通过预测重叠分数来判断点是否位于重叠区域,从而在3DMatch和3DLoMatch基准上显著超越了现有方法,但仍受限于分数精度和关键点重复性的约束。
近年来,2D图像匹配中采用的粗到细匹配机制被引入点云匹配领域,显著提高了性能。DRC-Net、Patch2Pix和LoFTR等方法通过逐步从补丁级别到像素级别进行细化匹配,成功解决了关键点检测中的重复性问题,提升了匹配的准确性和效率。
Methodology
详细介绍了CoFiNet在点云配准中的粗到细匹配机制。点云配准的目标是通过提取点对之间的对应关系,最终恢复一对无序点集之间的刚性变换,并使用RANSAC来估计这一变换。CoFiNet方法主要分为两个阶段:粗略匹配和精细匹配。
在粗略匹配阶段,首先对点云进行降采样。使用共享的KPConv编码器将原始点云降采样为均匀分布的节点,同时学习它们的关联特征。为了增强节点的特征表达能力,采用了自注意力和交叉注意力机制。自注意力模块用于聚合同一帧点云中节点的上下文信息,交叉注意力模块则用于在两帧点云之间交互上下文。通过这些模块,节点的全局上下文得到有效融合,使得来自两帧点云的节点特征更加丰富。接下来,使用相似性矩阵计算节点之间的匹配情况,匹配那些具有较高重叠区域的节点。为了处理匹配失败的情况,相似性矩阵被扩展为带有“松弛”项的形式,使得未能找到匹配节点的点可以匹配到松弛项上。这一相似性矩阵通过Sinkhorn算法求解最优传输问题,生成包含置信度较高的节点对应关系。为了保证足够数量的粗匹配节点,CoFiNet动态调整置信度阈值,确保提取到足够多的匹配节点。
在精细匹配阶段,粗匹配节点的对应关系进一步被细化到点级别。首先,通过堆叠多层KPConv,将降采样后的节点重新恢复为原始点云,并为每个点学习密集的特征描述符。这些特征描述符不仅描述了点的几何信息,还增强了点的辨识能力。在这一过程中,CoFiNet将粗匹配结果、原始点云和密集特征描述符输入到“对应关系细化模块”中。在该模块中,粗匹配的节点被扩展为局部的点云补丁,然后通过密集特征进一步细化补丁的对应关系,生成最终的点级匹配对。这些细化的点级匹配对可用于点云配准,从而估计出两个点云之间的刚性变换。
整体上,CoFiNet通过粗到细的匹配策略,成功应对了点云数据的无序性和稀疏性问题,提升了点云匹配的精度和鲁棒性,并为后续的刚性变换估计提供了可靠的匹配基础。
在粗匹配过程中,CoFiNet采用了基于最优传输的匹配损失函数,确保模型能够有效学习节点之间的对应关系。这部分损失函数旨在最小化匹配节点之间的特征差异,同时通过加入松弛项来减少误匹配的风险。此外,还引入了正则化项,确保匹配的平衡性和稀疏性。对于精细配准,通过引入基于特征描述符的匹配损失,CoFiNet能够进一步最小化点级特征之间的差异,确保精细匹配结果的准确性。同时,还使用了正则化损失来约束不合理的匹配对,进一步提高了模型的鲁棒性。
Results
主要介绍了CoFiNet在多个公开基准数据集上的性能评估,包括室内和室外场景。室内场景使用了3DMatch和3DLoMatch数据集进行评估,前者的点云对有超过30%的重叠,而后者的重叠范围较小(10%~30%)。对于室外场景,则使用odometryKITTI数据集进行评估。
文中提出了三个常用的评估指标:配准召回率(Registration Recall, RR)、特征匹配召回率(Feature Matching Recall, FMR)和内点比率(Inlier Ratio, IR)。其中,配准召回率衡量通过RANSAC估计的变换误差是否小于特定阈值,特征匹配召回率评估匹配的点云对中内点比率超过5%的比例,内点比率则表示几何空间中残差小于特定阈值的匹配比例。
通过实验,CoFiNet与多种现有方法(如3DSN、FCGF、D3Feat和PREDATOR)进行了比较。结果表明,在3DMatch和3DLoMatch数据集中,CoFiNet在多个指标上都表现出色,特别是在特征匹配召回率和内点比率上,均超越了其他方法。此外,CoFiNet的参数量相比其他方法更少,展现了更高的计算效率。
Conclusion
对全文的一个总结,介绍了一种基于粗到细策略的深度神经网络,用于从无序且不规则采样的点云中提取匹配点进行配准。该模型可以直接处理无序的点集,并且无需关键点辅助就能提出可靠的匹配点。结果表明,该模型在3DMatch和KITTI数据集上与当前最先进的方法表现相当,而在3DLoMatch数据集上则表现优越,并且使用了显著更少的参数。