概要
不同模态之间的配准,例如来自摄像机的2D图像和LiDAR的3D点云之间的配准,是计算机视觉和机器人领域中至关重要的任务。
以往的方法通常通过匹配神经网络学习到的点和像素模式来估计2D-3D对应关系,并在后处理阶段使用 Perspective-n-Points(PnP)方法来估计刚性变换。然而,这些方法在将点和像素鲁棒地映射到共享的潜在空间方面存在困难,因为点和像素具有非常不同的特征,并且它们无法直接在变换上构建监督,因为PnP是不可微分的,导致配准结果不稳定。为了解决这些问题,我们提出了一种通过可微分的概率PnP求解器学习结构化的跨模态潜在空间的方法,以表示像素特征和3D特征。
具体而言,我们设计了一个三元网络来学习VoxelPoint-to-Pixel匹配,其中我们使用体素和点来表示3D元素,以通过像素学习跨模态潜在空间。我们基于CNN设计了体素和像素分支,以在表示为网格的体素/像素上执行卷积,并集成了额外的点分支,以在体素化过程中丢失的信息。我们通过在概率PnP求解器上直接施加监督来端到端地训练我们的框架。
为了探索跨模态特征的独特模式,我们设计了一种具有自适应