CVPR2024:XFeat

XFeat: Accelerated Features for Lightweight Image Matching

论文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Potje_XFeat_Accelerated_Features_for_Lightweight_Image_Matching_CVPR_2024_paper.pdf
参考: https://blog.csdn.net/athrunsunny/article/details/139381482

一种新颖的卷积神经网络架构,使用精心设计的策略进行关键点选择和局部特征提取,尽量减少计算占用,同时保持鲁棒性和准确性。XFeat的设计与硬件无关。XFeat既适合执行基于关键点的稀疏特征匹配,也适合执行粗特征的密集匹配。


摘要:

我们介绍了一种轻量级而准确的资源高效视觉对应的架构。我们的方法,被称为XFeat(加速特征),重新审视了卷积神经网络在检测、提取和匹配局部特征方面的基本设计选择。我们的新模型满足了对于适用于资源有限设备的快速和稳健算法的迫切需求。特别是,准确的图像匹配需要足够大的图像分辨率------出于这个原因,我们尽可能地保持分辨率的大小,同时限制网络中通道的数量。此外,我们的模型被设计为在稀疏或半密集级别进行匹配的选择,其中每种级别可能更适合不同的下游应用,比如视觉导航和增强现实。我们的模型是第一个高效提供半密集匹配的模型,利用了一种依赖于粗糙局部描述符的新型匹配细化模块。XFeat是多才多艺且与硬件无关的,以比当前基于深度学习的局部特征更快的速度(最多快5倍)和可比较或更好的准确性,证明了在姿态估计和视觉定位中的效果。我们展示了它在廉价笔记本电脑CPU上实时运行,没有专门的硬件优化。


主要贡献:

1、一种新颖的轻量级 CNN 架构,可以部署在资源受限的平台和需要高吞吐量或计算效率的下游任务上,而不需要耗时的特定于硬件的优化。
2、设计了一个极简的、可学习的关键点检测分支,该分支快速且适合小型提取器主干,展示了其在视觉定位、相机姿态估计和单应性配准方面的有效性;
3、提出了一种新颖的匹配细化模块,用于从粗半密集匹配中获取像素级偏移。与现有技术(Aspanformer、LoFTR)不同,我们的新策略除了局部描述符本身之外不需要高分辨率特征,大大减少了计算量并实现了分别如图 1 和图 2 所示的高精度和匹配密度。
在这里插入图片描述 在这里插入图片描述


XFeat: Accelerated Features

局部特征提取精度很大程度上取决于输入图像分辨率。例如,在相机姿势、视觉定位和 SfM 任务中,对应关系应该足够细粒度,以允许像素级匹配。然而,将高分辨率图像输入网络主干网会将计算要求提高到不希望的水平,即使对于简单的小型网络主干,如类似SuperPoint VGG-like的架构。
如何使用最小化计算预算的策略来显着降低计算成本,同时减轻由于更小的 CNN backbone而导致的鲁棒性损失。


轻量级骨干网络(Featherweight Network Backbone)

在这里插入图片描述
在卷积神经网络中,为了减少计算成本,一种常见策略是在初始卷积层使用较少的通道数,然后随着层数增加逐步加倍通道数。

在整个网络中修剪通道会损害其处理照明和视角变化等挑战的能力。

在一些使用深度可分离卷积的高效网络中,使用3*3卷积比标准减少了Fops 9倍之多,但是在局部特征提取中,在较浅的网络处理较大分辨率图像的情况下,与分类和目标检测等低分辨率输入场景相比,使用深度可分离卷积这种方法的效果较差。这导致浅层网络的表示能力有限,局部特征提取的速度增益很小。(在局部特征提取任务中,这种策略的效果并不如在低分辨率任务(例如图像分类和目标检测)中那么有效。这是因为在局部特征提取中,网络需要处理更大的图像分辨率,因此这种增加通道数的方法会导致计算瓶颈。

H,W成为影响CNN中Fops的主要计算瓶颈。

新策略(最小化早期层深度并重新配置通道分布):在初始卷积层尽可能减少通道数,为了平衡参数的减少,随着空间分辨率的降低将通道数增加两倍,直到达到足够的通道数(如128)。这种策略有效地重新分配了网络的卷积深度,减少了早期层的计算负载,并优化了网络的整体容量。
该策略的特点是随着空间分辨率减半,卷积深度增加三倍,有效地重新分配网络的卷积深度。它确保早期层的最小深度,同时补偿主干上减少的参数数量。这种方法不仅显着减少了早期阶段的计算负载,特别是对于高分辨率图像,而且还通过更有效地管理卷积深度来优化网络的整体容量。
在最终编码器块中从 C = 4 个通道开始,以 C = 128 结束,实现了空间精度和加速增益之间的良好权衡,实现了 H/32 × W/32 的空间分辨率。

局部特征提取

描述符头

描述符头提取密集特征图 F ∈ RH/8×W/8×64,通过合并来自编码器的多尺度特征获得。通过使用特征金字塔策略 ,我们通过应用连续的卷积块直到达到原始分辨率的 1/32,以低廉的成本增加网络的感受野,该策略已在局部特征提取方面取得成功,以提高对视点变化的鲁棒性也是小型网络主干在实践中良好运行的关键因素。我们通过双线性上采样合并三个不同比例级别的中间表示:{1/8、1/16、1/32},并将所有中间表示投影到 H/8 × W/8 × 64,然后按元素求和。最后,使用由三个基本层组成的卷积融合块将表示组合成最终的特征表示 F。使用附加的卷积块来回归可靠性图 R ∈ RH/8×W/8,该图对无条件概率进行建模Ri,j 可以自信地匹配给定的局部特征 Fi,j。

关键点头

一般来说,局部特征提取的主干依赖于UNet、VGG和ResNets。SuperPoint中使用的策略提供了提取像素级关键点的最快方法。它使用最终编码器中具有原始图像分辨率 1/8 的特征,并通过从特征嵌入中对 8×8 网格中的关键点坐标进行分类来提取像素级关键点。本文采用类似于 SuperPoint 的策略,区别在于本文引入了一种新的方法,该方法采用专用的并行分支进行关键点检测,专注于low-level图像结构。如消融实验(第 4.4 节)所示,通过在单个神经网络主干中联合训练描述子和关键点回归器,显着降低紧凑 CNN 架构的半稠密匹配性能。

通过极简卷积分支有效地利用低级特征。为了在不牺牲速度的情况下保持空间分辨率,将输入图像表示为每个网格单元上由8×8个像素组成的2D网格,并将每个单元重塑为64维特征。这种表示保留了单个网格单元内的空间粒度,同时利用快速的 1 × 1 卷积来回归关键点坐标。在四个卷积层之后,获得了一个关键点嵌入,编码单元内的关键点分布的logits,并将该关键点分类为内的64个可能位置之一,加上一个dustbin以考虑没有发现关键点的情况。在推理过程中,dustbin被丢弃,热图被重新解释为 8 × 8 单元格。

密集匹配

最近的一些研究证明了密集图像区域匹配的好处,提高了覆盖范围和鲁棒性。本文提出了一种用于密集特征匹配的轻量级模块,与其他无检测器方法在两个方面有所不同。首先,通过根据可靠性得分选择top-K个图像区域来控制内存和计算占用空间,并将它们缓存以备将来匹配。其次,提出了一种简单轻量级的多层感知器(MLP),可以在没有高分辨率特征图的情况下进行coarse-to-fine匹配,使我们能够在资源受限的环境中进行半稠密匹配。
给定密集的局部特征图,输入空间分辨率的 1/8或子集,本文提出了一种简单的细化策略来恢复像素级偏移。设和两个匹配特征,通过从图像对的传统最近邻匹配获得。预测偏移量,对偏移量进行分类,从而在原始图像分辨率下实现正确的像素级匹配

在这里插入图片描述

实验

论文见

结论

这项工作介绍了 XFeat,一种用于加速特征提取的轻量级 CNN 架构,适用于稀疏和半密集图像匹配。通过对三种不同任务和消融分析的实验,我们表明无需借助先进的低级硬件优化即可实现快速准确的图像匹配。这与部署日益庞大和复杂的模型的普遍趋势形成鲜明对比。我们相信 XFeat 为增强现实和移动机器人领域的下一代应用铺平了道路,其中高效且通用的数据驱动解决方案对于现实世界的部署仍然至关重要,尤其是在移动应用中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值