(2023 CVPR)CompletionFormer: Depth Completion with Convolutions and Vision Transformers

在这里插入图片描述

Abstract

给定稀疏深度和相应的RGB图像,深度补全旨在将稀疏测量值在整个图像中进行空间传播,以获得密集的深度预测。尽管基于深度学习的深度补全方法取得了巨大的进步,但卷积层或图模型的局部性使得网络难以对像素之间的长期关系进行建模。虽然最近完全基于transformer的体系结构在全局接受场方面取得了令人鼓舞的结果,但由于其局部特征细节的恶化,与发达的CNN模型相比,性能和效率差距仍然存在。本文提出了一个联合卷积注意和变形块(Joint Convolutional Attention and Transformer block, JCAT),将卷积注意层和视觉变形深度耦合为一个块,作为构建金字塔结构深度补全模型的基本单元。这种混合体系结构自然有利于卷积的本地连接性和单个模型中Transformer的全局上下文。因此,我们的CompletionF former在室外KITTI深度完成基准和室内NYUv2数据集上优于最先进的基于cnn的方法,与纯基于transformer
code: https://github.com/youmi-zym/CompletionFormer

1. Introduction

主动深度传感在性能上取得了显著的进步,并在自动驾驶和增强现实等众多应用中展示了其实用性。尽管现有商用深度传感器(如微软Kinect[23]、英特尔RealSense[11])捕获的深度图或激光雷达传感器同一扫描线内的深度点是密集的,但由于传感器噪声、具有挑战性的条件(如透明、发光和黑暗的表面)或激光雷达传感器的扫描线数量有限,有效/正确深度点之间的距离仍然可能很远。为了解决这些问题,深度补全技术[2,16,26,31]近年来受到了广泛关注,其目标是通过稀疏深度测量和相应的RGB图像(即RGBD)补全和重建整个深度图。

对于深度补全,一个关键是获得相邻像素之间的深度亲和力,以便将可靠的深度标签传播到周围环境[2,3,8,16,26]。由于给定的稀疏深度可能由于噪声甚至深度传感器没有返回测量值而高度稀疏,因此要求深度补全方法能够1)通过测量局部和全局视角下像素之间的空间关系来检测深度异常值;2)融合来自近距离甚至极远距离点的有效深度值。所有这些属性都要求网络具有捕获像素之间局部和全局相关性的潜力。目前的深度补全网络通过广泛使用的卷积神经网络(cnn)[2,3,8,16,26,29,37,51]或图神经网络[42,49]来收集上下文信息。然而,卷积层和图模型都只能在局部区域内聚集,例如:对于卷积,使用3×3中的平方核,对于图模型,使用基于knn的邻域[42,49],这使得对全局长期关系建模仍然很困难,特别是在体系结构的最浅层中。最近,GuideFormer[31]采用了完全基于transformer的架构来实现全局推理。不幸的是,由于Vision transformer通过单一步骤将图像补丁投影为向量,这导致局部细节的丢失,从而导致在密集预测任务中忽略局部特征细节[28,43]。

对于深度补全,影响纯cnn或基于Transformer的网络的局限性也会显现出来,如图1所示。尽管可靠的深度点可以分布在任何距离上,但探索这两种不同范例(即cnn和Transformer)的优雅集成还没被研究对于深度补全。
在这里插入图片描述
图1 纯cnn、Vision Transformer和联合cnn和Transformer结构的CompletionFormer的注意图比较。RGB图像(a)中用黄色叉突出显示的像素是我们想要观察网络如何预测它的像素。纯cnn架构(b)激活判别局部区域(即灭火器上的区域),而基于Transformer的纯模型©全局激活但在局部细节上失败。相比之下,我们完整的CompletionFormer (d)可以保留本地细节和全局上下文。

在这项工作中,我们提出了CompletionFormer,这是一种金字塔结构,将基于cnn的局部特征与基于transformer的全局表示相结合,以增强深度补全。一般来说,我们面临两个缺口:1)RGB和深度输入之间的内容缺口;2) convolution和Transformer之间的语义差距。对于多模态输入,我们建议在网络早期嵌入RGB和深度信息。因此,我们的CompletionFormer可以在如图2所示的高效的单分支架构中实现,并且可以在整个网络中聚合多模态信息。考虑到卷积和Transformer的融合,以往的工作从几个不同的角度对图像分类和目标检测进行了探索[6,12,25,28,43]。尽管在这些任务上已经取得了最先进的性能,但当这些网络直接适应深度完全任务时,会出现计算成本高[12]或性能较差[6,12]的情况。为了保证自注意和卷积的结合仍然是高效的,并且是有效的,我们将卷积注意和Transformer纳入一个块中,并将其作为基本单元来构建我们的多尺度网络。具体来说,Transformer层的灵感来自Pyramid Vision Transformer[39],它采用了空间缩减注意(spatial-reduction attention),使Transformer层更加轻量级。对于与卷积相关的部分,常见的选择是使用普通卷积,如倒残差块[32]。然而,卷积和Transformer之间巨大的语义差距以及Transformer丢失的局部细节要求卷积层增加自己的容量来补偿它。根据这一原理,我们进一步引入空间和通道注意[40]来增强卷积。因此,不需要任何额外的模块来弥合内容和语义差距[12,28,31],所提出的块中的每个卷积层和Transformer层都可以访问局部和全局特征。因此,信息交换和融合有效地发生在我们的网络的每一个块。
综上所述,我们的主要贡献如下:

  1. 我们建议将视觉转换器与卷积注意层集成到一个块中进行深度补全,使网络同时拥有局部和全局接受域,以进行多模态信息交互和融合。特别地,引入了空间和通道注意来增加卷积层的容量
  2. 以提出的JCAT块为基本单元,引入了一个单分支网络结构,即CompletionFormer。这种优雅的设计使得计算成本与当前基于cnn的方法相当,而与纯基于Transformer的方法相比,效率显着提高。
  3. 与最先进的方法相比,我们的CompletionFormer在深度补全方面有了很大的改进,特别是在实际应用中经常出现的深度非常稀疏的情况下。

2. Related Work

Depth Completion
随着有源深度传感器的出现,场景深度补全已成为计算机视觉中的一项基本任务。最近,随着深度学习的发展,全卷积网络已经成为当前最先进的深度完成的原型架构。Ma等人[21,22]利用基于ResNet[7]的编码器-解码器架构,即U-Net,在监督或自监督框架内预测密集输出。为了保持给定稀疏深度下的准确测量值,并对最终深度图进行细化,CSPN[3]在U-Net的末端附加了一个卷积空间传播网络(SPN[18]),以细化其粗预测。在CSPN的基础上,提出了可学习的卷积核大小和迭代次数来提高效率[2],通过使用不固定的局部邻居[26,44]和每次迭代独立的亲和矩阵[16]可以进一步提高性能。对于所有这些基于spn的方法,虽然在循环处理中观察到更大的上下文,但性能受到卷积U-Net骨干网容量的限制。因此,我们增强了U-Net骨干网对本地和全局连贯上下文信息的表达能力,证明在提高性能方面是有效的。

还采用多分支网络[8,17,24,29,35,37,46]来进行多模态融合,而不是依赖于单个分支。融合多模态信息的常用方法是简单的串联或元素求和操作。还提出了更复杂的策略,如图像引导的空间变异卷积[35,45]、通道典型相关分析[50]、邻居注意机制[47]和基于注意的图传播[42,49],以增强局部信息的交互和融合。最近,GuideFormer[31]提出了一种双分支完全基于transformer的网络,以单独嵌入RGB和深度输入,而不是像素化操作或局部融合,并进一步设计了一个额外的模块来捕获多模式依赖关系。每个输入源的独立设计导致巨大的计算成本(352 × 1216输入时接近2T FLOPs)。相比之下,我们在一个分支中的CompletionFormer带来了显著的效率(559.5G FLOPs),并且包含的卷积注意层弥补了Transformer在局部细节方面的缺点。

**Vision Transformer **
变形器[12,19]首先被引入到自然语言处理中[38],随后在图像分类[4]、目标检测[12,19,43]和语义分割[41]等领域也显示出巨大的潜力。与3D视觉相关的任务也受益于Transformer丰富的建模能力,如立体匹配[13,15],监督[14,30]和无监督单目深度估计[48],光流[10,34]以及深度补全[31]。本文不依赖单纯的Vision Transformer[31],而是探索将Transformer和convolution结合到一个block中进行深度补全。与一般的骨干网络(如完全基于cnn设计的ResNet[7]、基于纯Transformer的Swin Transformer[19]和PVT[39]、同时使用卷积和Vision Transformer的MPViT[12]和CMT[6])相比,我们提出的联合卷积关注和Transformer块在公共基准测试中实现了更高的效率和性能[33,36]。

3. Method

在实际应用中,传感器捕获的深度图呈现出不同程度的稀疏度和噪声。我们的目标是在深度补全任务中引入局部特征和全局上下文信息,以便从任何距离收集可靠的深度提示。我们的CompletionFormer的总体图如图2所示。在获得深度和RGB图像嵌入后,使用我们的JCA T块构建的主干进行多尺度特征提取,解码器提供全分辨率特征用于初始深度预测。最后,为了从稀疏输入中保持准确的深度,我们使用空间传播网络对初始估计进行了改进
在这里插入图片描述
图2 CompletionFormer架构。考虑到稀疏的深度和相应的RGB图像,采用JCAT块增强的U-Net骨干网进行多尺度的深度和图像信息交互。不同阶段的特征以全分辨率融合,并馈入初始预测。最后,利用空间传播网络(SPN)进行最终细化。

3.1. RGB and Depth Embedding

对于深度补全,早期的多模态信息融合具有以下几个优点:1)使每个像素的特征向量同时具有RGB和深度信息,使得深度无效的像素仍然有机会通过可靠的深度测量根据外观相似性进行校正;2)以下网络只需要一个分支,实现效率高。因此,我们首先使用两个单独的卷积对输入的稀疏深度图S和RGB图像I进行编码,输出经过另一个卷积层连接并进一步处理,得到包含两个源内容的原始特征。

3.2. Joint Convolutional Attention and Transformer

如何在像素之间建立连接来实现可靠像素的深度传播,同时避免不正确的像素,已经得到了广泛的研究。最近,卷积层[2,3,8,16,26,29,37,51]或以注意力为基础的图传播[42,49]一直是实现这一目的的主要操作。虽然完全基于transformer的网络[31]也被用于此目的,但与纯基于cnns的方法相比,其结果更差,计算成本更高。考虑到这两种类型操作的互补性,深度补全任务高度要求这两种范式的优雅集成。另一方面,对于分类和目标检测任务,MPViT[12]和CMT[6]是自注意与卷积相结合的两种具有代表性的最先进网络,分别如图3 (a)和(b)所示。通常,集成可以以并行或级联的方式实现
因此,受其设计的启发,我们在CompletionFormer中提出了如图3 ©和(d)所示的联合设计。为了减少计算开销并获得高度精确的深度补全结果,我们的CompletionFormer只包含单个而不是MPViT中耗时的多个基于变压器的路径[12]。此外,利用空间和通道的关注增强了基于卷积的路径的表示能力

在这里插入图片描述
图3 结构与卷积和视觉变压器的例子。(a) MPViT的多径变压器块[12]。(b) CMT- s的CMT块[6]。©我们提出的JCA T块包含两个并行流,分别是卷积注意层和Transformer层。(d)我们提出的具有级联连接的块的变体。

具体来说,我们的编码器有五个阶段,允许不同尺度的特征表示有效地相互通信。在第一阶段,为了降低Transformer层带来的计算成本和内存开销,我们使用ResNet34[7]中的一系列BasicBlocks进行处理,最终得到半分辨率下采样的feature map F1。在接下来的四个阶段中,我们将介绍我们提出的JCA T块作为框架设计的基本单元。

基本上,对于每个阶段i∈{2,3,4,5},它由一个补丁嵌入模块和Li重复的JCA T块组成。补丁嵌入模块首先将前一阶段i−1的特征映射Fi−1划分为大小为2 × 2的补丁。我们用一个3 × 3的卷积层来实现它,步幅设置为2[39],因此它实际上是对特征Fi−1的一半分辨率,从而允许获得一个特征金字塔{F2, F3, F4, F5},其分辨率为{1/4,1/ 8,1 / 16,1 /32}。此外,位置嵌入也包含在嵌入的补丁中,并通过JCAT块传递。

Joint Convolutional Attention and Transformer
Block.

总的来说,我们的JCAT块可以以并行或级联的方式组织,分别如图3 ©和(d)所示。Transformer层以一种有效的方式实现,如Pyramid Vision Transformer[39],它包含一个具有多头机制的空间减少注意(SRA)层和一个前馈层(FNN)。给定来自补丁嵌入模块或最后一个联合块的输入特征F∈RHi×Wi×C(第i阶段特征的高度和宽度分别为Hi和Wi,通道数为C),我们首先用层归一化(LN)对其进行归一化,然后将其平面化为向量标记X∈RN×C,其中N为标记的个数,等于Hi×Wi,即F中所有像素的个数。使用学习过的线性变换wq、wk和wv∈RC×C,将令牌X投影到相应的查询Q、键K和值向量V∈RN×C中。在这里,进一步减小K和V的空间尺度以减少内存消耗,然后进行自注意:
在这里插入图片描述
用Chead表示SRA中每个注意头的通道维度。根据Eq.(1),整个输入空间F中的每个标记都与任何标记匹配,包括其自身。我们的深度补全网络从自关注机制中受益于两个方面:1)它将我们的网络的接受域扩展到每个Transformer层的完整图像;2)由于我们将每个标记都嵌入了深度和RGB图像信息,因此自关注机制不仅通过外观,还通过深度通过点积运算明确地比较每个像素的相似性。因此,可靠的深度信息可以广播到整个图像,从而能够纠正错误的像素。

我们通过通道和空间注意来增强卷积路径的表示能力[40]。一方面,它有助于模拟局部准确的注意力和减少噪音。另一方面,由于卷积和Transformer之间的语义差距,通过使用注意机制增加的建模能力使该路径能够专注于Transformer层提供的重要特性,同时抑制不必要的特性。最后,通过连接来自基于transformer的路径的重塑特征,我们用3 × 3卷积融合两条路径并将其发送到下一个块或阶段

以提出的JCA T块为基本单元,我们构建了具有重复配置的阶段2-5。如表1所示,我们将CompletionFormer中的4个阶段从微小扩展到基本规模。我们的研究结果表明,与最近的视觉变压器[12,19,39]相比,JCA T设计在深度完成任务方面具有优势。

在这里插入图片描述
表1 CompletionFormer配置。#Layers表示每个阶段的JCA T块的数量。对于所有模型变体,4个阶段的通道分别为64、128、320、512。使用480 × 640输入图像测量FLOPs。

3.3. Decoder

在解码器中,来自每个编码层的输出被连接起来,并由相应的解码层通过跳过连接进一步处理。为了更好地适应不同尺度的特征,我们使用反卷积层将先前解码层的特征上采样到当前尺度,并利用卷积注意机制[40]来加强通道和空间维度的特征融合。最后,将来自解码器的融合结果与第一阶段的特征相连接,并馈送到预测头的第一卷积层。它的输出与来自RGB和深度嵌入模块(第3.1节)的原始特征连接,并发送到另一个卷积,该卷积负责初始深度预测D0

3.4. SPN Refinement and Loss Function

考虑到稀疏输入经过U-Net[3,8]后可能不能很好地保留准确的深度值,空间传播网络[18]已成为最终细化的标准操作。近年来的研究工作[2,3,8,26]主要集中在改进空间传播网络,从固定局部传播到非局部传播。
而在我们的实验中(表2),我们观察到,通过我们增强的U-Net骨干网,网络能够提供良好的深度亲和力,从而获得与固定本地[2,3]或非本地[26]邻居几乎相同的空间传播精度。针对cspn++[2]消耗较多的计算成本,我们采用非局部空间传播网络[26](non-local spatial propagation network, NLSPN)进行进一步细化。其中,Dt = (dtu,v)∈RH×W表示第t步空间传播更新的二维深度图,其中dtu,v表示像素(u, v)处的深度值,H, W分别表示Dt的高度和宽度。

dtu,v在第t步与其非局部邻居NNLu,v的传播定义如下:
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值