[CCPNet]Cascaded Context Pyramid for Full-Resolution 3D Semantic Scene Completion


在这里插入图片描述

摘要

【背景】Semantic Scene Completion (SSC) aims to simultaneously predict the volumetric occupancy and semantic category of a 3D scene. It helps intelligent devices to understand and interact with the surrounding scenes.

语义场景完成(SSC)旨在同时预测3D场景的体积占用率和语义类别。它帮助智能设备理解周围的场景并与之交互。

【问题】Due to the high-memory requirement, current methods only produce low-resolution completion predictions, and generally lose the object details. Furthermore, they also ignore the multiscale spatial contexts, which play a vital role for the 3D inference.

【方法】To address these issues, in this work we propose a novel deep learning framework, named Cascaded Context Pyramid Network (CCPNet), to jointly infer the occupancy and semantic labels of a volumetric 3D scene from a single depth image. The proposed CCPNet improves the labeling coherence with a cascaded context pyramid. Meanwhile, based on the low-level features, it progressively restores the fine-structures of objects with Guided Residual Refinement (GRR) modules.

为了解决这些问题,我们提出了一种新的深度学习框架,称为级联上下文金字塔网络(CCPNet),用于从单个深度图像中联合推断三维场景的占用率和语义标签。提出的CCPNet通过级联上下文金字塔提高了标签的一致性。同时,基于低层特征,利用引导残差细化(GRR)模块逐步恢复目标的精细结构。

【优点】Our proposed framework has three outstanding advantages: (1) it explicitly models the 3D spatial context for performance improvement; (2) full-resolution 3D volumes are produced with structure-preserving details; (3) light-weight models with low-memory requirements are captured with a good extensibility. Extensive experiments demonstrate that in spite of taking a single-view depth map, our proposed framework can generate high-quality SSC results, and outperforms state-of-the-art approaches on both the synthetic SUNCG and real NYU datasets.

我们提出的框架有三个突出的优点:(1)它明确地建模了3D空间环境,以提高性能;(2) 全分辨率3D体积的制作保留了结构细节;(3) 具有低内存需求的轻量级模型具有良好的可扩展性。大量的实验表明,尽管采用了单视图深度图,我们提出的框架仍然可以生成高质量的SSC结果,并且在合成SUNCG和真实纽约大学数据集上都优于最先进的方法。

Cascaded Context Pyramid Network

给定3D场景的单视图深度图,我们CCPNet的目标是将视锥体中的体素映射到语义标签C=[c0,c1,…,cN+1]之一,其中N是语义类别的数量,c0代表空体素。我们的CCPNet是一个自级联金字塔结构,用于连续聚合多尺度3D上下文和局部几何细节,以完成全分辨率场景。它由三个关键组件组成,即三维扩展卷积编码器(DCE)、级联上下文金字塔(CCP)和引导残差细化(GRR)。在功能上,DCE采用多个带分离核的扩展卷积从单视图深度图像中提取3D特征表示。然后,CCP执行从全局到局部的顺序上下文聚合,以提高标记的一致性。在上下文聚合之后,引入GRR,使用由浅层学习的低级特征来细化目标对象。在下面的小节中,我们将详细描述这些组件。

3D Dilated Convolution Encoder

在这里插入图片描述

输入张量生成。

对于前端3D DCE的输入,我们遵循之前的工作[32,5,10],根据曼哈顿假设旋转3D场景,使其与重力和房间方向对齐。我们考虑三维空间的绝对尺寸,水平方向为4.8米,垂直方向为2.88米,深度为4.8米。每一个3D场景都被编码成一个重叠的截断符号距离函数(fTSDF)[32],网格大小为0.02 m,截断值为0.24 m,生成一个240×144×240张量作为网络输入。我们的方法以与输入相同的分辨率生成完成结果。然而,由于完全卷积结构和轻量化网络设计,我们的方法当然可以将更大的深度图像作为输入,甚至是全分辨率深度图(例如,深度传感器的427×561)。在模型训练期间,我们从三维场景的虚拟视点渲染深度贴图,并使用对象标签作为地面真实值对整个三维场景进行体素化。

Encoder Structure.

在这里插入图片描述

处理3D数据需要大量内存和大量计算。为了减少记忆需求,我们提出了一种轻型编码器来提取场景的3D特征表示,如图1所示。如密集标记任务[40,39,2,37]所示,大背景可以为理解场景提供有价值的信息。对于3D场景和深度图像,由于缺少高频信号,空间上下文更有用。为了有效地学习空间上下文信息,我们要确保编码器有足够大的接收场。一种直接的方法是使用[34,32]中提出的三维扩展卷积,它可以指数地扩展感受野,而不会丢失分辨率或覆盖范围。然而,三维扩张卷积的计算量相当大,因为我们需要进行大体积的卷积。为了解决这个问题,我们提出具有分离核的三维扩展卷积。更具体地说,我们首先将输入张量分离为几个子体积,然后将3D扩展的核应用于卷积的每个子体积。原因有两方面。一方面,我们的方法可以减少模型参数和计算量,并且继承了扩张卷积的所有特性。另一方面,我们的方法考虑了深度剖面的特征,其中深度值仅在相邻区域连续。图2显示了3D卷积[18]、3D扩展卷积[32]和我们提出的方法的差异。为了构建我们的3D DCE,我们将建议的3D扩展卷积与3D池叠加几次。此外,为了避免极端分离,我们随着网络深度的增加减少了子卷的数量。详细参数如图1所示。

Cascaded Context Pyramid

对于场景完成,不同的对象具有非常不同的物理3D大小和视觉方向。这意味着模型需要捕获不同上下文中的信息,以便可靠地识别对象。此外,对于室内场景中的混淆人造对象,由于类内方差高,类间方差低,因此很难获得一致的标记结果。因此,仅使用目标对象的单一比例和全局信息是不够的[32,24]。我们需要引入多尺度上下文信息,它描述了对象与其周围环境之间的潜在依赖关系。然而,使用通用的融合策略(例如,直接堆栈[2,40]),很难在不同规模的上下文中保留层次依赖关系。为了解决这个问题,我们提出了一种新的自级联上下文金字塔结构,如图3(a)所示。与以前的方法不同,我们的方法顺序地将全局上下文聚合到局部上下文,同时很好地保留了层次依赖关系,即不同尺度下对象和场景之间的潜在包含和位置关系。

Architecture Details.

在这里插入图片描述
为了构建上下文金字塔,我们在3D DCE的最后一个池层上执行3D扩展卷积,以捕获多尺度上下文。通过设置不同的膨胀率(实验中为30、24、18、12、6和1)和特征简化层,生成了一系列从全局到局部的三维特征图。大规模语境包含更多语义和更广泛的视觉线索,而小规模语境则保留了对象信息。同时,由于分辨率相等,获得的多尺度背景特征图可以自动对齐。为了很好地保留多尺度上下文的层次依赖关系,我们以自级联金字塔的方式对它们进行顺序聚合。从形式上讲,它可以被描述为:
在这里插入图片描述
其中 X n X_n Xn 表示 n n n 尺度上下文, X s a X_{sa} Xsa 表示最终聚合上下文, d n d_n dn 表示提取上下文 X n X_n Xn 的扩展率。 ⊕ ⊕ 表示按元素求和。 f f f 表示基本剩余块(BRB)[16],如图4(a)所示。在我们提出的方法中,我们首先聚合具有大膨胀率的大规模上下文,然后聚合具有小膨胀率的上下文。这种聚合规则符合人类视觉机制,即大规模语境可以在整合小规模语境中起到指导作用。
在这里插入图片描述
我们还注意到,对于多尺度上下文,还有其他突出的结构,如PPM[40]和ASPP[2],如图3(b)所示。为了用不同的上下文聚合信息,他们添加了一个层,将具有不同感受野的特征图并行连接起来:
在这里插入图片描述
然而,我们提出的自级联金字塔结构有几个优点:1)我们的自级联策略增强了不同上下文尺度下的层次依赖性。因此,它比PSPNet[40]和DeepLab变体[2]等并行策略更有效,后者直接融合了具有较大语义差异的多尺度上下文;2) 我们的方法引入了更复杂的非线性运算(等式1),因此它比简单的卷积运算具有更强的建模能力。3) 求和时,顺序聚合显著减少了参数和计算。实验也验证了该方法的有效性。

Guided Residual Refinement

在这里插入图片描述
除了语义混乱的类别外,精细结构的对象也增加了在3D场景中精确标注的难度。然而,目前的方法通常会产生低分辨率的预测,因此很难保留对象的细粒度细节。为了解决这个问题,我们建议使用引导残差细化(GRR)重用低级特征,如图1底部所示。具体地说,丰富的低级特征通过引导剩余连接逐渐重新引入预测流。因此,可以细化粗略的特征图,并恢复低级别的细节以进行全分辨率预测。所使用的引导剩余块(GRB)如图4(b)所示,其可表示为:
在这里插入图片描述
其中 X X X 是输入语义上下文特征, G G G 是来自较浅层的引导特征。 ⊕ ⊕ 表示按元素求和, h h h 表示剩余块中的标准非线性变换。 X r f X_{rf} Xrf 是经过改进的特征图。 R e L u ( ⋅ ) ReLu(·) ReLu t a n h ( ⋅ ) tanh(·) tanh分别是校正的线性单位和双曲正切激活。为了恢复浅层的细节,我们首先集成了输入特征和引导(等式3),然后我们引入了一个与BRB的辅助连接[16]。更具体地说,我们使用双曲正切激活来放大集成特征( X ^ G \hat{X}_G X^G),如图4(b)和eq4-6. 通过引导细化策略融合低级特征是非常有益的。 X X X G G G 的特征映射在不同的层次上代表不同的语义。因此,由于固有的语义差异,直接堆叠所有这些特征[14,28,3]可能不是一种有效的策略。在该方法中,当采用剩余迭代策略时,语义间隙的影响得到了缓解[7]。另一方面,特征放大连接增强了低层细节和梯度传播的效果,这有助于有效地进行端到端训练。此外,还存在用于细节增强的有效细化策略[25,22,38]。然而,它们与我们的非常不同。首先,考虑到3D数据特性,我们的策略侧重于放大低级功能,例如高计算和内存需求。相比之下,以前的方法引入了复杂的细化模块,这些模块对于三维数据几乎不可执行。此外,我们只选择特定的浅层进行细化,如图1底部所示。其他方法包括所有不可避免地包含边界噪声的分层[25,22]。为了建立我们的模型,在预测部分精心嵌入了几个GRB模块,这可以极大地防止拟合残差的积累。因此,建议的CCPNet有效地以从粗到细的标记方式进行全分辨率预测。
在这里插入图片描述

Loss

the voxel-wise softmax loss function
在这里插入图片描述

Experiment

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值