[CCPNet]Cascaded Context Pyramid for Full-Resolution 3D Semantic Scene Completion

最新推荐文章于 2024-01-11 13:29:17 发布

锅巴不写代码

最新推荐文章于 2024-01-11 13:29:17 发布

阅读量303

点赞数

文章标签： 3d 计算机视觉深度学习

本文链接：https://blog.csdn.net/weixin_45095281/article/details/123385416

版权

[CCPNet]Cascaded Context Pyramid for Full-Resolution 3D Semantic Scene Completion

摘要
Cascaded Context Pyramid Network
Experiment

摘要

【背景】Semantic Scene Completion (SSC) aims to simultaneously predict the volumetric occupancy and semantic category of a 3D scene. It helps intelligent devices to understand and interact with the surrounding scenes.

语义场景完成（SSC）旨在同时预测3D场景的体积占用率和语义类别。它帮助智能设备理解周围的场景并与之交互。

【问题】Due to the high-memory requirement, current methods only produce low-resolution completion predictions, and generally lose the object details. Furthermore, they also ignore the multiscale spatial contexts, which play a vital role for the 3D inference.

【方法】To address these issues, in this work we propose a novel deep learning framework, named Cascaded Context Pyramid Network (CCPNet), to jointly infer the occupancy and semantic labels of a volumetric 3D scene from a single depth image. The proposed CCPNet improves the labeling coherence with a cascaded context pyramid. Meanwhile, based on the low-level features, it progressively restores the fine-structures of objects with Guided Residual Refinement (GRR) modules.

为了解决这些问题，我们提出了一种新的深度学习框架，称为级联上下文金字塔网络（CCPNet），用于从单个深度图像中联合推断三维场景的占用率和语义标签。提出的CCPNet通过级联上下文金字塔提高了标签的一致性。同时，基于低层特征，利用引导残差细化（GRR）模块逐步恢复目标的精细结构。

【优点】Our proposed framework has three outstanding advantages: (1) it explicitly models the 3D spatial context for performance improvement; (2) full-resolution 3D volumes are produced with structure-preserving details; (3) light-weight models with low-memory requirements are captured with a good extensibility. Extensive experiments demonstrate that in spite of taking a single-view depth map, our proposed framework can generate high-quality SSC results, and outperforms state-of-the-art approaches on both the synthetic SUNCG and real NYU datasets.

我们提出的框架有三个突出的优点：（1）它明确地建模了3D空间环境，以提高性能；（2）全分辨率3D体积的制作保留了结构细节；（3）具有低内存需求的轻量级模型具有良好的可扩展性。大量的实验表明，尽管采用了单视图深度图，我们提出的框架仍然可以生成高质量的SSC结果，并且在合成SUNCG和真实纽约大学数据集上都优于最先进的方法。

Cascaded Context Pyramid Network

给定3D场景的单视图深度图，我们CCPNet的目标是将视锥体中的体素映射到语义标签C=[c0，c1，…，cN+1]之一，其中N是语义类别的数量，c0代表空体素。我们的CCPNet是一个自级联金字塔结构，用于连续聚合多尺度3D上下文和局部几何细节，以完成全分辨率场景。它由三个关键组件组成，即三维扩展卷积编码器（DCE）、级联上下文金字塔（CCP）和引导残差细化（GRR）。在功能上，DCE采用多个带分离核的扩展卷积从单视图深度图像中提取3D特征表示。然后，CCP执行从全局到局部的顺序上下文聚合，以提高标记的一致性。在上下文聚合之后，引入GRR，使用由浅层学习的低级特征来细化目标对象。在下面的小节中，我们将详细描述这些组件。

3D Dilated Convolution Encoder

在这里插入图片描述

输入张量生成。

对于前端3D DCE的输入，我们遵循之前的工作[32,5,10]，根据曼哈顿假设旋转3D场景，使其与重力和房间方向对齐。我们考虑三维空间的绝对尺寸，水平方向为4.8米，垂直方向为2.88米，深度为4.8米。每一个3D场景都被编码成一个重叠的截断符号距离函数（fTSDF）[32]，网格大小为0.02 m，截断值为0.24 m，生成一个240×144×240张量作为网络输入。我们的方法以与输入相同的分辨率生成完成结果。然而，由于完全卷积结构和轻量化网络设计，我们的方法当然可以将更大的深度图像作为输入，甚至是全分辨率深度图（例如，深度传感器的427×561）。在模型训练期间，我们从三维场景的虚拟视点渲染深度贴图，并使用对象标签作为地面真实值对整个三维场景进行体素化。

Encoder Structure.

在这里插入图片描述

处理3D数据需要大量内存和大量计算。为了减少记忆需求，我们提出了一种轻型编码器来提取场景的3D特征表示，如图1所示。如密集标记任务[40,39,2,37]所示，大背景可以为理解场景提供有价值的信息。对于3D场景和深度图像，由于缺少高频信号，空间上下文更有用。为了有效地学习空间上下文信息，我们要确保编码器有足够大的接收场。一种直接的方法是使用[34,32]中提出的三维扩展卷积，它可以指数地扩展感受野，而不会丢失分辨率或覆盖范围。然而，三维扩张卷积的计算量相当大，因为我们需要进行大体积的卷积。为了解决这个问题，我们提出具有分离核的三维扩展卷积。更具体地说，我们首先将输入张量分离为几个子体积，然后将3D扩展的核应用于卷积的每个子体积。原因有两方面。一方面，我们的方法可以减少模型参数和计算量，并且继承了扩张卷积的所有特性。另一方面，我们的方法考虑了深度剖面的特征，其中深度值仅在相邻区域连续。图2显示了3D卷积[18]、3D扩展卷积[32]和我们提出的方法的差异。为了构建我们的3D DCE，我们将建议的3D扩展卷积与3D池叠加几次。此外，为了避免极端分离，我们随着网络深度的增加减少了子卷的数量。详细参数如图1所示。

Cascaded Context Pyramid

对于场景完成，不同的对象具有非常不同的物理3D大小和视觉方向。这意味着模型需要捕获不同上下文中的信息，以便可靠地识别对象。此外，对于室内场景中的混淆人造对象，由于类内方差高，类间方差低，因此很难获得一致的标记结果。因此，仅使用目标对象的单一比例和全局信息是不够的[32,24]。我们需要引入多尺度上下文信息，它描述了对象与其周围环境之间的潜在依赖关系。然而，使用通用的融合策略（例如，直接堆栈[2,40]），很难在不同规模的上下文中保留层次依赖关系。为了解决这个问题，我们提出了一种新的自级联上下文金字塔结构，如图3（a）所示。与以前的方法不同，我们的方法顺序地将全局上下文聚合到局部上下文，同时很好地保留了层次依赖关系，即不同尺度下对象和场景之间的潜在包含和位置关系。

Architecture Details.

在这里插入图片描述
为了构建上下文金字塔，我们在3D DCE的最后一个池层上执行3D扩展卷积，以捕获多尺度上下文。通过设置不同的膨胀率（实验中为30、24、18、12、6和1）和特征简化层，生成了一系列从全局到局部的三维特征图。大规模语境包含更多语义和更广泛的视觉线索，而小规模语境则保留了对象信息。同时，由于分辨率相等，获得的多尺度背景特征图可以自动对齐。为了很好地保留多尺度上下文的层次依赖关系，我们以自级联金字塔的方式对它们进行顺序聚合。从形式上讲，它可以被描述为：
在这里插入图片描述
其中 $X_n$ 表示 $n$ 尺度上下文, $X_{sa}$ 表示最终聚合上下文， $d_n$ 表示提取上下文 $X_n$ 的扩展率。 $\oplus$ 表示按元素求和。 $f$ 表示基本剩余块（BRB）[16]，如图4（a）所示。在我们提出的方法中，我们首先聚合具有大膨胀率的大规模上下文，然后聚合具有小膨胀率的上下文。这种聚合规则符合人类视觉机制，即大规模语境可以在整合小规模语境中起到指导作用。
在这里插入图片描述
我们还注意到，对于多尺度上下文，还有其他突出的结构，如PPM[40]和ASPP[2]，如图3（b）所示。为了用不同的上下文聚合信息，他们添加了一个层，将具有不同感受野的特征图并行连接起来：

然而，我们提出的自级联金字塔结构有几个优点：1）我们的自级联策略增强了不同上下文尺度下的层次依赖性。因此，它比PSPNet[40]和DeepLab变体[2]等并行策略更有效，后者直接融合了具有较大语义差异的多尺度上下文；2）我们的方法引入了更复杂的非线性运算（等式1），因此它比简单的卷积运算具有更强的建模能力。3) 求和时，顺序聚合显著减少了参数和计算。实验也验证了该方法的有效性。

Guided Residual Refinement

在这里插入图片描述
除了语义混乱的类别外，精细结构的对象也增加了在3D场景中精确标注的难度。然而，目前的方法通常会产生低分辨率的预测，因此很难保留对象的细粒度细节。为了解决这个问题，我们建议使用引导残差细化（GRR）重用低级特征，如图1底部所示。具体地说，丰富的低级特征通过引导剩余连接逐渐重新引入预测流。因此，可以细化粗略的特征图，并恢复低级别的细节以进行全分辨率预测。所使用的引导剩余块（GRB）如图4（b）所示，其可表示为：
在这里插入图片描述
其中 $X$ 是输入语义上下文特征， $G$ 是来自较浅层的引导特征。 $\oplus$ 表示按元素求和， $h$ 表示剩余块中的标准非线性变换。 $X_{rf}$ 是经过改进的特征图。 $R e L u （ \cdot ）$ 和 $t a n h （ \cdot ）$ 分别是校正的线性单位和双曲正切激活。为了恢复浅层的细节，我们首先集成了输入特征和引导（等式3），然后我们引入了一个与BRB的辅助连接[16]。更具体地说，我们使用双曲正切激活来放大集成特征（ $\hat{X}_G$ ），如图4（b）和eq4-6. 通过引导细化策略融合低级特征是非常有益的。 $X$ 和 $G$ 的特征映射在不同的层次上代表不同的语义。因此，由于固有的语义差异，直接堆叠所有这些特征[14,28,3]可能不是一种有效的策略。在该方法中，当采用剩余迭代策略时，语义间隙的影响得到了缓解[7]。另一方面，特征放大连接增强了低层细节和梯度传播的效果，这有助于有效地进行端到端训练。此外，还存在用于细节增强的有效细化策略[25,22,38]。然而，它们与我们的非常不同。首先，考虑到3D数据特性，我们的策略侧重于放大低级功能，例如高计算和内存需求。相比之下，以前的方法引入了复杂的细化模块，这些模块对于三维数据几乎不可执行。此外，我们只选择特定的浅层进行细化，如图1底部所示。其他方法包括所有不可避免地包含边界噪声的分层[25,22]。为了建立我们的模型，在预测部分精心嵌入了几个GRB模块，这可以极大地防止拟合残差的积累。因此，建议的CCPNet有效地以从粗到细的标记方式进行全分辨率预测。
在这里插入图片描述

Loss

the voxel-wise softmax loss function
在这里插入图片描述

Experiment

在这里插入图片描述

锅巴不写代码

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[CCPNet]Cascaded Context Pyramid for Full-Resolution 3D Semantic Scene Completion

[CCPNet]Cascaded Context Pyramid for Full-Resolution 3D Semantic Scene Completion摘要Cascaded Context Pyramid Network3D Dilated Convolution Encoder输入张量生成。Encoder Structure.Cascaded Context PyramidArchitecture Details.Guided Residual RefinementLossExperiment
复制链接

扫一扫