翻译：PlaneRCNN: 3D Plane Detection and Reconstruction from a Single Image

黑匣子-白

已于 2022-03-08 20:02:00 修改

阅读量3.8k

点赞数

文章标签： 3d 计算机视觉深度学习

于 2022-03-08 15:40:39 首次发布

本文链接：https://blog.csdn.net/weixin_44417398/article/details/123354666

版权

图1。本文提出了一种深度神经网络结构PlaneRCNN，该结构检测平面区域，并从单个RGB图像重建分段平面深度图。从左到右，输入图像、分割的平面区域、估计的深度图和重建的平面。

摘要

本文提出了一种深度神经网络结构——PlaneR CNN，它可以从单个RGB图像中检测和重建分段平面曲面。PlaneRCNN采用掩模R-CNN的一种变体来检测带有平面参数和分割掩模的平面。然后，PlaneRCNN使用一种新的丢失方法联合细化所有分割遮罩，从而在训练期间增强与附近视图的一致性。本文还提出了一个新的基准，该基准在地面真相中具有更细粒度的平面分割，其中PlaneRCNN优于现有的最先进方法，在平面检测、分割和重建度量方面具有显著的优势。CNN PlaneR向强大的平面提取迈出了重要一步，这将对机器人技术、增强现实和虚拟现实等广泛应用产生直接影响。有关代码和数据，请访问https://research.nvidia.com/publication/2019-06PlaneRCNN。

1.简介

3D场景中的平面区域在各种3D感知任务中提供了重要的几何线索，如场景解译[42]、场景重建[3]和机器人导航[18,56]。因此，分段平面场景重建一直是计算机视觉研究的热点∗作者在英伟达时对这项工作做出了贡献。
例如，多年来，从一幅图像中恢复平面结构[16]，从点云中进行体积分段平面重建[3]，从多幅图像中进行曼哈顿深度图重建[11]。
一项困难但基本的任务是从单个RGB图像推断分段平面结构，这面临两个关键挑战。首先，从单个图像重建三维平面是一个不适定问题，需要丰富的场景先验知识。第二，人造环境中大量存在的平面结构通常缺乏纹理，需要全局图像理解，而不是局部纹理分析。最近，PlaneNet[27]和PlaneRecover[49]通过引入卷积神经网络（CNN）并将问题描述为平面分割任务，取得了突破。虽然产生了有希望的结果，但它们有三个主要局限性：1）缺少小表面；2）先验地要求单个图像中的最大平面数；3）跨领域的泛化能力差（例如，针对室内图像进行培训，并在室外进行测试）。
本文提出了一种新的深层神经结构PlaneRCNN，它解决了这些问题，并从单个RGB图像更有效地推断出分段平面结构（图1）。PlaneRCNN由三部分组成。
第一个组成部分是一个基于R-CNN的平面探测网络[14]。除了每个平面区域的实例遮罩外，我们还估计平面法线和每像素深度值。利用已知的摄像机内部特性，我们可以从检测到的平面区域中进一步重建三维平面。这种检测框架更加灵活，可以处理图像中任意数量的平面区域。
据我们所知，本文首次将目标识别中常见的检测网络引入深度图重建任务。第二个部分是分割细化网络，它联合优化提取的分割遮罩，以更连贯地解释整个场景。细化网络的设计是通过一个简单而有效的神经模块来处理任意数量的区域。第三个组件是翘曲损失模块，它通过端到端的训练增强重建与另一个观察同一场景的视图的一致性，并提高检测网络中的平面参数和深度映射精度。
本文还为分段平面深度图重建任务提供了一个新的基准。我们从ScanNet[6]收集了10万张图像，并利用相关的3D扫描生成了相应的地面真相。
新基准平均每幅图像提供14.7个平面实例，而现有基准中每幅图像大约提供6个实例[27]。
性能通过平面检测、分割和重建指标进行评估，其中PlaneR-CNN的性能优于当前最先进的技术，具有显著的优势。特别是，PlaneRCNN能够检测小平面，并能很好地推广到新的场景类型。
本文的贡献有两个方面：技术贡献：本文提出了一种新的neural体系结构PlaneRCNN，其中1）检测网络提取任意数量的平面区域；2）再细化网络共同改进了所有分割模板；3）翘曲损失通过端到端训练提高了平面参数和深度映射精度。
系统贡献：本文为分段平面深度图重建任务提供了一个新的基准点，其注释比以前精细得多，其中PlaneRCNN对当前最先进的技术做出了重大改进。

2.相关的工作

与3D平面检测和重建，大多数传统方法[10,12,37,38,52]需要多个视图或深度信息作为输入。他们通过将平面拟合到3D点来生成平面建议，然后通过全局推理将建议分配给每个像素。邓等人[7]提出了一种基于学习的方法来恢复平面区域，同时仍然需要深度信息作为输入。
最近，PlaneNet[27]重新研究了基于单个室内RGB图像的端到端学习框架的分段平面深度图重建问题。PlaneRe[49]后来提出了一种户外场景的无监督学习方法。PlaneNet和PlaneRecover都将该任务描述为具有固定数量平面区域（即PlaneNet中的10个区域和PlaneRecover中的5个区域）的像素级分割问题，这严重限制了它们对不同场景类型的重建和泛化能力的表现力。我们利用一个检测网络来解决这些边缘问题，该网络通常用于目标识别。
基于检测的框架已成功应用于许多物体的3D理解任务，例如，以边界框[5,9,32]、线框[22,47,57]或基于模板的形状组合[2,21,31,48]的形式预测物体形状。然而，这些方法中使用的粗糙表示缺乏准确建模复杂且杂乱的室内场景的能力。
除了检测之外，对segmentation掩模的联合细化也是许多需要精确平面参数或边界的应用的关键。在最近的语义切分技术中，完全连接的条件random字段（CRF）被证明对切分边界的定位是有效的[4,20]。CRFasRNN[55]进一步使端到端培训变得与众不同。CRF只利用低级信息，全局环境通过RNN[1,23,36]、更一般的图形模型[30,24]或新的神经架构设计符号[53,54,51]进一步利用。这些分割细化技术不支持实例识别，仅在每个像素处推断一个语义标签，无法区分属于同一语义类别的多个实例。
基于实例的联合细分细化带来了更多挑战。传统方法[39、40、41、43、50]将场景建模为图形，并使用图形模型推断技术来联合优化所有实例遮罩。由于采用了一系列的启发式方法，这些方法往往不可靠。
为此，我们将提出一个分段细化网络，该网络在检测网络的基础上联合优化任意数量的分段掩码。

3. 方法

PlaneRCNN 由三个主要部分组成（见图 2）：平面检测网络、分割细化网络和翘曲损失模块。基于 Mask R-CNN [14]，平面提议网络（第 3.1 节）检测给定单个 RGB 图像的平面区域，并预测 3D 平面参数以及每个平面区域的分割掩码。细化网络（第 3.2 节）采用所有检测到的平面区域并联合优化它们的掩码。翘曲损失模块（第 3.3 节）强制重建平面与观察同一场景的另一个视图保持一致，以进一步提高训练期间平面参数和深度图的准确性。

图 2. 我们的框架由三个构建块组成：1）基于 Mask R-CNN [14] 的平面检测网络，2）联合优化提取的分割掩码的分割细化网络，以及 3）强制执行训练期间重建与附近视图的一致性。

3.1 平面检测网络掩码

R-CNN 最初是为语义分割而设计的，其中图像包含不同类别的实例（例如，人、汽车、火车、自行车等）。我们的问题只有两个类别“平面”或“非平面”，在几何意义上定义。尽管如此，Mask R-CNN 在我们的实验中检测平面的效果出奇的好。它还使我们能够处理任意数量的平面，其中现有方法需要先验图像中的最大平面数（即，PlaneNet [27] 为 10，PlaneRecover [49] 为 5）。
我们将每个平面区域视为一个对象实例，并让 Mask R-CNN 检测这些实例并估计它们的分割掩码。剩下的任务是推断 3D 平面参数，它由法线和偏移信息 d 组成（见图 3）。虽然 CNN 在深度图 [28] 和表面法线 [45] 估计方面取得了成功，但平面偏移的直接回归结果证明是一个挑战（即使使用 CoordConv [29]）。我们不是直接回归，而是通过三个步骤来解决它：(1) 预测每个平面实例的法线，(2) 估计整个图像的深度图，以及 (3) 使用简单的代数公式 (Eq. 1) 来计算平面偏移（端到端训练可区分）。我们现在解释我们如何修改 Mask-RCNN 来执行这三个步骤。
平面法线估计：在 ROI 池化后直接附加一个参数回归模块会产生合理的结果，但我们借用 2D 锚框的想法进行边界框回归 [14] 以进一步提高准确

最低0.47元/天解锁文章