翻译:PlaneRCNN: 3D Plane Detection and Reconstruction from a Single Image

 图1。本文提出了一种深度神经网络结构PlaneRCNN,该结构检测平面区域,并从单个RGB图像重建分段平面深度图。从左到右,输入图像、分割的平面区域、估计的深度图和重建的平面。

摘要

本文提出了一种深度神经网络结构——PlaneR CNN,它可以从单个RGB图像中检测和重建分段平面曲面。PlaneRCNN采用掩模R-CNN的一种变体来检测带有平面参数和分割掩模的平面。然后,PlaneRCNN使用一种新的丢失方法联合细化所有分割遮罩,从而在训练期间增强与附近视图的一致性。本文还提出了一个新的基准,该基准在地面真相中具有更细粒度的平面分割,其中PlaneRCNN优于现有的最先进方法,在平面检测、分割和重建度量方面具有显著的优势。CNN PlaneR向强大的平面提取迈出了重要一步,这将对机器人技术、增强现实和虚拟现实等广泛应用产生直接影响。有关代码和数据,请访问https://research.nvidia.com/publication/2019-06PlaneRCNN。

1.简介

    3D场景中的平面区域在各种3D感知任务中提供了重要的几何线索,如场景解译[42]、场景重建[3]和机器人导航[18,56]。因此,分段平面场景重建一直是计算机视觉研究的热点∗作者在英伟达时对这项工作做出了贡献。
    例如,多年来,从一幅图像中恢复平面结构[16],从点云中进行体积分段平面重建[3],从多幅图像中进行曼哈顿深度图重建[11]。
    一项困难但基本的任务是从单个RGB图像推断分段平面结构,这面临两个关键挑战。首先,从单个图像重建三维平面是一个不适定问题,需要丰富的场景先验知识。第二,人造环境中大量存在的平面结构通常缺乏纹理,需要全局图像理解,而不是局部纹理分析。最近,PlaneNet[27]和PlaneRecover[49]通过引入卷积神经网络(CNN)并将问题描述为平面分割任务,取得了突破。虽然产生了有希望的结果,但它们有三个主要局限性:1)缺少小表面;2) 先验地要求单个图像中的最大平面数;3)跨领域的泛化能力差(例如,针对室内图像进行培训,并在室外进行测试)。
    本文提出了一种新的深层神经结构PlaneRCNN,它解决了这些问题,并从单个RGB图像更有效地推断出分段平面结构(图1)。PlaneRCNN由三部分组成。
    第一个组成部分是一个基于R-CNN的平面探测网络[14]。除了每个平面区域的实例遮罩外,我们还估计平面法线和每像素深度值。利用已知的摄像机内部特性,我们可以从检测到的平面区域中进一步重建三维平面。这种检测框架更加灵活,可以处理图像中任意数量的平面区域。
    据我们所知,本文首次将目标识别中常见的检测网络引入深度图重建任务。第二个部分是分割细化网络,它联合优化提取的分割遮罩,以更连贯地解释整个场景。细化网络的设计是通过一个简单而有效的神经模块来处理任意数量的区域。第三个组件是翘曲损失模块,它通过端到端的训练增强重建与另一个观察同一场景的视图的一致性,并提高检测网络中的平面参数和深度映射精度。
    本文还为分段平面深度图重建任务提供了一个新的基准。我们从ScanNet[6]收集了10万张图像,并利用相关的3D扫描生成了相应的地面真相。
    新基准平均每幅图像提供14.7个平面实例,而现有基准中每幅图像大约提供6个实例[27]。
性能通过平面检测、分割和重建指标进行评估,其中PlaneR-CNN的性能优于当前最先进的技术,具有显著的优势。特别是,PlaneRCNN能够检测小平面,并能很好地推广到新的场景类型。
本文的贡献有两个方面:技术贡献:本文提出了一种新的neural体系结构PlaneRCNN,其中1)检测网络提取任意数量的平面区域;2) 再细化网络共同改进了所有分割模板;3)翘曲损失通过端到端训练提高了平面参数和深度映射精度。
    系统贡献:本文为分段平面深度图重建任务提供了一个新的基准点,其注释比以前精细得多,其中PlaneRCNN对当前最先进的技术做出了重大改进。

2.相关的工作

    与3D平面检测和重建,大多数传统方法[10,12,37,38,52]需要多个视图或深度信息作为输入。他们通过将平面拟合到3D点来生成平面建议,然后通过全局推理将建议分配给每个像素。邓等人[7]提出了一种基于学习的方法来恢复平面区域,同时仍然需要深度信息作为输入。
    最近,PlaneNet[27]重新研究了基于单个室内RGB图像的端到端学习框架的分段平面深度图重建问题。PlaneRe[49]后来提出了一种户外场景的无监督学习方法。PlaneNet和PlaneRecover都将该任务描述为具有固定数量平面区域(即PlaneNet中的10个区域和PlaneRecover中的5个区域)的像素级分割问题,这严重限制了它们对不同场景类型的重建和泛化能力的表现力。我们利用一个检测网络来解决这些边缘问题,该网络通常用于目标识别。
    基于检测的框架已成功应用于许多物体的3D理解任务,例如,以边界框[5,9,32]、线框[22,47,57]或基于模板的形状组合[2,21,31,48]的形式预测物体形状。然而,这些方法中使用的粗糙表示缺乏准确建模复杂且杂乱的室内场景的能力。
    除了检测之外,对segmentation掩模的联合细化也是许多需要精确平面参数或边界的应用的关键。在最近的语义切分技术中,完全连接的条件random字段(CRF)被证明对切分边界的定位是有效的[4,20]。CRFasRNN[55]进一步使端到端培训变得与众不同。CRF只利用低级信息,全局环境通过RNN[1,23,36]、更一般的图形模型[30,24]或新的神经架构设计符号[53,54,51]进一步利用。这些分割细化技术不支持实例识别,仅在每个像素处推断一个语义标签,无法区分属于同一语义类别的多个实例。
     基于实例的联合细分细化带来了更多挑战。传统方法[39、40、41、43、50]将场景建模为图形,并使用图形模型推断技术来联合优化所有实例遮罩。由于采用了一系列的启发式方法,这些方法往往不可靠。
    为此,我们将提出一个分段细化网络,该网络在检测网络的基础上联合优化任意数量的分段掩码。

3. 方法

    PlaneRCNN 由三个主要部分组成(见图 2):平面检测网络、分割细化网络和翘曲损失模块。 基于 Mask R-CNN [14],平面提议网络(第 3.1 节)检测给定单个 RGB 图像的平面区域,并预测 3D 平面参数以及每个平面区域的分割掩码。 细化网络(第 3.2 节)采用所有检测到的平面区域并联合优化它们的掩码。 翘曲损失模块(第 3.3 节)强制重建平面与观察同一场景的另一个视图保持一致,以进一步提高训练期间平面参数和深度图的准确性。

 图 2. 我们的框架由三个构建块组成:1)基于 Mask R-CNN [14] 的平面检测网络,2)联合优化提取的分割掩码的分割细化网络,以及 3)强制执行 训练期间重建与附近视图的一致性。

3.1   平面检测网络掩码

    R-CNN 最初是为语义分割而设计的,其中图像包含不同类别的实例(例如,人、汽车、火车、自行车等)。 我们的问题只有两个类别“平面”或“非平面”,在几何意义上定义。 尽管如此,Mask R-CNN 在我们的实验中检测平面的效果出奇的好。 它还使我们能够处理任意数量的平面,其中现有方法需要先验图像中的最大平面数(即,PlaneNet [27] 为 10,PlaneRecover [49] 为 5)。
   我们将每个平面区域视为一个对象实例,并让 Mask R-CNN 检测这些实例并估计它们的分割掩码。 剩下的任务是推断 3D 平面参数,它由法线和偏移信息 d 组成(见图 3)。 虽然 CNN 在深度图 [28] 和表面法线 [45] 估计方面取得了成功,但平面偏移的直接回归结果证明是一个挑战(即使使用 CoordConv [29])。 我们不是直接回归,而是通过三个步骤来解决它:(1) 预测每个平面实例的法线,(2) 估计整个图像的深度图,以及 (3) 使用简单的代数公式 (Eq. 1) 来计算 平面偏移(端到端训练可区分)。 我们现在解释我们如何修改 Mask-RCNN 来执行这三个步骤。
平面法线估计:在 ROI 池化后直接附加一个参数回归模块会产生合理的结果,但我们借用 2D 锚框的想法进行边界框回归 [14] 以进一步提高准确性。 更准确地说,我们考虑锚法线并通过以下方式估计局部相机坐标系中的平面法线:1)选择锚法线,2)回归残差 3D 向量,以及 3)将总和归一化为单位长度向量。
    锚法线是通过在 10,000 个随机采样的训练图像中的平面法线上运行 K-means 聚类算法来定义的。 我们使用 k = 7 并且聚类中心成为锚法线,在我们的实验中,它们是朝上、朝下和水平向量大致分开 45°(见图 3)。

图 3. 平面上的 3D 点 x 遵循等式 nx = d。 我们通过首先选择 7 个锚法线中的一个然后回归残差 3D 向量来估计平面法线 n。 锚法线是通过在真实平面法线向量上运行 K-means 聚类算法来定义的。 

    我们将原始 Mask R-CNN 中的对象类别预测替换为锚点 ID 预测,并附加一个单独的全连接层来回归每个锚点法线的 3D 残差向量(即 21 = 3 × 7 输出 值)。 为了对每个真实平面法线生成监督,我们找到最近的锚法线并计算残差向量。 我们将交叉熵损失用于锚法线选择,将平滑 L1 损失用于残差向量回归,如 Mask R-CNN 的边界框回归。
深度图估计:虽然每个区域的局部图像分析足以进行表面法线预测,但全局图像分析对于深度图推断至关重要。 我们在 Mask R-CNN 中的特征金字塔网络 (FPN) [25] 之后添加了一个解码器,以估计具有相同分辨率的整个图像的深度图 D。 解码器网络的详细信息可以在补充文档中找到。
平面偏移估计:给定平面法线 n,可以直接估计平面偏移 d:

    其中K是3×3相机内在矩阵,xi是齐次表示中的第i个像素坐标,zi是其预测的深度值,mi是指示变量,如果像素属于平面,则为1。 求和是图像中所有像素的总和。 请注意,我们在平面偏移参数上没有损失,这对结果没有影响。 但是,平面偏移会影响下面的翘曲损失模块。

3.2. 分割细化网络

    平面检测网络独立预测分割掩码。 分割细化网络联合优化所有掩码,其中主要挑战在于检测到的平面数量不同。 一种解决方案是假设图像中的最大平面数,连接所有掩码,并在缺失的条目中填充零。 但是,这不适用于大量平面,并且容易丢失小平面。
   相反,我们通过结合 U-Net [33] 和非本地模块 [46] 的思想,提出了一个简单而有效的模块 Con vAccu。  ConvAccu 使用卷积层处理整个图像窗口中表示的每个平面分割掩码。 然后,我们计算并连接同一层所有其他平面的平均特征量,然后再传递到下一层(见图 2)。 顾名思义,ConvAccu 结合了卷积层和累积方案,类似于非局部模块,可以有效地聚合来自所有掩码的信息。
   细化的平面掩码在最后连接起来,并与具有交叉熵损失的目标掩码进行比较。每个目标掩码都是通过找到与预测掩码重叠最大的地面实况掩码生成的。 如果重叠小于预测掩码的一半,则目标掩码设置为空。 请注意,除了平面掩码之外,细化网络还获取原始图像、所有其他平面掩码的并集、从平面检测结果导出的深度图、逐像素深度图和特定平面的 3D 坐标图 (即,表示使用平面方程计算的相应 3D 坐标的三通道图像)作为输入。 我们参考补充文档来了解所有网络参数的规范。

3.3. 翘曲损失模块

    翘曲损失模块在训练期间强制重建的 3D 平面与附近视图的一致性。 具体来说,我们的训练样本来自 ScanNet [6] 中的 RGB-D 视频,附近的视图被定义为距离当前 20 帧的前一帧。 该模块首先通过 1) 从现有平面区域的平面方程计算深度值和 2) 使用在平面检测网络内部为剩余像素预测的像素级深度值来构建当前视图的深度图 Dc。
 然后将重建的深度 Dc 从当前视图扭曲到附近视图 Dw,然后将其与附近视图 D^n 的地面真实深度图进行比较。
   为了计算 Dw,我们将附近视图中的每个像素扭曲到当前视图,给定相机内在函数 K、旋转 R、平移 t 和附近视图 D^n 的地面实况深度图, 

    其中 (u n, vn) 是附近视图中的像素, (u w, vw) 是当前视图中的扭曲像素。  warp 函数的详细信息可以在补充文档中找到(u w, vw) 然后用于通过双线性插值从 Dc 中检索深度值,并根据检索到的深度值未投影到 3D 空间。 未投影的 3D 点被转换回附近的视图,其深度与像素 (un, vn) 处的 Dw 一致。 最终的翘曲损失定义为,

    投影、非投影和坐标系变换都是简单的代数运算,可以传递梯度进行训练。 请注意,翘曲损失模块和附近视图仅在训练期间使用以提高几何重建精度,并且系统在测试时运行在单个图像上。

4. 基准构建

   按照 PlaneNet [27] 中描述的步骤,我们从 ScanNet [6] 中的 RGB-D 视频构建一个新的基准。
   我们添加了以下三个修改来恢复更细粒度的平面区域,平均每张图像产生 14.7 个平面实例,这是每张图像包含 6.0 个平面实例的 PlaneNet 数据集的两倍多。
   • 首先,我们通过将平面区域阈值从图像大小的 1% 降低到 0.16%(即 500 像素)来保留更多小的平面区域,并且在总数大于 10 时不丢弃小平面。
   • 其次,PlaneNet 将共面平面合并为一个区域,因为它们共享相同的平面标签。 来自不同对象的两个共面平面的合并会导致语义丢失。 我们跳过合并过程并将所有内容保留在姿态分割掩码中。
   • 第三,ScanNet 中的相机位姿质量在面对 3D 跟踪失败时会降低,这会导致图像和投影的真实平面之间的不对齐。 由于我们使用相机姿势和对齐的 3D 模型来生成真实平面,我们通过真实 3D 平面与传感器的原始深度图之间的差异来检测此类故障。 更准确地说,如果平面区域的平均深度差异大于 0.1m,我们不使用图像。 这个简单的策略删除了大约 10% 的图像。

 图 4. 相对于基线的平面精度。  PlaneRCNN 执行所有竞争方法,除非深度阈值非常小,MWS-G 可以通过利用地面真实深度值非常准确地拟合 3D 平面。

5. 实验结果

     我们已经在 PyTorch 中实现了我们的网络。 我们使用预训练的 Mask R-CNN [14] 并使用现有模型 [15] 初始化分割细化网络。 我们在 NVIDIA V100 GPU 上对网络进行了 10 个 epoch 的端到端训练,其中包含来自 ScanNet 训练场景的 100,000 张随机采样图像。 我们对所有损失使用相同的比例因子。 对于检测网络,我们将图像缩放到 640 × 480 并填充零值以获得 640 × 640 的输入图像。 对于细化网络,我们将图像缩放到 256 × 192,并根据预测的边界框将检测到的实例掩码与图像对齐。

5.1。 定性评估

    图 6 展示了我们对 Scan Net 测试场景的重建结果。  PlaneRCNN 甚至能够恢复小物体的平面。 我们在补充文件中包含更多示例。
   图 7 比较了 PlaneRCNN 与两种竞争方法,PlaneNet [27] 和 PlaneRecover [49],在来自看不见的数据集的各种场景类型上(除了 SYNTHIA 数据集用于 PlaneRecover 的训练)。 请注意,PlaneRCNN 和 PlaneNet 是在包含室内场景的 ScanNet 上训练的,而 PlaneRecover 是在由合成室外场景组成的 SYNTHIA 数据集(即图中的第 7 行和第 8 行)上训练的。 该图显示,PlaneRCNN 能够从看不见的数据集中重建不同场景类型的大多数平面,而不管它们的大小、形状和纹理如何。 特别是,对于靠近相机的平面,我们在 KITTI 数据集上的结果出人意料地好于 PlaneRecover。 在室内场景中,我们的结果始终优于 PlaneNet 和 PlaneRecover。
   虽然检测网络能够从看不见的数据集中稳健地提取图像的平面区域,3D 几何的泛化比区域掩码的泛化更难。 在图 5 中,我们展示了来自未见过数据集的四个示例的深度可视化。

图 5. 我们在未进行微调的情况下在未见过的数据集上显示输入图像和深度重建结果。 从左到右:我们按照 KITTI [13]、SYNTHIA [34]、Tank and Temple [19] 和 PhotoPopup [17] 的顺序展示每个数据集中的一个示例。

5.2. 平面重建精度

    继PlaneNet [27]之后,我们通过测量平面召回来评估平面检测精度,其中固定的交并联(IOU)阈值0.5和变化的深度误差阈值(从0到1m,增量为0.05m)  . 精度是在真实平面和推断平面之间的重叠区域内测量的。
    除了PlaneNet,我们还与Manhattan World Stereo (MWS) [10] 进行比较,这是最具竞争力的传统基于MRF 的方法,如先前的评估[27] 所示。  MWS 需要 3D 点云作为输入,我们要么使用来自地面实况 3D 平面 (MWS-G) 的点云,要么使用平面检测网络 (MWS) 中的深度图估计模块推断出的点云。  PlaneRecover [49] 最初是在假设图像中最多有 5 个平面的情况下进行训练的。 我们发现通过简单地增加阈值很难成功地训练 PlaneRecover 来处理杂乱的室内场景。 我们认为,在 ScanNet 上明确训练的 PlaneNet 可以作为评估的更强大竞争对手。
    我们从 ScanNet 测试场景中随机抽取 100 张图像进行评估。 如图 4 所示,Plan eRCNN 显着优于所有其他方法,除非深度阈值很小并且 MWS-G 可以非常准确地与地面真实深度值拟合平面。 尽管如此,即使有真实的深度信息,MWS-G 也无法稳健地提取平面区域,导致总体召回率较低。 我们的结果在质量上也很出色,如图 8 所示。 

        

 图 6. PlaneRCNN 的分段平面重建结果。从左到右:输入图像、平面分割、深度图重建和深度图的 3D 渲染(从新视图渲染,分别沿 x 轴和 z 轴平移 -0.4m 和 0.3m,沿 10° 旋转 x 轴和 z 轴)。

图 7. 未经微调的未见数据集的平面分割结果。 从左到右:输入图像、PlaneNet [27] 结果、PlaneRecover [49] 结果和我们的结果。 从上到下,我们按照 NYUv2 [37]、7-scenes [35]、KITTI [13]、SYNTHIA [34]、Tank and Temple [19] 和 PhotoPopup [17] 的顺序展示了每个数据集中的两个示例 ]。

图 8. 平面分割比较。 从左到右:1) 输入图像,2) 具有推断深度的 MWS,3) 具有地面实况深度的 MWS,4) PlaneNet,5) 我们的,6) 地面实况 

5.3. 几何精度

    我们提出了一种新的度量标准,通过混合推断的深度图和地面实况平面分割来评估分段平面表面重建的质量。 更准确地说,我们首先通过遵循翘曲损失评估(第 3.3 节)中的过程从重建中生成深度图。 接下来,对于每个ground-truth平面片段,我们将重建深度图中的深度值转换为3D点,通过SVD拟合3D平面,并对平面系数进行归一化,使法线分量成为单位向量。 最后,我们计算参数差异的平均值和面积加权平均值作为平面评估指标。 除了平面参数指标,我们还考虑了文献[8]中常用的深度图指标。 我们评估了 NYU 数据集 [37] 以进行公平比较。 表 1 显示,使用更灵活的检测网络,PlaneRCNN 无需微调即可更好地泛化。 在使用纽约大学数据集的真实深度进行微调后,PlaneRCNN 在每个指标上的表现也优于 PlaneNet [27]。

5.4. 消融研究

    PlaneRCNN 在 Mask R-CNN [14] 主干中添加了以下组件:1)逐像素深度估计网络;  2)基于anchor的平面正态回归;  3)warping loss模块;  4)分割细化网络。 为了评估每个组件的贡献,我们在逐个添加组件的同时测量性能变化。 在[49]之后,我们通过三个聚类指标评估平面分割质量:信息变化(VOI)、兰德指数(RI)和分割覆盖(SC)。 为了进一步评估几何精度,我们计算了 IOU 阈值为 0.5 和三个不同深度误差阈值的平均精度 (AP) 表 2 显示所有组件对最终性能都有积极贡献。 图 9 进一步定性地突出了翘曲损失模块和分段细化网络的贡献。 第一个例子表明分割细化网络填补了相邻平面区域之间的间隙,而第二个例子表明,翘曲损失模块在第二个视图的帮助下提高了重建精度。

表 1. NYUv2 数据集的几何精度比较。

 

 表 2. PlaneRCNN 中四个组件贡献的消融研究。 平面分割和检测指标是在 ScanNet 数据集上计算的。  PlaneNet 代表了竞争的最先进技术

  

图 9. 表面细化网络和翘曲损失模块的效果。 顶部:分割细化​​网络缩小了相邻平面之间的间隙。 底部:翘曲损失有助于从第二个视图纠正错误的平面几何形状。

图 10. 分层深度图模型的新视图合成结果。 一个简单的修改允许 PlaneRCNN 也可以推断被遮挡的表面并重建分层的深度图模型。

5.5. 遮挡推理

     一个简单的修改允许 PlaneRCNN 推断被遮挡/不可见的表面并重建分层深度图模型。 首先,地面实况分层深度图的构造如下。 在我们的原始过程中,我们将平面拟合到对齐的 3D 扫描以获得真实的 3D 平面表面,然后将平面光栅化为具有深度测试的图像。 我们只需删除深度测试并为每个平面生成一个“完整掩码”。 其次,我们向 PlaneRCNN 添加了一个掩码预测模块,以推断每个平面实例的完整掩码。 有关此实验的详细信息,请参阅补充文件。
    图 10 显示了新的视图合成示例,其中修改后的 PlaneRCNN 成功地推断出被遮挡的表面,例如桌椅后面的地板表面。
    请注意,深度图在图中呈现为深度网格模型(即小三角形的集合)。 分层深度图表示支持新的应用,例如无伪影视图合成、更好的场景完成和对象移除 [26, 44]。 该实验展示了所提出的 PlaneRCNN 架构的另一种灵活性和潜力。

6. 结论和未来工作

    本文提出了 PlaneRCNN,这是第一个基于检测的神经网络,用于从单个 RGB 图像进行分段平面重建。  PlaneRCNN 学习检测平面区域,回归平面参数和实例掩码,全局细化分割掩码,并在训练期间利用相邻视图来提高性能。 基于我们的新基准,PlaneR CNN 的性能大大优于其他竞争方法,该基准具有细粒度的平面符号。
   一个有趣的未来方向是在推理过程中处理图像序列,这需要学习平面检测之间的对应关系。 另一个值得探索的设计选择是在同一模块内估计像素级法线和深度以共享特征。

7. 致谢

    本研究得到美国国家科学基金会 IIS 1618685、NSERC Discovery Grants 和 DND/NSERC Discovery Grant Supplement 的部分支持。

参考文献

[1] W. Byeon、T. M. Breuel、F. Raue 和 M. Liwicki。 使用 lstm 循环神经网络进行场景标记。 在 IEEE 计算机视觉和模式识别会议论文集上,第 3547–3555 页,2015 年。2
[2] F. Chabot、M. Chaouch、J. Rabarisoa、C. Teuliere 和 `T. Chateau。  Deep manta:一种从粗到细的多任务网络,用于从单目图像进行 2d 和 3d 车辆联合分析。 在过程中。  IEEE 会议。 计算。 可见。  Pattern Recog nit.(CVPR),第 2040-2049 页,2017 年。2
[3] A. Chauve、P. Labatut 和 J. Pons。 从大规模非结构化点数据中进行稳健的分段平面 3d 重建和完成。 在 2010 年 IEEE 计算机学会计算机视觉和模式识别会议上,第 1261-1268 页,2010. 1
[4] L.-C.  Chen、G. Papandreou、I. Kokkinos、K. Murphy 和 A. L. Yuille。 具有深度卷积网络和完全连接的 crfs 的语义图像分割。  arXiv 预印本 arXiv:1412.7062, 2014. 2
[5] X. Chen, K. Kundu, Z. Zhang, H. Ma, S. Fidler, and R. Urta sun。 用于自动驾驶的单目 3D 物体检测。在 IEEE 计算机视觉和模式识别会议论文集中,第 2147-2156 页,2016 年。2
[6] A. Dai、A. X. Chang、M. Savva、M. Halber、T. Funkhouser 和 M. Nießner。  ScanNet:对室内场景进行丰富注释的 3D 重建。 在 IEEE 会议中。 关于计算机视觉和模式识别 (CVPR),2017 年。2、4
[7] Z. Deng、S. Todorovic 和 L. J. Latecki。  rgb-d 室内场景的无监督对象区域建议。 计算机视觉和图像理解,154:127–136,2017。2
[8] D. Eigen 和 R. Fergus。 使用常见的多尺度卷积架构预测深度、表面法线和语义标签。 在 IEEE 计算机视觉国际会议论文集上,第 2650-2658 页,2015 年。7
[9] S. Fidler、S. Dickinson 和 R. Urtasun。 使用可变形 3d 长方体模型进行 3d 对象检测和视点估计。 在神经信息处理系统的进展中,第 611-619 页,2012 年。2
[10] Y. Furukawa、B. Curless、S. M. Seitz 和 R. Szeliski。 曼哈顿世界立体声。 在 Computer V@inproceedingsfidler20123d 中,title=3d 对象检测和使用可变形 3d 长方体模型进行视点估计,作者=Fidler、Sanja 和 Dickinson、Sven 和 Urtasun、Raquel,书名=神经信息处理系统的进步,页数=611–619,  year=2012 ision and Pattern Recognition, 2009. CVPR 2009. IEEE Con​​ference on,第 1422-1429 页。  IEEE, 2009. 2, 5
[11] Y. Furukawa、B. Curless、S. M. Seitz 和 R. Szeliski。曼哈顿世界立体声。  2009 年 IEEE 计算机视觉和模式识别 (CVPR) 会议,第 00 卷,第 1422–1429 页,2018. 1
[12] D. Gallup, J.-M. 弗拉姆和 M. Pollefeys。 用于城市场景重建的分段平面和非平面立体。  2010 年。2
[13] A. Geiger、P. Lenz、C. Stiller 和 R. Urtasun。 视觉遇到机器人:kitti 数据集。 国际机器人研究杂志,32(11):1231–1237, 2013. 5, 6
[14] K. He、G. Gkioxari、P. Dollar 和 R. Girshick。 掩码 r-cnn。  ´ 计算机视觉 (ICCV),2017 年 IEEE 国际会议,第 2980-2988 页。  IEEE, 2017. 1, 2, 3, 5, 7
[15] K. He, X. Zhang, S. Ren, and J. Sun. 深入研究整流器:在 imagenet 分类上超越人类水平的表现。 在 IEEE 计算机视觉国际会议论文集上,第 1026-1034 页,2015 年。5
[16] D. Hoiem、A. A. Efros 和 M. Hebert。 自动弹出照片。  ACM 翻译。 图,24(3):577–584,2005 年 7 月。1
[17] D. Hoiem、A. A. Efros 和 M. Hebert。 自动弹出照片。 在 ACM 图形事务 (TOG) 中,第 24 卷,第 577-584 页。  ACM, 2005. 5, 6 [18] M. Kaess。 在有限平面内同时定位和映射。 在 2015 年 IEEE 机器人与自动化国际会议 (ICRA),第 4605-4611 页,2015 年。1
[19] A. Knapitsch,J. Park,Q.-Y。 周和 V. Koltun。 坦克和寺庙:基准大规模场景重建。  ACM 图形交易 (ToG),36(4):78,2017。5, 6
[20] P. Krahenb ¨ uhl 和 V. Koltun。 具有高斯边缘电位的全连接 crfs 中的有效推理。 在神经信息处理系统的进展中,第 109-117 页,2011 年。2
[21] A. Kundu、Y. Li 和 J. M. Rehg。  3d-rcnn:通过渲染和比较的实例级 3d 对象重建。 在 CVPR, 2018. 2
[22] C. Li, M. Z. Zia, Q.-H.  Tran、X. Yu、G. D. Hager 和 M. Chandraker。 具有形状概念的深度监督,用于遮挡感知的 3D 对象解析。  arXiv 预印本 arXiv:1612.02699, 2016. 2
[23] X. Liang, X. Shen, D. Xiang, J. Feng, L. Lin, and S. Yan.具有局部-全局长短期记忆的语义对象解析。 在 IEEE 计算机视觉和模式识别会议记录中,第 3185-3193 页,2016 年。2
[24] G. Lin、C. Shen、A. Van Den Hengel 和 I. Reid。 用于语义分割的深度结构化模型的高效分段训练。 在 IEEE 计算机视觉和模式识别会议论文集上,第 3194-3203 页,2016 年。2
[25] T.-Y。  Lin、P. Dollar、R. B. Girshick、K. He、B. Hariharan 和 S. J. Belongie。 用于对象检测的特征金字塔网络。 在 CVPR,第 1 卷,第 4 页,2017 年。3
[26] C. Liu、P. Kohli 和 Y. Furukawa。 通过occlusion-crf进行分层场景分解。 在 IEEE 计算机视觉和模式识别会议论文集上,第 165-173 页,2016 年。8
[27] C. Liu、J. Yang、D. Ceylan、E. Yumer 和 Y. Furukawa。Planetet:从单个 rgb 图像进行分段平面重建。 在 IEEE 计算机视觉和模式识别会议论文集上,第 2579-2588 页,2018 年。1、2、3、4、5、6、7
[28] F. Liu、C. Shen、G. Lin 和 ID 里德。 使用深度卷积神经域从单个单目图像中学习深度。  IEEE Trans。 模式肛门。 马赫 情报,38(10):2024–2039, 2016. 3
[29] R. Liu、J. Lehman、P. Molino、F. P. Such、E. Frank、A. Sergeev 和 J. Yosinski。 卷积神经网络和 coordconv 解决方案的一个有趣的失败。  arXiv 预印本 arXiv:1807.03247, 2018. 3
[30] Z. Liu, X. Li, P. Luo, C.-C.  Loy 和 X. Tang。 通过深度解析网络进行语义图像分割。 在 IEEE 计算机视觉国际会议论文集上,第 1377-1385 页,2015 年。2
[31] R. Mottaghi、Y. Xiang 和 S. Savarese。 用于 3d 姿态估计和子类别识别的粗到细模型。
   在 IEEE 计算机视觉和模式识别会议论文集上,第 418-426 页,2015 年。2
[32] A. Mousavian、D. Anguelov、J. Flynn 和 J. Koseck ˇ a. 使用深度学习和几何进行 3d ' 边界框估计。 在计算机视觉和模式识别 (CVPR),2017 年 IEEE 会议上,第 5632-5640 页。  IEEE,2017 年。2
[33] O. Ronneberger、P. Fischer 和 T. Brox。  U-net:用于生物医学图像分割的卷积网络。 在医学图像计算和计算机辅助干预国际会议上,第 234-241 页。  Springer, 2015. 4
[34] G. Ros、L. Sellart、J. Materzynska、D. Vazquez 和 A. M.洛佩兹。  synthia 数据集:用于城市场景语义分割的大量合成图像。 在 IEEE 计算机视觉和模式识别会议记录中,第 3234-3243 页,2016. 5, 6
[35] J. Shotton, B. Glocker, C. Zach, S. Izadi, A. Criminisi, 和 A. 菲茨吉本。 用于 RGB-d 图像中相机重定位的场景坐标回归森林。 在 IEEE 计算机视觉和模式识别会议论文集上,第 2930-2937 页,2013 年。6
[36] B.帅、Z. Zuo、B. Wang 和 G. Wang。 用于场景标记的 Dag 循环神经网络。 在 IEEE 计算机视觉和模式识别会议论文集中,第 3620-3629 页,2016 年。2
[37] N. Silberman、D. Hoiem、P. Kohli 和 R. Fergus。 室内分割和支持从 rgbd 图像推断。 在欧洲计算机视觉会议上,第 746-760 页。Springer, 2012. 2, 6, 7
[38] S. Sinha、D. Steedly 和 R. Szeliski。 用于基于图像的渲染的分段平面立体。 在 IEEE 国际计算机视觉会议论文集上,2009 年。2
[39] M. Sun,B.-s。  Kim、P. Kohli 和 S. Savarese。 通过 objectproperty 交互来关联事物和事物。  IEEE 模式分析和机器智能交易,36(7):1370–1383, 2014. 2
[40] J. Tighe 和 S. Lazebnik。 寻找东西:使用区域和每个样本检测器进行图像解析。 在 IEEE 计算机视觉和模式识别会议论文集中,第 3001-3008 页,2013 年。2
[41] J. Tighe、M. Niethammer 和 S. Lazebnik。 使用对象实例和遮挡排序进行场景解析。 在 IEEE 计算机视觉和模式识别会议记录中,第 3748-3755 页,2014 年。2
[42] G. Tsai、C. Xu、J. Liu 和 B. Kuipers。 使用带有运动线索的贝叶斯滤波的实时室内场景理解。 在 2011 年计算机视觉国际会议上,第 121-128 页,2011 年。1
[43] Z. Tu、X. Chen、A. L. Yuille 和 S.-C。 朱。 图像解析:统一分割、检测和识别。 国际计算机视觉杂志,63(2):113–140, 2005. 2 [44] S. Tulsiani、R. Tucker 和 N. Snavely。 通过视图合成进行层结构 3d 场景推断。  arXiv 预印本 arXiv:1807.10264, 2018. 8
[45] X. Wang、D. Fouhey 和 A. Gupta。 为表面法线估计设计深度网络。 在 IEEE 计算机视觉和模式识别会议论文集上,第 539-547 页,2015 年。3
[46] X. Wang、R. Girshick、A. Gupta 和 K. He。 非局部神经网络。 在 IEEE 计算机视觉和模式识别会议 (CVPR),2018 年。4
[47] J. Wu、T. Xue、J. J. Lim、Y. Tian、J. B. Tenenbaum、A. Tor ralba 和 W. T. Freeman。 单图像 3d 解释器网络。 在欧洲计算机视觉会议上,第 365-382 页。  Springer, 2016. 2
 [48] Y. Xiang, W. Choi, Y. Lin 和 S. Savarese。 用于对象类别识别的数据驱动的 3d 体素模式。 在 IEEE 计算机视觉和模式识别会议论文集上,第 1903-1911 页,2015 年。2
[49] F. Yang 和 Z. Zhou。 通过卷积神经网络从单个图像中恢复 3d 平面。 在欧洲计算机视觉会议 (ECCV) 会议记录中,第 85-100 页,2018 年。1、2、3、5、6、7
[50] J. Yao、S. Fidler 和 R. Urtasun。 将场景描述为一个整体:联合对象检测、场景分类和语义分割。 在计算机视觉和模式识别 (CVPR) 中,2012 年 IEEE 会议,第 702-709 页。IEEE,2012 年。2
[51] F. Yu 和 V. Koltun。 通过扩张卷积进行多尺度上下文聚合。  arXiv 预印本 arXiv:1511.07122, 2015。2
[52] L. Zebedin、J. Bauer、K. Karner 和 H. Bischof。 从航空影像中融合基于特征和区域的城市建筑物建模信息。 在欧洲计算机视觉会议上,第 873-886 页。  Springer, 2008. 2
[53] R. Zhang、S. Tang、M. Lin、J. Li 和 S. Yan。 用于纠正场景解析预测的全局残差和局部边界细化网络。 在第 26 届国际人工智能联合会议论文集上,第 3427-3433 页。  AAAI Press, 2017. 2
[54] H. Zhao, J. Shi, X. Qi, X. Wang, and J. Jia. 金字塔场景解析网络。 在 IEEE 会议中。 关于计算机视觉和模式识别 (CVPR),第 2881-2890 页,2017 年。2
[55] S. Zheng, S. Jayasumana, B. Romera-Paredes, V. Vineet, Z. Su, D. Du, C. Huang  , 和 PH 托尔。 条件随机场作为循环神经网络。 在 IEEE 计算机视觉国际会议论文集上,第 1529-1537 页,2015 年。2
[56] J. Zhou 和 B. Li。 使用单个相机的移动机器人平台的基于单应性的地面检测。 在 2006 年 IEEE 机器人与自动化国际会议论文集上,2006 年。ICRA 2006.,第 4100-4105 页,2006 年。1
[57] M. Z. Zia、M. Stark、B. Schiele 和 K. Schindler。 用于对象识别和建模的详细 3d 表示。  IEEE 模式分析和机器智能交易,35(11):2608–2623, 2013. 2

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值