monodepth2论文翻译

本文提出了一种改进的自监督单目深度估计方法,通过最小重投影损失、全分辨率多尺度采样和自动屏蔽损失来提高模型性能,显著提升了在KITTI数据集上的深度图质量。
摘要由CSDN通过智能技术生成

摘要

逐像素的地面实况深度数据在大规模获取时存在挑战。为了克服这一限制,自监督学习已成为在训练模型执行单目深度估计方面的一种有前景的替代方法。在本文中,我们提出了一系列改进,这些改进在定量和定性上都使深度图相对于竞争的自监督方法有了明显的提升。

对于自监督单目训练的研究通常探索越来越复杂的体系结构、损失函数和图像形成模型,这些方面最近有助于弥合与全监督方法之间的差距。我们表明,一个令人惊讶的简单模型和相关的设计选择可以导致更出色的预测。特别是,我们提出了以下内容:(i) 最小重投影损失,旨在稳健地处理遮挡,(ii) 全分辨率多尺度采样方法,减少视觉伪影,以及 (iii) 自动屏蔽损失,以忽略违反相机运动假设的训练像素。我们单独展示了每个组件的有效性,并在KITTI基准上展示了高质量的、领先的结果。

引言

我们致力于从单个彩色输入图像中自动推断出密集的深度图。在没有第二个输入图像进行三角测量的情况下,估计绝对或相对深度似乎是一个不适当的问题。然而,人类通过在现实世界中导航和互动学习,使我们能够为新颖的场景假设合理的深度估计[18]。

生成高质量的从彩色图生成深度信息具有吸引力,因为它可以以低成本作为激光雷达传感器在自动驾驶汽车中的补充,并且能够实现新的单张照片应用,如图像编辑和增强现实合成。解决深度问题还是一种强大的方法,可以使用大规模未标记的图像数据集对深度网络进行预训练,以供后续的判别任务[23]。然而,为监督学习收集具有准确地面真实深度的大规模和多样化的训练数据集本身就是一个艰巨的挑战[55, 9]。作为替代方案,最近有几种自监督方法表明,可以仅使用同步立体图对或单目视频[12, 15, 76]来训练单目深度估计模型。

在这两种自监督方法中,单目视频是替代基于立体视觉的监督的一种有吸引力的选择,但它引入了自己一套挑战。除了估计深度之外,模型还需要在训练期间估计两个时间点之间的相机自运动。这通常涉及训练一个姿态估计网络,该网络以有限帧序列作为输入,并输出相应的相机变换。相反,使用立体数据进行训练将相机姿态估计变成一次离线校准,但可能引起与遮挡和纹理复制有关的问题[15]。

我们提出了三种结构和损失创新,综合起来,在使用单目视频、立体对或两者一起进行训练时,大幅改善了单目深度估计:(1) 一种新颖的外观匹配损失,解决了使用单目监督时发生的遮挡像素的问题。 (2) 一种新颖而简单的自动遮罩方法,用于忽略在单目训练中观察不到相对相机运动的像素。 (3) 一种多尺度外观匹配损失,在输入分辨率执行所有图像采样,减少了深度估计中的伪影。 这些贡献共同产生了在KITTI数据集[13]上的最先进的单目和立体自监督深度估计结果,并简化了现有性能最佳模型中的许多组件。

相关工作

我们回顾那些在测试时以单个彩色图像为输入并预测每个像素深度的模型。

有监督深度估计

从单个图像估计深度是一个本质上难以解决的问题,因为同一输入图像可以投影到多个合理的深度上。为了解决这个问题,基于学习的方法展现出了适应性模型的能力,利用了彩色图像与相应深度之间的关系。已经探索了各种方法,例如结合局部预测[19, 55]、非参数场景采样[24],一直到端到端的监督学习[9, 31, 10]。基于学习的算法也是一些立体估计[72, 42, 60, 25]和光流[20, 63]中表现最佳的方法之一。

上述方法中的许多都是全监督的,需要在训练期间获取地面实况深度。然而,在各种真实世界的设置中,这是一项具有挑战性的任务。因此,有越来越多的工作利用弱监督的训练数据,例如已知物体尺寸[66]、稀疏序数深度[77, 6]、监督外观匹配项[72, 73]或不成对的合成深度数据[45, 2, 16, 78],尽管仍然需要收集额外的深度或其他注释。合成训练数据是一种选择[41],但生成包含多样化的真实世界外观和运动的大量合成数据并非易事。最近的工作表明,传统的结构运动(Structure from Motion,SfM)管道可以生成相机姿势和深度的稀疏训练信号[35, 28, 68],其中SfM通常作为与学习解耦的预处理步骤运行。最近,[65]通过将传统立体算法的嘈杂深度提示纳入我们的模型中,改善了深度预测。

自监督深度估计

在缺乏地面实况深度的情况下,一个替代方法是使用图像重建作为监督信号来训练深度估计模型。在这里,模型以一组图像作为输入,可以是立体对或单眼序列的形式。通过使给定图像的深度产生幻觉并将其投影到附近的视图中,模型通过最小化图像重建误差来进行训练。

自监督双目训练

自我监督的一种形式来自立体图对。在这里,训练期间提供了同步的立体图对,通过预测图对之间的像素视差,可以训练深度网络在测试时执行单眼深度估计。[67]提出了一种在新视角合成问题中使用离散深度的模型。[12]通过预测连续的视差值扩展了这种方法,而[15]通过包含左右深度一致性项,产生了优于当代监督方法的结果。基于立体的方法已经通过半监督数据[30, 39]、生成对抗网络[1, 48]、额外的一致性[50]、时间信息[33, 73, 3]以及用于实时应用[49]得到扩展。

在这项工作中,我们展示通过对外观损失和图像分辨率进行谨慎选择,我们可以在仅使用单眼训练的情况下达到与立体训练相当的性能。此外,我们的一项贡献也适用于立体训练,从而在那里实现了性能的提升。

自监督单目训练

一种不太受限制的自监督形式是使用单眼视频,其中连续的时间帧提供训练信号。在这里,除了预测深度之外,网络还必须估计帧之间的相机位置,这在存在物体运动的情况下是具有挑战性的。在训练过程中,仅需要估计的相机位置来帮助约束深度估计网络。

在最早的单眼自监督方法之一中,[76]训练了一个深度估计网络以及一个单独的姿态网络。为了处理非刚性场景运动,额外的运动解释掩码允许模型忽略违反刚性场景假设的特定区域。然而,后来该模型的在线版本禁用了这个术语,取得了更好的性能。受[4]启发,[61]提出了一个更复杂的运动模型,使用多个运动掩码。然而,这没有得到充分的评估,难以理解其效用。[71]还将运动分解为刚性和非刚性部分,使用深度和光流来解释物体运动。这提高了光流估计的效果,但他们报告在联合训练光流和深度估计时没有改善。在光流估计的背景下,[22]表明明确建模遮挡是有帮助的。

最近的方法已经开始缩小单眼和立体自监督之间的性能差距。[70]限制了预测的深度与预测的表面法线一致,[69]强制执行边缘一致性。[40]提出了一种基于近似几何的匹配损失,以鼓励时间深度一致性。[62]使用深度归一化层来克服常用深度平滑项(来自[15])导致对较小深度值的偏好的问题。[5]利用预计算的已知类别的实例分割掩码来处理移动物体。

基于外观的损失

自监督训练通常依赖于对物体表面外观(即亮度恒定性)和材料属性(例如朗伯表面)进行假设。[15]表明,包含基于局部结构的外观损失[64]相对于简单的成对像素差异[67, 12, 76]显著提高了深度估计性能。[28]扩展了这一方法,包括一个误差拟合项,[43]探讨了将其与基于对抗的损失相结合,以鼓励看起来逼真的合成图像。最后,受到[72]的启发,[73]使用地面真实深度来训练一个外观匹配项。

方法

在这里,我们描述了我们的深度预测网络,该网络接收单个彩色输入 I t I_t It并生成深度图 D t D_t Dt。我们首先回顾了自监督训练用于单目深度估计的关键思想,然后描述了我们的深度估计网络和联合训练损失。

自监督训练

自监督深度估计将学习问题框定为新视图合成的问题,通过训练网络以预测从另一图像视点看到的目标图像的外观。通过约束网络使用中间变量(在我们的情况下是深度或视差)执行图像合成,然后我们可以从模型中提取这个可解释的深度。这是一个不适定的问题,因为对于每个像素,可能有大量可能的不正确深度,这些深度可以在给定这两个视图之间的相对姿势的情况下正确重构新视图。传统的双目和多视图立体匹配方法通常通过在深度图中施加平滑性,并在通过全局优化解决每像素深度的情况下,在补丁上计算照片一致性来解决这种歧义,例如[11]。

  • 22
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值