1. 无监督单目深度估计
单目深度估计是指,借助于深度神经网络,从单张输入视图中推理场景的稠密深度信息;该技术可以广泛用于自动驾驶、虚拟现实、增强现实等依赖于三维场景感知理解的领域,同时也可以为其他视觉任务提供多模态深度信息,辅助其他任务感知的精确性。
由于不需要标签信息而仅依据单目视频序列 or 双目立体图像对 即可训练的这一巨大优势,无监督单目深度估计框架收到了越来越多的关注,并且当前的性能已经能比肩早期有监督训练方法。
随着monodepth2框架在网络预训练、损失函数设计等方面的创新,无监督训练得到的单目深度估计模型在对场景中几何细节方面的深度感知方面表现出了令人满意的性能和精度。
本文以及自监督单目深度估计的榜单,MDEB,对当前基于单目图像序列的自监督单目深度估计的SOTA/最优方案,MonoViT,进行介绍,并对其开源代码进行复现,开源代码地址: