参考:ICCV 2021 | OPPO提出自监督深度估计算法,比肩“有监督”,泛化性能更佳! - 知乎
1 摘要
室内环境无监督单目深度估计较之室外的挑战:
(1)室内序列的深度范围在不同帧之间变化很大,这使得depth network很难获得一致的深度线索,而室外场景中通常最远处是天空,而室内浴室和大厅的深度范围差异都很大;
(2)室内序列包含更多的旋转运动,这给pose network带来了困难,而室外序列的运动主要是平移运动,特别是驾驶数据集,如KITTI。
2 方法
深度因子化模块(depth factorization module ):解决depth network适应深度范围变化的问题。
残差姿态估计模块(depth factorization module ):改善pose network对旋转位姿的估计问题。
3 核心
Loss:
L=The photomet-ric reprojection loss +edge-ware smoothness loss + depth consistency loss
Depth Factorization:
作者使用Monodepth2作为深度预测的主干模型。Monodepth2中的深度模型采用了一种自动编码器结构,在编码器和解码器之间有跳跃连接。所述深度编码器以彩色图像作为输入,所述解码器输出其深度图Dt。同样,使用自动掩膜方法(auto-maskingscheme)处理静态像素。
作者使用基于编码器-解码器的深度网络来预测相对深度图,使用非局部尺度网络(non-local scale network)来估计全局尺度因子(global scale factor)。
将标度网络(sacle network)设计为一种新的分支,它以一幅彩色图像作为输入,输出其global scale factor。
self-attention module:加入注意力优化特征操作,指导网络关注信息更加丰富的区,更好得到深度尺度因子。给定图像特征F输入,输出为Query、键(key)、值(values)。
其中,、、 为 parameters to be learnt,然后将查询和键值组合在一起作为self-attention module。
最后,利用self-attention module和F作为输入,输出,利用两个residual blocks 输出全局尺度因子S。
Probabilistic Scale Regression Head:
通过对深度因子化网络输出的每一个scale value 加权求和得到全局尺度因子(global scale factor)。
Residual Pose Estimation:
本文与现有方法在预处理过程中专注于“去除”或“减少”旋转分量(rotational components)不同,提出了残差位姿估计模块,以迭代的方法学习目标与源图像之间的相对相机位姿。
1、(target image )和(source image)作为输入到pose network输出初始相机位姿(target
image)。下标为0时表示没有进行转;
2、利用上述公式对(source image)进行双线性采样重建虚拟试图(virtual view);
3、利用残差位姿网络(residual pose network)将(target image )和(virtual view)作为输入,输出残差相机位姿,其中,残差相机姿态指的是合成视图和目标图像之间的相机姿态;
4、对(virtual view)进行双线性采样。公式如上;
5、得到一个新的综合视图后,继续估计下一个残差位姿。简化公式如上;
6、估计多个残差位姿后,源图像相对于目标图像的相机位姿可以写成。
4 实验
数据集:EuRoC, NYUv2 and 7-Scenes
1、EuRoC数据集
Ablation Study:
Quantitative Results:
Qualitative Results:
2、NYUv2 Depth Dataset
Ablation Study:
Ablation Study:
Qualitative Results: