MonoIndoor: Towards Good Practice of Self-SupervisedMonocular Depth Estimation for IndoorEnvironment

淡季浅末

已于 2022-03-11 11:09:37 修改

阅读量412

点赞数

分类专栏：单目深度估计文章标签：深度学习自动驾驶计算机视觉

于 2022-03-11 11:07:55 首次发布

本文链接：https://blog.csdn.net/weixin_46776144/article/details/123415981

版权

单目深度估计专栏收录该内容

2 篇文章 0 订阅

订阅专栏

参考：ICCV 2021 | OPPO提出自监督深度估计算法，比肩“有监督”，泛化性能更佳！ - 知乎

1 摘要

室内环境无监督单目深度估计较之室外的挑战：

(1)室内序列的深度范围在不同帧之间变化很大，这使得depth network很难获得一致的深度线索，而室外场景中通常最远处是天空，而室内浴室和大厅的深度范围差异都很大；

(2)室内序列包含更多的旋转运动，这给pose network带来了困难，而室外序列的运动主要是平移运动，特别是驾驶数据集，如KITTI。

2 方法

深度因子化模块（depth factorization module ）：解决depth network适应深度范围变化的问题。

残差姿态估计模块（depth factorization module ）：改善pose network对旋转位姿的估计问题。

3 核心

Loss：

L=The photomet-ric reprojection loss +edge-ware smoothness loss + depth consistency loss

Depth Factorization：

作者使用Monodepth2作为深度预测的主干模型。Monodepth2中的深度模型采用了一种自动编码器结构，在编码器和解码器之间有跳跃连接。所述深度编码器以彩色图像作为输入，所述解码器输出其深度图Dt。同样，使用自动掩膜方法（auto-maskingscheme）处理静态像素。

作者使用基于编码器-解码器的深度网络来预测相对深度图，使用非局部尺度网络（non-local scale network）来估计全局尺度因子（global scale factor）。

将标度网络（sacle network）设计为一种新的分支，它以一幅彩色图像作为输入，输出其global scale factor。

self-attention module：加入注意力优化特征操作，指导网络关注信息更加丰富的区，更好得到深度尺度因子。给定图像特征F输入，输出为Query、键（key）、值（values）。

其中， $W_{\psi }$ 、 $W_{\phi }$ 、 $W_{h}$ 为 parameters to be learnt，然后将查询和键值组合在一起作为self-attention module。

最后，利用self-attention module和F作为输入，输出 $S_{F}$ ，利用两个residual blocks 输出全局尺度因子S。

Probabilistic Scale Regression Head：

通过对深度因子化网络输出的每一个scale value 加权求和得到全局尺度因子（global scale factor）。

Residual Pose Estimation：

本文与现有方法在预处理过程中专注于“去除”或“减少”旋转分量（rotational components）不同，提出了残差位姿估计模块，以迭代的方法学习目标与源图像之间的相对相机位姿。

1、（target image ） $I_{t}$ 和（source image） $I_{t_{0}^{'}}$ 作为输入到pose network输出初始相机位姿(target
image) $T_{t_{0}^{'} \to t}$ 。下标为0时表示没有进行转；

2、利用上述公式对（source image） $I_{t_{0}^{'}}$ 进行双线性采样重建虚拟试图（virtual view） $I_{t_{0}^{'} \to t}$ ；

3、利用残差位姿网络（residual pose network）将（target image ） $I_{t}$ 和（virtual view） $I_{t_{0}^{'} \to t}$ 作为输入，输出残差相机位姿 $T_{(t_{0}^{'}n \to t) \to t)}^{res}$ ，其中，残差相机姿态指的是合成视图和目标图像之间的相机姿态；

4、对（virtual view） $I_{t_{0}^{'} \to t}$ 进行双线性采样。公式如上；

5、得到一个新的综合视图后，继续估计下一个残差位姿。简化公式如上；

6、估计多个残差位姿后，源图像相对于目标图像的相机位姿可以写成。

4 实验

数据集：EuRoC, NYUv2 and 7-Scenes

1、EuRoC数据集

Ablation Study：

Quantitative Results：

Qualitative Results：

2、NYUv2 Depth Dataset

Ablation Study：

Qualitative Results：

淡季浅末

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
MonoIndoor: Towards Good Practice of Self-SupervisedMonocular Depth Estimation for IndoorEnvironment

参考：ICCV 2021 | OPPO提出自监督深度估计算法，比肩“有监督”，泛化性能更佳！ - 知乎1 摘要室内环境无监督单目深度估计较之室外的挑战：(1)室内序列的深度范围在不同帧之间变化很大，这使得depth network很难获得一致的深度线索，而室外场景中通常最远处是天空，而室内浴室和大厅的深度范围差异都很大。(2)室内序列包含更多的旋转运动，这给pose network带来了困难，而室外序列的运动主要是平移运动，特别是驾驶数据集，如KITTI。2 方法深度因子模块（dep
复制链接

扫一扫