3D Packing for Self-Supervised Monocular Depth Estimation 论文笔记

最新推荐文章于 2024-04-25 09:52:57 发布

Tianchao龙虾

最新推荐文章于 2024-04-25 09:52:57 发布

阅读量271

点赞数

分类专栏：深度估计论文笔记文章标签：深度学习人工智能计算机视觉算法

本文链接：https://blog.csdn.net/wuchaohuo724/article/details/115653167

版权

深度估计论文笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

3D Packing for Self-Supervised Monocular Depth Estimation

论文链接： https://arxiv.org/abs/1905.02693

一、 Problem Statement

作者提出了三个问题:

基于自监督深度网络的RGB图像序列场景结构和摄像机运动联合估计问题。
深度估计的性能主要是由模型框架决定的。
单目视觉在尺度模糊的问题。

二、 Direction

提出一个新的框架PackNet，能够最大限度的传递稠密的表面和几何信息同时，还能实时运行。
提出一个新的loss，可以选择性的加入相机的速度来解决尺度模糊的问题。
提出了一个新的数据集，Dense Depth for Automated Driving。

三、 Method

整体的框架如上图所示。

作者目的是:

学习一个单目深度模型 $f_D:I \rightarrow D$ , 能够对taget image $I$ 的每一个像素预测一个 尺度模糊 的深度 $\hat{D}=f_D(I(p))$ 。
学习一个单目的ego-motion 预测模型 $f_x : (I_t, I_S) \rightarrow x_{t \rightarrow S}$ , 能够预测一个在taget image $I_t$ 和一系列source images $I_s \in I_S$ 之间的6自由度的变换 $x_{t \rightarrow s} = (\begin{matrix} R \quad t \\ 0 \quad 0 \end{matrix} ) \in SE(3)$ 。在实际中，source images是相邻两帧 $I_{t-1}, I_{t+1}$

1. 目标函数

整体的目标函数如下:

$L_(I_t, \hat{I_t}) = L_p(I_t, I_S) \circledast M_p \circledast M_t + \lambda_1 L_s(\hat{D_t})$

其中， $\hat{I_t}$ 是 synthesized taget image， $I_t$ 是target image， appearance matching loss是 $L_p$ ， depth regularization (edge-aware smoothing) $L_s$ 。 $M_t$ 是 binary mask，避免计算那些没有有效映射的像素的photometric loss。而 $\circledast$ 表示element-wise multiplication。

(1) Appearance Matching Loss

$L_P(I_t, \hat{I_t}) = \alpha \frac{1-SSIM(I_t, \hat{I_t})}{2}+(1-\alpha)||I_t - \hat{I_t}||$

$L_p(I_t, I_S) = \min_{I_S} L_p (I_, \hat{I_t})$

$M_p=\min_{I_{s}} L_p(I_t, I_s) > \min_{I_s} L_p(I_t, \hat{I_t})$

(2) Depth Smoothness Loss

$L_s(\hat{D_t}) = |\delta_x \hat{D_t}|e^{-|\delta_x I_t|} + |\delta_y \hat{D_t}| e^{|\delta_y I_t|}$

(1)和(2) 和 monodepth2一样。

(3) Scale-Aware Sfm

这一部分是解决尺度模糊的方法。作者提出了 velocity supervision loss。

$L_v(\hat{t}_{t \rightarrow s}, v) = | \| \hat{t}_{t \rightarrow s} \| -|v|\triangle T_{t \rightarrow s} |$

所以整体的loss可以改进为:

$L_{scale} (I_t, \hat{I_t}, v) = L(I_t, \hat{I}_t) + \lambda_2 L_v(\hat{t}_{t \rightarrow s}, v)$

2. 网络结构

monodepth 使用了类似于U-Net的网络结构，而本文也是类似于encoder-decoder的结构。作者认为

四、 Conclusion

通过引入相机速度改进了尺度模糊的问题，也提出了一个新的网络结构，提升性能。

五、 Reference

Tianchao龙虾

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
3D Packing for Self-Supervised Monocular Depth Estimation 论文笔记

3D Packing for Self-Supervised Monocular Depth Estimation论文链接： https://arxiv.org/abs/1905.02693一、 Problem Statement作者提出了三个问题:基于自监督深度网络的RGB图像序列场景结构和摄像机运动联合估计问题。深度估计的性能主要是由模型框架决定的。单目视觉在尺度模糊的问题。二、 Direction提出一个新的框架PackNet，能够最大限度的传递稠密的表面和几何信息同时，还能实时
复制链接

扫一扫