Unsupervised Learning of Monocular Depth Estimation and Visual Odometry论文阅读

文章的链接:http://openaccess.thecvf.com/content_cvpr_2018/papers/Zhan_Unsupervised_Learning_of_CVPR_2018_paper.pdf
我觉得主要有两个亮点,一个是双目的训练方式,另一个是不仅求图片映射之间的loss,也求特征之间的。

Abstract
这篇文章,作者利用双目视频序列学习深度和视觉测距,可以视为无监督学习预测深度和半监督学习预测姿态。使用双目序列能够促进利用空间的(左右目拍摄的图片),和时序上的(前后帧图片)的photometric warp error, 并且限制景深会和相机运动在一个现实的范围。测试阶段,作者提出的框架能够从单目序列当中估计单张场景的深度,和两张场景的视觉里程。作者也展示了将深度特征的warp考虑进来可以优化photometric warp loss。

从单张图片中理解场景的3D结构是机器感知中的一个基础问题,相似的问题是从图片序列当中推测帧间的运动,这是两个在自动驾驶当中非常重要的问题。有许多工作都是通过监督学习的方式在大型数据库上训练模型,但是标注的成本非常高,需要昂贵的雷达和深度相机去收集深度信息。

Godard引入了左右对称的连续标准和更好的双目损失函数来提升深度预测性能。Kuznietsov提出了一个半监督的框架,同时利用稀疏的深度图标定做监督训练和密集的photometric error 做非监督训练。

~~~~~方法来啦~~~~

3.1 Image reconstruction as supervision
对于两个相邻视角来说,已知目标视角的深度,当前视角和目标视角的相机相对姿态, 我们是能够由当前视角图片重构出目标视角的图片的。因为深度和相对相机姿态是可以通过神经网络进行估计的,真实和重构的图片之间的不一致性可以用来训练神经网络。然而一个单目框架没有额外的限制,其效果会受到scaling ambiguity issue的影响的,作者于是用已知的双目结构为其提供一种额外的限制。
在作者提出的结构中,有一对时序图片标为L,t1和L,t2,一对双目图片标为L,t2和R,t2,其中L,t2是目标视角,L,t1和R,t2都是当前视角,通过L,t2可以生成L’,t1和R’,t2,生成过程如下。
D表示L,t2对应的深度图,T表示相机间的相对位置,K表示相机参数。损失函数如下图:
在这里插入图片描述
使用双目序列有两个好处,一个是可以 及解决scale ambiguity 的问题,另一个是可以引入更多的限制。
3.2 Differentiable geometry modules
在公式1,2的方程f包含了两个可求导的运算能够使得梯度回传。这两个运算是epipolar geometry transformation(定义了两个视角像素之间的对应关系)和warping。映射方程如下:
在这里插入图片描述
这个公式可是超级经常使用的哦~~~
3.3 Feature reconstruction as supervision
双目的结构一般都默认景象都是Lambertain的,也就是不管观察者的角度如何,景象都是brightness都是恒定的。在此情况下公式3的loss对于训练网络来说是有意义的,如果这个条件不满足是会影响网络模型训练的。为了提高结构的鲁棒性,作者提出了特征重构损失函数。重构过程如下:
在这里插入图片描述
损失函数如下:
在这里插入图片描述
3.4 Training loss
最终的损失函数是这个样子的:
在这里插入图片描述
前两个分别是图片的loss和特征的loss,为了获得一个平滑的深度预测,作者引入了一个边缘感知的平滑项。如果在同一块区域,图片具有连续性而深度图不具有连续性的话,深度的不连续性是会被惩罚的。如下:
在这里插入图片描述

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值