文章目录
1 概要
1.1 简介
题目:UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning
论文:https://arxiv.org/pdf/1709.06841.pdf
代码:https://github.com/drmaj/UnDeepVO
简介:一种新的单目视觉里程计(VO)系统UnDeepVO。
1.2 背景知识
由于新接触视觉SLAM方面,所以看论文会写一下这部分促进对文章的理解。
视觉里程计(VO)可以让一个机器人在不同环境下仅通过低成本摄像机来定位。
过去的几年里,基于模型的VO和几何VO在两个方面研究广泛:基于特征的方法与直接方法,又来很大成果。但基于模型的方法对于摄像机参数非常敏感,因而在无特征地、动作模糊、或光照改变的情况下非常具有挑战性。
近些年来,数据驱动的VO或基于深度学习的VO由于其学习力和对相机参数的鲁棒性,吸引了众多关注。比如:
CNN-VO【7】、RCNN-VO【111】、DeMoN【12】
在视觉里程计(VO)相关非监督学习的研究主要着力于深度估计,源于图像wrap技术“spatial transformer”。
2. Motivation
当前阶段的方法大部分基于监督学习,需要相机位姿或深度图的真值。当前获取到真值的数据集难且昂贵,即使现有用于监督学习的标签也很有限。
—>无监督VO模式, 使用无标签数据集来轻松训练实现定位机制。
3. 思想
UnDeepVO能够利用深度神经网络估计单目相机的六自由度姿态和景深。
两个特点:
- 无监督的深度学习方案;
- 绝对尺度恢复。
我们使用立体图形对(Stereo images)来训练不可重复性,但是使用连续的单目图形来测试它。如下图所示。
4. 算法
整体系统包括 位姿估计 和深度估计。输入连续单目 图作为输入,输出6自由度+深度作为输出。
其中 位姿估计:VGG-based CNN框架;
使用空间和时间几何一致性来衡量损失函数。
空间图形损失会促使网络通过立体图像对,恢复缩放的深度图;
时间图形损失是用来最小化连续两个单目图像相机运动损失;
损失函数:基于时空密集信息的。
4.1 损失函数
4.1.1 立体图像对的空间图像损失
测度一致性损失:左右图投影测度差。
p l ( u l , v l ) p_l(u_l,v_l) pl(ul,vl)与 p r ( u r , v r ) p_r(u_r,v_r) pr(ur,vr)是对应左图与右图像素。
空间约束 u l = u r u_l=u_r ul=ur且 v l = v r + D p v_l=v_r +D_p vl=v