【SLAM系列】UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning

最新推荐文章于 2024-03-11 19:30:53 发布

^_^ 晅菲

最新推荐文章于 2024-03-11 19:30:53 发布

阅读量909

点赞数 1

分类专栏：视觉SLAM 文章标签：计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43882112/article/details/108610506

版权

文章目录

1 概要
- 1.1 简介
- 1.2 背景知识
2. Motivation
3. 思想
4. 算法
- 4.1 损失函数
- - 4.1.1 立体图像对的空间图像损失
  - 4.1.2 连续单目图像的时序图像损失
5. 实验结果
6. 总结与思考

1 概要

1.1 简介

题目：UnDeepVO: Monocular Visual Odometry through Unsupervised Deep Learning
论文：https://arxiv.org/pdf/1709.06841.pdf
代码：https://github.com/drmaj/UnDeepVO
简介：一种新的单目视觉里程计（VO）系统UnDeepVO。

1.2 背景知识

由于新接触视觉SLAM方面，所以看论文会写一下这部分促进对文章的理解。

视觉里程计（VO）可以让一个机器人在不同环境下仅通过低成本摄像机来定位。

过去的几年里，基于模型的VO和几何VO在两个方面研究广泛：基于特征的方法与直接方法，又来很大成果。但基于模型的方法对于摄像机参数非常敏感，因而在无特征地、动作模糊、或光照改变的情况下非常具有挑战性。

近些年来，数据驱动的VO或基于深度学习的VO由于其学习力和对相机参数的鲁棒性，吸引了众多关注。比如：
CNN-VO【7】、RCNN-VO【111】、DeMoN【12】

在视觉里程计（VO）相关非监督学习的研究主要着力于深度估计，源于图像wrap技术“spatial transformer”。

2. Motivation

当前阶段的方法大部分基于监督学习，需要相机位姿或深度图的真值。当前获取到真值的数据集难且昂贵，即使现有用于监督学习的标签也很有限。

—>无监督VO模式，使用无标签数据集来轻松训练实现定位机制。

3. 思想

UnDeepVO能够利用深度神经网络估计单目相机的六自由度姿态和景深。
两个特点：

无监督的深度学习方案；
绝对尺度恢复。

我们使用立体图形对（Stereo images）来训练不可重复性，但是使用连续的单目图形来测试它。如下图所示。
在这里插入图片描述

4. 算法

整体系统包括 位姿估计 和深度估计。输入连续单目图作为输入，输出6自由度+深度作为输出。
其中位姿估计：VGG-based CNN框架；
在这里插入图片描述
使用空间和时间几何一致性来衡量损失函数。
空间图形损失会促使网络通过立体图像对，恢复缩放的深度图；
时间图形损失是用来最小化连续两个单目图像相机运动损失；

损失函数：基于时空密集信息的。

4.1 损失函数

4.1.1 立体图像对的空间图像损失

测度一致性损失：左右图投影测度差。
$p_l(u_l,v_l)$ 与 $p_r(u_r,v_r)$ 是对应左图与右图像素。
空间约束 $u_l=u_r$ 且 $v_l=v_r +D_p$

最低0.47元/天解锁文章

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。