VSO视觉语义里程计

VSO: Visual Semantic Odometry

原文,参考

摘要: 鲁棒的数据关联是视觉里程计的核心问题,其中图像到图像的对应关系为相机姿态和地图估计提供了约束。当前最先进的直接和间接方法使用短期跟踪来获得连续的帧到帧约束,而长期约束则使用闭环建立。在本文中,我们提出了一种新颖的视觉语义里程计(VSO)框架,以使用语义对点进行中期连续跟踪。我们提出的框架可以轻松集成到现有的直接和间接视觉里程计管道中。对具有挑战性的现实世界数据集的实验表明,通过集成我们的语义约束,在自动驾驶的背景下,与最先进的基线相比有了显着的改进。


引言: VO的核心是一个数据关联问题,建立图像之间的像素级数据关联,这些对应关系同时用于构建场景的 3D 地图并跟踪当前相机帧相对于地图的姿态。但是这种局部跟踪和映射会在每一帧中引入小误差,随着时间推移,累计误差会导致姿态和地图估计发生漂移。两种解决方式:1)使用图像之间的短期关联来获得暂时的漂移校正,通过过渡性地建立连续相机帧之间的约束。这种方法在车辆长期在直线公路上前进时非常有效。2)通过回环检测在远帧之间建立长距离约束。这种情况适用于相机重复访问之前的位置,或者基于建立好的地图定位的情况。

本文提出利用语义信息来改善第一种漂移校正策略,建立点的中期连续跟踪。目前自动驾驶领域的一流方案中都缺少不变量的呈现:无论是基于特征的ORB-SLAM还是直接法的LSD-SLAM或者DSO,不能连续跟踪一个点持续很长距离。因为它们的呈现对视角和光照变化并不鲁棒。
在这里插入图片描述
Fig.1. 追上前面的车辆过程中,跟踪的Patch由于尺度变化后跟踪失效,但语义信息一直保持一致。

论文的主要思想为使用语义作为不变的场景呈现元素。潜在假设为视角、尺度、光照的变化仅仅影响低等级的物体表观,而不影响它们的语义含义。

具体贡献:
1) 推导一种独特的最小化语义投影误差的损耗函数,而且发现可以使用期望最大化(EM)法最小化。可以与任何语义分割算法结合。2) 将语义误差项整合到VO算法中显著改善自动驾驶场景的平移漂移问题。

Visual Semantic Odometry

本文的目标是通过建立连续的中期对应来减少视觉里程计的漂移。由于直接和间接 VO 方法通常无法长时间连续跟踪一个点,因此使用场景语义来建立这种对应关系。

在这里插入图片描述
里程计目标函数:
在这里插入图片描述
其中​ e b a s e ( k , i ) e_{base}(k,i) ebase(k,i)表示在第k个相机下看到的第i个点的cost。要么被定义为光度差异(直接法)或者几何差异(间接法)。由于作者表示提出的语义方法可以基于原来的方法改善,所以该公式即为原本算法的误差模型。重点在于接下来的语义模型。

对于输入图像,进行语义分割,得到稠密的,每个点都有类别的分类图像。因而每个地图点除了3d位置,也包含了分类信息。定义 w i ( c ) w_i^{(c)} wi(c)来表示点 P i P_i Pi属于分类c的的概率,
在这里插入图片描述
定义语义cost function,每一项联系了相机姿态 T w T_w Tw和地图点 P i P_i Pi
在这里插入图片描述
因此创造了优化对象,结合基础算法的目标函数和新增的语义项目标函数:
在这里插入图片描述
而​则作为权重,与语义的可信度有关。而语义的可信度取决于分类器的效果和场景影响,在后文详细论述。

Semantic Cost Function

首先,该部分的核心思想其实很简单,即我们要衡量该姿态的相机观测得到的语义分类和地图的语义关系能多好地匹配。匹配方式则是将地图的点,按照当前相机的姿态,投影到成像平面中(类似BA,只是BA比较的是RGB而已)。对应成像平面的位置如果分类就是地图中点的分类,那就概率取高,那么如果不是呢?便定义一个方法以最近正确分类来表示这个概率,即下文将描述的DT。
在这里插入图片描述
定义观测似然,该公式表示将地图点投影到图像 S k S_k Sk中,对应的位置标签为c的概率。投影与最近标记为c的点距离越远则概率越低。
这里定义了一个Distance transform - DT. D T B ( p ) : R 2 − > R DT_B(p):R^2->R DTB(p):R2>R,其中p是像素位置,B是二值图像
在这里插入图片描述
根据Fig.2. 语义似然推断的阐述。输入语义分割图(a),取出分类为车辆的部分到图(b),语义似然( σ = 10)和(σ = 20)的情况分别见图(c),(d)。红色代表1,蓝色代表0.
在这里插入图片描述
对于该部分,我需要判断投影过来的点与正确分类的距离,于是建了这么一张图来表示,不用再挨个遍历去算。而概率与距离的关系是用高斯分布建模,方差为 σ 2 σ^2 σ2
结合公式4,我们可以定义语义误差项:
在这里插入图片描述
其中 π ( T k , X i ) π(T_k,X_i) π(Tk,Xi)用相机姿态将点 P i P_i Pi投影到语义分割图像 S k S_k Sk中。文章开头说过,表示​ P i P_i Pi是类别c的概率,而且会随着观测实时更新。论文说“直观上该公式是2D距离的权重平均”。谁的2D距离呢,即到最近正确分类点 P i P_i Pi的2D像素距离。又举了个例子说:如果点 P i P_i Pi​分类为人行道和马路的概率相同,那么它的误差项将在二者的分界上取得最小值。 w i ( c ) w_i^{(c)} wi(c)的实时随观测更新表现在哪呢。具体来说,点​的标签概率向量​ w i w_i wi​联合考虑所有观测来计算。如果点 P i P_i Pi​被一组观测量观测,那么:
在这里插入图片描述
所以每次能看到 P i P_i Pi的观测,得到的其分类为c的概率将被乘上去来改变​ 的值,该规则允许通过积累观测数据增量式更新标签向量​ w i w_i wi。而如果大部分观测值们对于同一个分类有最大值,那么该类别c整体的乘积也将相对于其他错误分类收敛到一个尖峰值去。

Optimization

该部分论述如何求解上述模型。使用expectation maximization (EM) 法,分E、M两步分别求解。

E-step : 对每个点P_i计算权重向量,同时保持点位置和相机姿态固定。

M-step : 反过来优化点的位置和姿态,但固定权重。

由于E_sem含有稀疏结构,M-step使用Levenberg-Marquardt算法求解。

给出的优化框架能够通过将点标签Zi作为潜在变量并最大化似然推导出。见附录文件。

仅仅使用语义信息会使得约束过少,公式四(DT)在物体内部是均匀分布。
在这里插入图片描述
1) 语义优化联合基本视觉里程计功能一起

2) 使用多个点和语义约束优化单独相机姿态

3) 仅仅提供语义约束而不提供基本约束的点,如不会再被基本系统优化的点,将被固定并且仅仅相关的相机姿态会被优化来减小漂移。这个过程不光限制了优化变量的数量,并且提供了点之间的结构关联,因而约束了姿态解。如右图。

4) 通过高频的语义优化,我们减少了将点匹配到错误物体情况的概率,由于优化基于DT的梯度,我们假设点会在正确标记区域附近,所以会把点拉向正确区域。

Obtaining Semantic Constraints & System Integration

除了语义系统外还有基本的视觉里程计系统。可选用直接法或间接法。对每帧生成一张可视点V(k),其中每个点可建立可优化的相机-点约束。每一帧还生成语义可见列表V_sem(k),如果点i的投影足够接近该点的语义区域,那么将被插入到V_sem(k)中。

VO方法有active window来用一部分帧优化轨迹,我们也定义了active semantic window存放语义关键帧。一旦一帧离开AW,就将其加入到ASW。ASW中帧的姿态不再被优化,因为它们缺少与当前帧的光照/尺度约束。

补充材料更加详细地描述了如何从存在的VO框架中获得语义关系,以及整合论文方法到已存在系统中。

实验

详细描述见原文
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 30
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值