2017CVPR NID-SLAM:基于归一化信息距离的鲁棒单目SLAM系统

最新推荐文章于 2024-12-24 17:21:59 发布

zf19921020

最新推荐文章于 2024-12-24 17:21:59 发布

阅读量3.1k

点赞数 3

分类专栏：算法文章标签：算法 SLAM

本文链接：https://blog.csdn.net/zf19921020/article/details/77488785

版权

算法专栏收录该内容

5 篇文章

订阅专栏

提出一种基于归一化信息距离的单目直接SLAM算法NID-SLAM，该算法在光照、气候和场景结构变化的环境下展现出了良好的鲁棒性。NID-SLAM利用全局信息熵度量，实现在复杂场景下的精准定位与建图。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原作：Geoffrey Pascoe 翻译：Frank
转载请注明出处
水平有限，错误请指出

NID-SLAM:基于归一化信息距离的鲁棒单目SLAM系统

摘要

本文提出了一种基于归一化信息距离（NID）度量的单目直接SLAM算法。不同于当前经典的基于像素误差最小化的直接法SLAM算法，NID信息度量对由于光照、气候和结构变化导致的场景变化有很好的鲁棒性。我们利用车载相机采集真实世界中的复杂的场景变化数据，包括光照变化的室内场景和气候变化（阳光，雨，雪）的室外场景，利用这些变化的数据成功的进行了定位和建图。算法利用OPENGL能在消费级GPU上实时运行，在正常场景下，得到了和直接法接近的精度，而在前述的可变场景中，我们算法得到的结果要比直接法和特征点法得到的结果鲁棒的多。

1. 简介

实时单目同步定位和建图（SLAM）是AR/VR应用、三维测量和重建以及机器人领域，特别是微型无人机导航中的关键技术。一般来说，单目SLAM方法利用特征描述子对一系列稀疏视觉特征点进行匹配和追踪，然而这些特征描述子仅对光照、尺度和观察点的微弱变化具有鲁棒性。

特征点法使用稀疏特征点匹配和捆集调整（BA）极大地减少了大量计算量，但却牺牲了精度和鲁棒性，因为图像中的大部分信息都被丢弃了[6]。近几年，直接法通过最小化图像间的像素误差，得到了更高的精度和稠密的重建结果，同时对视点的变化和运动模糊有一定的鲁棒性。然而，直接法中最大的缺陷在于像素误差法的前提是观测对象为静态场景，这使得该算法只能在环境可控的室内场景或者有限的室外场景才能起作用。这一点严重限制了基于像素误差的视觉SLAM方法的应用，因为该方法得到的地图只能在恒定的光照条件下使用。

在本文中，我们想要解决的问题是室外环境中光照、气候和场景结构的长期性的变化对定位的影响。文中提出了一种基于归一化信息距离（NID）度量的单目SLAM方法，简称为NID-SLAM,并在图1中展示了基于该算法得到的在外观变化场景下鲁棒的定位和建图结果。不同于像素误差，NID度量并不是图像亮度方程，而是图像的信息熵方程。因此，该算法在不同光照、气候和季节条件下采集的图像能在统一的地图下进行定位，并用其更新变化场景中的深度信息。通过利用合成数据和真实世界的数据进行测试，我们发现NID-SLAM的鲁棒性比特征点法更高，同时达到了和传统直接法SLAM相似的精度。最后，我们详述了如何利用OPENGL来实现算法的实时运行，并指出了该算法在一些极限条件下存在的不足。

1.1. 相关工作

大部分的单目SLAM方法都是所谓的非直接法，它们利用一个基于特征点的前端来获取稀疏的特征点及其对应的描述子（[17,28]），然后利用滤波器或者优化框架作为后端来通过这些特征点和描述子预测相机的位姿。然而，非直接法依赖特征检测算法来决定图像中哪些部分是对定位有益的（通常会忽略边缘和其他提供有效信息的部分），也依赖特征描述子来抵抗由于尺度、视点和光照变化导致的外表的变化。特别重要的一点是，特征点法无法抵抗室外环境中由于强烈光照变化、气候条件和季节变化所带来的场景表面的改变。

近几年来，出现了一系列基于直接法的SLAM，这些方法不再需要特征提取，而是直接最小化当前相机平面和稠密/半稠密的地图间的像素亮度误差。这些方法声称对于视点变化和运动模糊具有更高的鲁棒性。同时，由于整幅图像都参与计算，直接法能得到比非直接法更高的追踪精度。最新的论文中提出在视觉里程计（VO）中加入像素校准和曝光补偿能得到更好的结果。然而，这些方法仍是基于静态场景假设的像素误差方法。在[1]中的VO将像素误差法扩展到了一系列的比特平面（类似于稠密描述子方法[16]）；该方法增加了对局部场景光照变化的鲁棒性，但仍然无法解决在全局场景中的长期外观变化。

在变化的场景中进行图像匹配的一个有效方法是利用互信息，该方法通常用在多模式下的图像配准。基于互信息的度量方法用来在相机姿态追踪中替换先验地图信息，并在长时间的光照、结构和运动模糊的室外场景中展现出很好的鲁棒性。我们认为本文算法是首次将鲁棒的全图互信息度量引入了单目的SLAM框架，在光照、气候和季节变化的场景中得到了鲁棒的相机位姿追踪和深度地图的更新。

1.2. 主要贡献

在本文中，我们认为NID-SLAM中有三个关键的部分属于我们的原创，如下：
1. 利用NID进行鲁棒的直接法追踪： 我们提出了一种实时的算法，通过最小化候选图像帧和关键帧深度图之间的NID来得到sim(3)形式的相机位姿。与之前的算法不同的是，我们将深度信息的预测融入了NID的计算过程中；
2. 利用直方图金字塔实现的多分辨率追踪： 我们提出了一种新的基于直方图金字塔的算法，该算法利用NID进行鲁棒的由粗到精的相机追踪，这在提高鲁棒性和收敛能力的同时减少了低尺度空间的计算时间；
3. 利用NID进行直接的深度图更新：我们提出了一种利用NID的逐像素关键帧深度图更新策略，该策略允许在长时间的连续遍历过程中对外表变化的深度图进行维护和更新；

2. 利用NID的直接单目SLAM

图2展示了NID-SLAM系统的基本流程。不同于像素误差单目SLAM方法的部分我们进行了高亮处理。在本节中，我们会对NID-SLAM中的各个模块进行详细的阐述，特别是基于NID的追踪和深度图更新。

2.1. 鲁棒的直接NID追踪

在接下来的章节中，我们引入了[7]中对于关键帧和地图的表示法：一个包含一幅图像的关键帧表示为： $I: \Omega \to \mathbb{R}^{+}$ ，逆深度图： $D: \Omega \to \mathbb{R}^+$ ，逆深度方差： $V:\Omega \to \mathbb{R}^+$ ，其中 $\Omega \in \mathbb{R}^2$ 表示归一化像素坐标系。对于每幅图像，我们选择一个子空间 $\Omega_D \in \Omega$ ，其中 $\Omega_D$ 是用来提供有效深度预测的图像梯度像素的集合。我们也采用了[7]中关于3D投影方程 $\omega$ 的表示， $\omega$ 利用对应的逆深度值 $D_{(r)}(p_i) \in \mathbb{R}^+$ 和相机姿态 $\xi \in sim(3)$ 将一个图像点 $p_i \in \Omega_D$ 投影到新的相机帧中的点 $q_i \in \mathbb{R}^2$ ，其表达式如下所示：

q i = ω (p i, D r (p i), ξ) (1)

$q_i =\omega(p_i,D_r(p_i),\xi) \tag{1}$
一般来说，当前帧

Ic $I_c$ 相对参考帧

Ir $I_r$ 的相对位姿

ξ $\xi$ 通过如下的最小化方程来计算：

arg min ξ \sum p i \in Ω D ω i (ξ) | | (I r (p i) - I c (q i)) 2 | | δ (2)

$\mathop{\arg\min}_{\xi} \sum_{p_i \in \Omega_D} \omega_i(\xi)||(I_r(p_i)-I_c(q_i))^2||_{\delta} \tag{2}$
其中图像采样方程

I(.) $I(.)$ 返回亚像素精度级的图像亮度值。其加权方程

ωi(ξ)∈R+ $\omega_i(\xi) \in \mathbb{R}^+$ 缩放了由深度的不确定性导致的残差，核函数

||.||δ $||.||_\delta$ 则减少了外点对优化方程的影响(如 Huber损失)。然而，基于像素误差的度量受限于环境因素，其要求观测场景的外观不随时间变化，这将像素误差法的使用场景限制到了可控的室内场景或者短期的室外场景。基于NID的更鲁棒的配准度量定义如下所示：

arg min ξ N I D p i \in Ω D (I r (p i), I c (q i)) (3)

$\mathop{\arg\min}_{\xi} \mathop{NID}_{p_i \in \Omega_D} (I_r(p_i),I_c(q_i)) \tag{3}$
不同于互信息的表示，

NID(.):R|ΩD|×R|ΩD|→R+ $NID(.):\mathbb{R}^{|\Omega_D|} \times \mathbb{R}^{|\Omega_D|} \to \mathbb{R}^+$ 是一个处于[0,1]之间的真实尺度，其满足三角不等式且不依赖于整体信息的分布情况。NID的定义如下所示：

N I D (I r, I c) = 2 H ( I r , I c ) - H ( I r ) - H ( I c ) H ( I r , I c ) (4)

$NID(I_r,I_c)={2H(I_r,I_c)-H(I_r)-H(I_c) \over H(I_r,I_c)} \tag{4}$
其中

H(Ir,Ic)∈R+ $H(I_r,I_c) \in \mathbb{R}^+$ 是在

Ir $I_r$ 和

Ic $I_c$ 中对应采样点的联合信息熵，而

H(Ir)∈R+ $H(I_r) \in \mathbb{R}^+$ 和

H(Ic)R+ $H(I_c) \mathbb{R}^+$ 是边缘熵，其定义如下所示：

H (I c) = - \sum a = 1 n p c (a) l o g (p c (a)) (5)

$H(I_c)=-\sum_{a=1}^{n}{p_c(a) log(p_c(a))} \tag{5}$

H (I r, I c) = - \sum a = 1 n \sum b = 1 n p r, c (a, b) l o g (p r, c (a, b)) (6)

$H(I_r,I_c)=-\sum_{a=1}^n \sum_{b=1}^n p_{r,c}(a,b)log(p_{r,c}(a,b)) \tag{6}$

其中 $H(I_r)$ 定义和方程5类似。边缘信息 $p_c \in \mathbb{R}^n$ 和联合信息 $p_{r,c} \in \mathbb{R}^{n \times n}$ 是用以a和b为索引的n块直方图来表示的。由于 $p_r$ 和 $p_c$ 都可以通过对 $p_{r,c}$ 求边缘分布得到，因此在NID-SLAM中主要的计算量集中在 $p_{r,c}$ 的求解以及将其从关键帧投影到当前帧的雅克比矩阵的计算。

如图4所示，我们利用采样法来计算联合分布 $p_{r,c}$ 。不同于之前的基于NID的定位法，我们将深度图的不确定度以逆深度方差 $V_r(p_i)$ 的方式融入了位姿估计中。每一个采样点 $p_i \in \Omega_D$ 对整体分布的贡献如下：

p r, x (a, b) \leftarrow p r, c (a, b) + β ( q i , N ( j ) ( q i ) ) k V r ( p i ) (7)

$p_{r,x}(a,b) \leftarrow p_{r,c}(a,b)+{\beta(q_i,N^{(j)}(q_i)) \over k V_r(p_i)} \tag{7}$

在这里， $\beta(q_i,N^{(j)}(q_i)) \in \mathbb{R}^+$ 表示一个2维三次样条基函数，该函数用来计算像素点j在对应 $q_i$ 的 $4 \times 4$ 邻域 $N(q_i)$ )中的权重分布。在计算出对应的权重后，会对其进行归一化操作： $\sum^j\beta(q_i,N^{(j)}(q_i))=1, \forall q_i$ ，由于我们只对 $q_i$ 的邻域像素 $N^{(j)}(q_i)$ 进行采样，因此不需要在 $I_c$ 和 $I_r$ 的亚像素位置上进行采样。与像素误差法不同的是，本文中的算法不需要在像素间进行插值。三次样条基函数可以得到在 $C^2$ 上连续的直方图方程，这使得它能在基于梯度信息的优化框架上工作。直方图每一块的索引 $(a,b)$ 计算方式如下：

a = B (I r (p i)), b = B (I c (N (j) (q i))) (8)

$a= \mathfrak{B}(I_r(p_i)),b=\mathfrak{B}(I_c(N^{(j)}(q_i))) \tag{8}$
其中，

B(.):R+→N $\mathfrak{B}(.): \mathbb{R}^+ \to \mathbb{N}$ 返回在

I(.) $I(.)$ 中对应亮度值的直方图块索引。由于对像素点j的所有邻域来说，参考帧图像的直方图块索引

a=B(Ir(pi)) $a=\mathfrak{B}(I_r(p_i))$ 是常数，因此一个采样点最多会更新

pr,c $p_{r,c}$ 中的n项，如图4所示。最后，常数

k $k$ 会对单个采样点

pi $p_i$ 对应的直方图分布进行归一化：

k = 1 | Ω D | \sum p i \in Ω D 1 V r ( p i ) (9)

$k={1 \over |\Omega_D|} \sum_{p_i \in \Omega_D}{1 \over V_r(p_i)} \tag{9}$
在计算了

pr,c $p_{r,c}$ 后(

pr,pc $p_r,p_c$ 也可随之得到)，就可以将其代入方程(5)和方程(6)中来计算边缘熵和联合熵。利用方程(3)对

ξ $\xi$ 求偏导，我们可以将系统建立为一个优化问题，通过最小化图像和关键帧之间的NID，来对相对位姿估计

ξk $\xi_k$ 进行迭代更新：

ξ k + 1 = ξ k - α k \sum k \partial N I D ( I r ( p i ) , I c ( N ( q i ) ) ) \partial ξ | p i \in Ω D (10)

$\xi_{k+1} =\xi_k-\alpha_k \sum_k{{\partial NID(I_r(p_i),I_c(N(q_i))) \over \partial \xi}|_{p_i \in \Omega_D}} \tag{10}$
其中

αk∈R+ $\alpha_k \in \mathbb{R}^+$ 是迭代的步长，

∑k∈R6×6 $\sum_k \in \mathbb{R}^{6 \times 6}$ 是一个利用BFGS计算的迭代更新的Hessian矩阵或者协方差矩阵，而该矩阵在优化步骤后能自然得出，因此不需要进行额外的计算。我们发现，在同样进行深度值随机初始化的步骤后，基于NID的追踪能得到比基于像素误差追踪更高的精度和鲁棒性。

2.2. 多分辨率的NID追踪

为了增加鲁棒性和收敛能力，直接法中多使用由粗到精的图像金字塔方法来进行追踪。如图5所示，我们测试了简单的下采样方法，但却发现其并不能提高鲁棒性。因此，我们提出了一种多分辨率的直方图金字塔方法，该方法利用直方图计算均值而不是利用像素值。

我们建立了一个n通道直方图的金字塔，不妨用 $\mathcal{H}^{(l)}$ 来表示金字塔中第l层。基层 $\mathcal{H}^{(0)}$ 中的每个通道a都是直接从图像 $I$ 中计算得到：

$ H (0) (p i, a) = {1, a = B (I (p i)) 0, o t h e r w i s e (11)

$$\mathcal{H}^{(0)}(p_i,a)= \{ \begin{matrix} 1, a= \mathfrak{B}(I(p_i)) \\ 0, otherwise \\ \end{matrix} \tag{11}$
后续层通过对基层做如下下采样得到：

H (l + 1) (p i, a) = 1 4 \sum j = 1 4 H (l) (N (j) (2 \cdot p i), a) (12)

$\mathcal{H}^{(l+1)}(p_i,a)={1 \over 4} \sum_{j=1}^4 \mathcal{H}^{(l)}(N^{(j)}(2 \cdot p_i),a) \tag{12}$

其中 $N(p_i)$ 表示 $p_i$ 的 $2 \times 2$ 邻域中的像素。直方图的下采样过程如图6所示。在图7中展示了利用多分辨率直方图形式来代替方程7中的联合分布更新，其表示形式如下：

p (l) r, c (a, b) \leftarrow p (l) r, c (a, b) + γ ( l ) ( a , b ) β ( q i , N ( j ) ( q i ) ) k V ( l ) r ( p i ) (13)

${p_{r,c}^{(l)}(a,b) \leftarrow p_{r,c}^{(l)}(a,b) + {\gamma^{(l)}(a,b) \beta(q_i,N^{(j)}(q_i)) \over k V_r^{(l)}(p_i)} \tag{13} }$
其中，逐像素的直方图权重

γ(l)(a,b):(N)×N→R+ $\gamma^{(l)}(a,b) : \mathbb(N) \times \mathbb{N} \to \mathbb{R}^+$ 定义如下：

γ (l) (a, b) = H (l) r (p i, a) H (l) c (N (j) (q i), b) (14)

$\gamma^{(l)}(a,b) =\mathcal{H}^{(l)}_r(p_i,a)\mathcal{H}^{(l)}_c(N^{(j)}(q_i),b) \tag{14}$
需要强调的一点是，对于任意的直方图块索引

(a,b) $(a,b)$ ，权重

γ(l) $\gamma^{(l)}$ 都是非0的，因此方程13 可以最多更新联合分布

p(l)r,c $p_{r,c}^{(l)}$ 中

n2 $n^2$ ，而不是n个直方图块。这会在每层的计算时间上增加一个常数因子，但因为高层的采样点数是以二次方的规模减少的，因此整体时间反而有所减少。同时，我们发现在模型初始化不好的时候，多分辨率追踪增加了鲁棒性，这也增加了额外的时间耗损。我们利用上一层最终得到的相机位姿作为当前层的初始输入，对接下来的每一层进行由粗到精的追踪，来解方程(10).

2.3. NID深度图更新

在预测出相机位姿 $\hat{\xi}$ 之后，直接法通常利用关键帧和当前帧之间的小基线立体视觉度量来对关键帧的深度图进行更新。对于像素误差法而言，其可以通过二次优化来对每一个像素点的深度值单独进行更新。然而，当经过很长时间重新回到当前的关键帧场景时，其光照条件和外观可能发生剧烈变化，这使得本地像素深度值更新变得不可行。我们提出利用NID来对关键帧的深度进行更新以抵抗光照和外观的变化。
对于一个相机位姿 $\xi$ ，我们计算逆深度梯度 $\bigtriangledown_{d_r}(\xi) \in \mathbb{R}^{|\Omega_D|}$ ：

▽ d r (ξ) = \partial N I D ( I r ( p i ) , I c ( N ( q i 0 ) ) ) \partial D r ( p i ) | ξ, p i \in Ω D (15)

${\bigtriangledown_{d_r}(\xi) = {\partial NID(I_r(p_i),I_c(N(q_i0))) \over \partial D_r(p_i)} |_{\xi,p_i \in \Omega_D} \tag{15} }$
在得到新的逆深度图

Dr^ $\hat{D_r}$ 之后利用BFGS来进行迭代更新：

D r^(p) k + 1 = D r^(p) k - α D k \sum D k ▽ D r (ξ) (16)

$\hat{D_r}(p)_{k+1}=\hat{D_r}(p)_k-\alpha_{D_k} \sum_{D_k} \bigtriangledown_{D_r}(\xi) \tag{16}$
其中

αDk∈R+ $\alpha_{D_k} \in \mathbb{R}^+$ 是迭代步长，

∑Dk∈R|ΩD|×R|ΩD| $\sum_{D_k} \in \mathbb{R}^{|\Omega_D|} \times \mathbb{R}^{|\Omega_D|}$ 是k次迭代后的预测深度协方差矩阵，而该矩阵是稀疏的。在优化结束后，逆深度值

Dr $D_r$ 和逆深度方差

Vr $V_r$ 利用如下方式进行更新：

D r (p) = D ^ r ( p ) \circ V r ( p ) + D r ( p ) \circ d i a g ( \sum D k ) V r ( p ) + d i a g ( \sum D k ) (17)

$D_r(p) ={\hat{D}_r(p) \circ V_r(p) +D_r(p) \circ diag(\sum_{D_k}) \over V_r(p)+diag(\sum_{D_k})} \tag{17}$

V r (p) = (V r (p) - 1 + d i a g (\sum D k) - 1) - 1 + d i a g σ 2 p I (18)

$V_r(p) =(V_r(p)^{-1} + diag(\sum_{D_k})^{-1})^{-1}+ diag{\sigma_p^2I}\tag{18}$
其中

∘ $\circ$ 是逐项矩阵乘法，而

σ2p $\sigma_p^2$ 是引入的噪声项以确保逆深度方差不会超限。

事实上，我们发现基于NID的深度更新对于深度的初始值和采样点的个数很敏感，当利用[7]中的方式对关键帧进行随机深度初始化时，算法将无法收敛。因此我们建议只有在重新回到一个已经经过初始化的关键帧时，才利用NID进行深度图更新；在初始化新的关键帧时，基于像素的深度图更新比我们的深度预测更加有效。虽然如此，我们即使是在新建关键帧时也利用NID进行相机位姿的追踪。

2.4. 位姿图优化

为了从内联的关键帧中得到全局一致的地图，算法采用了[7]中使用的带尺度的位姿图优化方法。我们利用FAB-MAP[4]来进行当前帧的回环检测，并利用多分辨率NID相对位姿优化来对检测到的回环帧进行回环约束。这些约束和关键帧的相机位姿一起进行图优化来得到全局地图。NID追踪对在长时间的室外场景中建立回环约束特别有效，因为在实际场景中，光照变化、阴影和遮挡的出现是不可避免的。

3. 结果

我们对比了NID-SLAM和经典的单目SLAM系统ORB-SLAM2和LSD-SLAM的性能。我们利用两个不同的数据集：人工合成的New Tsukuba Dataset和室外的Oxford RobotCar Dataset来进行算法的评估，其结果如图6所示。与众所周知的KITTI dataset不一样的是，Oxford RobotCar Dataset提供了很多相同地点在不同时候的观测。每个数据集都包括在不同光照和气候条件下的观测。New Tsukuba dataset则额外的加入了真实的轨迹和深度图信息以进行精确的评估。我们在Oxford RobotCar Dataset中选取了相同场景6个500m的观测数据来表示不同条件下的室外场景。

我们总共进行了16组室内实验和36组室外实验，每组实验都包含两种不同条件下的两个连续的观测数据，算法的目标是在利用第一个连续数据建立的SLAM地图的基础上尽可能成功的对第二个连续数据进行定位和追踪。为了评估追踪的性能，我们在第一个连续观测数据和第二个连续观测数据上对首个关键帧进行了手动选取，这样就能排除回环检测对追踪性能的干扰。性能评估主要是比较相对第一组观测数据的关键帧，第二组观测数据的成功追踪的百分比。
我们利用OPENGL 的GLSL来实现NID-SLAM在不同平台的部署。利用单个AMD R9 295x2的GPU实现了10hz的追踪和地图更新。对于ORB-SLAM2和LSD-SLAM,使用了网上的开源代码并对其进行修改使得其支持多会话建图。我们也利用[8]中的方法对LSD-SLAM进行了曝光补偿来提高其在室外的表现。表1列出了在评估过程中所使用的参数。

3.1. 鲁棒的室内追踪

对于New Tsukuba室内数据集，我们利用真实的相机位姿来将关键帧的sim(3)变换到 $\mathbb{SE}(3)$ 。同时记录其轨迹的误差。表2展示了每种算法计算的平移和旋转的RMS误差以及其定位的成功率，而定位的失败则由算法本身的错误和绝对误差超过0.5m得到。

NID-SLAM在几乎所有的数据集中都表现出更可靠的追踪预测精度，仅在两次实验中ORB-SLAM2得到更高的成功率(100% VS 99.3%)。关键的一点是，NID-SLAM在利用不同条件场景建立的地图中追踪精度超过80%（在采光好的场景中更是超过了95%），而此时LSD-SLAM从未超过50%，ORB-SLAM则从10%到大于80%之间剧烈波动。除了极少数的情况外，三种算法计算得到的RMS误差都小于100毫米和5度，所有三种算法在利用灯光场景生成的数据中都无法实现成功的定位。我们将其归结为在两种场景中亮度和光照对比度太大所致。

3.2. 深度图更新

为了评估节2.3中的深度图更新方法的优劣，我们利用 New Tsukuba 数据集提供的深度图的真实数据来计算算法两次运行过程中的深度图误差。表3展示了室内场景下的深度图误差，其中主对角线上的数据表示在每种条件下第一次算法运行的深度误差的中值，其他数据则表示在不同状态下重新观测时的深度误差值。

对于白天、荧光和照射灯条件下的场景，NID-SLAM的深度图更新策略在进行第二次观测时均减少了接近6%的深度误差。然而，在闪光条件下，二次观测的误差有的减少了15%，而有的则增加了15%，波动很大。我们将其归结于观测过程中光照条件变化太过剧烈。由于此时场景中只有很少一部分区域可见，因此NID-SLAM无法获取足够多的采样点来实现可靠的NID深度更新。

3.3. 鲁棒的室外追踪

对于RobotCar的室外数据集，由于在观测过程中没有真实的尺度信息，因此每次观测可评估的只有计算的视觉里程。我们生成了观测过程中VO累积距离和定位失败之间的近似对应关系，在这里，定位失败被定义为来自系统本身的错误或者是定位精度超过3帧关键帧（其绝对误差大约为10m）。表4展示了每次室外实验的定位成功率。

室外场景对算法的要求比室内场景更高。在前5种室外环境中，只有NID-SLAM在第一次观测中就成功生成了地图。尽管加入了额外的曝光补偿，LSD-SLAM只在阴天、黄昏和雪天的场景中的很小一部分能构建地图，而由于雨滴打在镜头上造成的模糊效应的影响，ORB-SLAM2
在雨天场景中未能正确生成地图。在黑暗场景下，则三种算法都无法正确生成地图。

NID-SLAM在室外场景中又一次实现了最鲁棒的相机追踪，其定位精度在前三种场景的混合中，除了以雪天作为第一次观测，黄昏场景作为第二次观测外，都超过了80%。而在其他场景中，NID-SLAM的定位精度比其他算法高10%。ORB-SLAM在某些场景中实现了惊人的100%的定位，但在大部分困难场景中，其追踪精度只有可怜的0.1%。同时，LSD-SLAM又一次垫底，不过这也是意料之中的事，毕竟像素误差法基本只适用于静态场景，对于外观和光照变化的动态场景，它也很绝望啊。

3.4. 算法缺陷

和ORB-SLAM2与LSD-SLAM相比，NID-SLAM在外观变化的场景中的确提供了更鲁棒和精确的追踪和建图精度。然而该算法也不是十全十美的。NID度量受深度误差的影响较大，因此其需要相对精确的深度初值。当前我们使用像素误差法来计算首帧关键帧的初始化追踪和深度图的更新，该方法能为后续的数处理提供很好的深度初值。如节3.3所述，在室外黑暗场景下，由于黑暗、亮度噪声、光照剧烈变化和运动模糊的共同作用，三种算法都无法在第一次观测时就成功的构建地图，因为即使是NID度量也无法有效的hold住这些最具挑战性的极限场景。

利用FAB-MAP实现的回环检测对场景的外表的变化有一定的抵抗能力，只要我们预先将其在合适的场景中进行训练。然而，正如[12]所指出的那样，在外观变化太大时，即使是描述子匹配也无能为力。我们希望通过引入基于互信息的方法或者卷积神经网络来解决该问题。

最后需要指出的是，由于使用了稠密的全局度量，NID-SLAM的计算复杂度比ORB-SLAM2和LSD-SLAM都要高。我们利用OPENGL实现的NID-SLAM在桌面级的GPU上能跑到10帧每秒（这已经能够用于机器人和自动导航应用了）；我们希望在未来出现的嵌入式图形处理器上NID-SLAM也能达到相似的表现。

4. 结论

在本文中，我们提出了一种基于归一化信息距离的鲁棒的单目SLAM算法，称之为NID-SLAM。与已有的特征点法和直接像素误差法不同的是，NID-SLAM使用全局信息度量来求解关键帧相对于深度地图的相机位姿，该方法在即使是光照剧烈变化的场景中也能正常运行。我们总结了本文中的三个主要创新点：(1)基于NID的追踪方法将深度信息的不确定度融入位姿估计的优化方程中；(2)基于NID的多分辨率金字塔追踪增加了位姿估计收敛的能力；(3)基于NID的深度图更新，该方法能在长时间外观变化的场景中实现深度图的维护和更新。本文的算法能得到比经典的特征点法和直接法更高的追踪和建图精度，并且在外观变化的室内和室外场景中精度比传统方法要高得多。我们希望NID-SLAM能为那些需要鲁棒和高精度视觉SLAM算法的AR/VR以及机器人应用创造新的契机。

参考文献

[1] H. Alismail, M. Kaess, B. Browning, and S. Lucey. Direct visual odometry in low light using binary descriptors. IEEE Robotics and Automation Letters, 2(2):444–451, April 2017.
[2] G. Caron, A. Dame, and E. Marchand. Direct model based visual tracking and pose estimation using mutual information. Image and Vision Computing, 32(1):54–63, 2014. 2
[3] H. Chen, A. S. Lee, M. Swift, and J. C. Tang. 3D Collaboration Method over HoloLens and Skype End Points. In Proceedings of the 3rd International Workshop on Immersive Media Experiences, pages 27–30. ACM, 2015. 1
[4] M. Cummins and P. Newman. FAB-MAP: Probabilistic localization and mapping in the space of appearance. The International Journal of Robotics Research, 27(6):647–665,
2008. 2, 6
[5] A. J. Davison, I. D. Reid, N. D. Molton, and O. Stasse. MonoSLAM: Real-time single camera SLAM. IEEE Transactions on Pattern Analysis and Machine Intelligence, 29(6):1052–1067, 2007. 2
[6] J. Engel, V. Koltun, and D. Cremers. Direct sparse odometry.
arXiv preprint arXiv:1607.02565, 2016. 1, 2
[7] J. Engel, T. Schops, and D. Cremers. LSD-SLAM: Large-scale direct monocular SLAM. In European Conference on Computer Vision, pages 834–849. Springer, 2014. 1, 2, 3, 4, 5, 6
[8] J. Engel, J. Stuckler, and D. Cremers. Large-scale direct slam with stereo cameras. In Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on, pages 1935–1942. IEEE, 2015. 6
[9] M. Faessler, F. Fontana, C. Forster, E. Mueggler, M. Pizzoli, and D. Scaramuzza. Autonomous, vision-based flight and live dense 3D mapping with a quadrotor micro aerial vehicle. Journal of Field Robotics, 1, 2015. 1
[10] C. Forster, M. Pizzoli, and D. Scaramuzza. SVO: Fast semidirect monocular visual odometry. In 2014 IEEE International Conference on Robotics and Automation (ICRA), pages 15–22. IEEE, 2014. 2
[11] A. Geiger, P. Lenz, C. Stiller, and R. Urtasun. Vision meets robotics: The KITTI dataset. The International Journal of Robotics Research, page 0278364913491297, 2013. 6
[12] A. J. Glover, W. P. Maddern, M. J. Milford, and G. F. Wyeth. FAB-MAP+ RatSLAM: Appearance-based SLAM for multiple times of day. In Robotics and Automation (ICRA), 2010 IEEE International Conference on, pages 3507–3512. IEEE, 2010. 2, 8
[13] H. Jin, P. Favaro, and S. Soatto. Real-time 3D motion and structure of point features: a front-end system for visionbased control and interaction. In Computer Vision and Pattern Recognition, 2000. Proceedings. IEEE Conference on, volume 2, pages 778–779. IEEE, 2000. 2
[14] G. Klein and D. Murray. Parallel tracking and mapping for small AR workspaces. In Mixed and Augmented Reality, 2007. ISMAR 2007. 6th IEEE and ACM International Symposium on, pages 225–234. IEEE, 2007. 2
[15] G. Klein and D. Murray. Improving the agility of keyframebased SLAM. In European Conference on Computer Vision, pages 802–815. Springer, 2008. 2
[16] C. Liu, J. Yuen, and A. Torralba. Sift flow: Dense correspondence across scenes and its applications. IEEE Transactions on Pattern Analysis and Machine Intelligence, 33(5):978–994, 2011. 2
[17] D. G. Lowe. Distinctive image features from scale-invariant keypoints. International Journal of Computer Vision, 60(2):91–110, 2004. 2
[18] W. Maddern, G. Pascoe, C. Linegar, and P. Newman. 1 Year, 1000 km: The Oxford RobotCar dataset. The International Journal of Robotics Research, 36(1):3–15, 2017. 6
[19] F. Maes, D. Vandermeulen, and P. Suetens. Medical image registration using mutual information. Proceedings of the IEEE, 91(10):1699–1722, 2003. 2
[20] S. Martull, M. Peris, and K. Fukui. Realistic CG stereo image dataset with ground truth disparity maps. In ICPR Workshop: TrakMark2012, volume 111, pages 117–118, 2012. 6
[21] K. Mikolajczyk and C. Schmid. A performance evaluation of local descriptors. IEEE Transactions on Pattern Analysis and Machine Intelligence, 27(10):1615–1630, 2005. 2
[22] R. Mur-Artal, J. Montiel, and J. D. Tardos. ORB-SLAM: a versatile and accurate monocular SLAM system. IEEE Transactions on Robotics, 31(5):1147–1163, 2015. 2
[23] R. Mur-Artal and J. D. Tardos. ORB-SLAM2: an open-source SLAM system for monocular, stereo and RGB-D cameras. arXiv preprint arXiv:1610.06475, 2016. 6
[24] R. A. Newcombe, S. J. Lovegrove, and A. J. Davison. DTAM: Dense tracking and mapping in real-time. In International Conference on Computer Vision, pages 2320–2327. IEEE, 2011. 1, 2, 4
[25] G. Pandey, J. R. McBride, S. Savarese, and R. M. Eustice. Toward mutual information based place recognition. In 2014 IEEE International Conference on Robotics and Automation (ICRA), pages 3185–3192. IEEE, 2014. 8
[26] G. Pascoe, W. Maddern, and P. Newman. Direct visual localisation and calibration for road vehicles in changing city environments. In Proceedings of the IEEE International Conference on Computer Vision Workshops, pages 9–16, 2015.2
[27] G. Pascoe, W. Maddern, and P. Newman. Robust direct visual localisation using normalised information distance. In British Machine Vision Conference (BMVC), Swansea, Wales, volume 3, page 4, 2015. 2
[28] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski. ORB:An efficient alternative to SIFT or SURF. In International Conference on Computer Vision, pages 2564–2571. IEEE, 2011. 2
[29] D. F. Shanno. On the Broyden-Fletcher-Goldfarb-Shanno method. Journal of Optimization Theory and Applications, 46(1):87–94, 1985. 4
[30] A. Stewart. Localisation using the Appearance of Prior Structure. PhD thesis, University of Oxford, Oxford, United Kingdom, 2014. 2
[31] H. Strasdat, J. Montiel, and A. J. Davison. Scale drift-aware large scale monocular SLAM. Robotics: Science and Systems VI, 2010. 2
[32] J. Stuhmer, S. Gumhold, and D. Cremers. Real-time dense geometry from a handheld camera. In Joint Pattern Recognition Symposium, pages 11–20. Springer, 2010. 1, 2
[33] N. Sunderhauf, S. Shirazi, F. Dayoub, B. Upcroft, and M. Milford. On the performance of convnet features for place recognition. In Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on, pages 4297–4304. IEEE, 2015. 8