论文笔记:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection


前言

说在前面:本人是个菜鸡,纯菜鸡,以下我的理解绝对会有错误,欢迎指正共同进步!
文章题目:Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection
论文链接:论文
代码链接:代码

一、方法

贡献点
1.提出了一种新颖的方法,自适应禁用视觉模态,实现高效的基于深度学习的VIO。
2.提出一种新颖的策略网络,与姿态估计网络联合训练,学习视觉模态选择策略,以启用或禁用视觉特征。
3.显著减少计算量
总体框架:
在这里插入图片描述
网络结构为:
在这里插入图片描述
都很好理解。

1.视觉模态选择策略

通常的端到端VIO直接将图像和IMU信息编码后串联,输入到RNN中进行处理,本文提出一个选择策略,通过当前的IMU信息和上一次的隐藏状态来判断是否使用视觉信息,先通过一个轻量级策略网络输出一个概率:
在这里插入图片描述
(这里的x的符号应该写错了,应该上面i下面t)
其中pt∈R2表示伯努利分布的概率,然后使用Gumbel-Softmax运算对二元决策dt进行采样:
在这里插入图片描述
其中dt∈{0,1},然后判断是否使用视觉信息:
在这里插入图片描述
其中⊕表示串联操作。
当dt = 1时,使用视觉特征,视觉特征和惯性特征串联,送入到LSTM中。
当dt = 0时,禁用视觉特征,使用补零操作替换视觉特征,保持输入到LSTM中的唯独相同。

2.Gumbel-Softmax训练

遵循伯努利分布的采样dt本质上是离散的,这使得网络不可微。因此,通过反向传播训练策略网络并非易事,
Gumbel-Softmax本质上是分类分布的重新参数化技巧。
当k = 1, …, K 时,第k个类别的概率为pk,在文中进行二元分类,所以K=2,根据Gumbel-Max技巧,遵循目标分布的离散样本^P:
在这里插入图片描述
其中gk=-log(-logUk)是一个标准的Gumbel分布,随机变量Uk是从均匀分布U(0,1)中抽样得到的。
公式理解:最小化伯努利概率和标准Gumbel分布的和,来求得类别K,在网络中用于前向传播,判断是否启用视觉特征。
随后,应用softmax函数,通过可微函数获得实值向量
在这里插入图片描述
其中τ是控制 ̃P的“离散性”的参数。这个公式结果近似梯度,用于反向传播,以训练策略网络。

3.损失函数

位姿均方误差(MSE):
在这里插入图片描述
其中T是训练的序列长度,vt和φt表示真实平移和旋转向量,α=100平衡旋转和平移的权重。
此外,对每个视觉编码器的使用应用额外的惩罚因子λ,以鼓励禁用视觉特征,计算平均惩罚并将其表示为效率损失:
在这里插入图片描述
最终的损失为:
在这里插入图片描述

  • 17
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

说汉语讲人话

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值