论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection

最新推荐文章于 2024-04-23 18:06:23 发布

说汉语讲人话

最新推荐文章于 2024-04-23 18:06:23 发布

阅读量933

点赞数 17

文章标签：论文阅读深度学习计算机视觉

本文链接：https://blog.csdn.net/yh1216212882/article/details/135505824

版权

文章目录

前言
一、方法

前言

说在前面：本人是个菜鸡，纯菜鸡，以下我的理解绝对会有错误，欢迎指正共同进步！
文章题目：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection
论文链接：论文
代码链接：代码

一、方法

贡献点
1.提出了一种新颖的方法，自适应禁用视觉模态，实现高效的基于深度学习的VIO。
2.提出一种新颖的策略网络，与姿态估计网络联合训练，学习视觉模态选择策略，以启用或禁用视觉特征。
3.显著减少计算量
总体框架：
在这里插入图片描述
网络结构为：

都很好理解。

1.视觉模态选择策略

通常的端到端VIO直接将图像和IMU信息编码后串联，输入到RNN中进行处理，本文提出一个选择策略，通过当前的IMU信息和上一次的隐藏状态来判断是否使用视觉信息，先通过一个轻量级策略网络输出一个概率：
在这里插入图片描述
（这里的x的符号应该写错了，应该上面i下面t）
其中pt∈R2表示伯努利分布的概率，然后使用Gumbel-Softmax运算对二元决策dt进行采样：

其中dt∈{0,1}，然后判断是否使用视觉信息：

其中⊕表示串联操作。
当dt = 1时，使用视觉特征，视觉特征和惯性特征串联，送入到LSTM中。
当dt = 0时，禁用视觉特征，使用补零操作替换视觉特征，保持输入到LSTM中的唯独相同。

2.Gumbel-Softmax训练

遵循伯努利分布的采样dt本质上是离散的，这使得网络不可微。因此，通过反向传播训练策略网络并非易事，
Gumbel-Softmax本质上是分类分布的重新参数化技巧。
当k = 1, …, K 时，第k个类别的概率为pk，在文中进行二元分类，所以K=2，根据Gumbel-Max技巧，遵循目标分布的离散样本^P：
在这里插入图片描述
其中gk=-log(-logUk)是一个标准的Gumbel分布，随机变量Uk是从均匀分布U(0,1)中抽样得到的。
公式理解：最小化伯努利概率和标准Gumbel分布的和，来求得类别K，在网络中用于前向传播，判断是否启用视觉特征。
随后，应用softmax函数，通过可微函数获得实值向量
在这里插入图片描述
其中τ是控制 ̃P的“离散性”的参数。这个公式结果近似梯度，用于反向传播，以训练策略网络。

3.损失函数

位姿均方误差（MSE）：
在这里插入图片描述
其中T是训练的序列长度，vt和φt表示真实平移和旋转向量，α=100平衡旋转和平移的权重。
此外，对每个视觉编码器的使用应用额外的惩罚因子λ，以鼓励禁用视觉特征，计算平均惩罚并将其表示为效率损失：
在这里插入图片描述
最终的损失为：

说汉语讲人话

关注

17
点赞
踩
20

收藏

觉得还不错? 一键收藏
打赏
0
评论
论文笔记：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection

说在前面：本人是个菜鸡，纯菜鸡，以下我的理解绝对会有错误，欢迎指正共同进步！文章题目：Efficient Deep Visual and Inertial Odometry with Adaptive Visual Modality Selection论文代码。
复制链接

扫一扫