论文学习笔记——RAM

最新推荐文章于 2024-01-08 19:46:45 发布

NortheastSouthwest

最新推荐文章于 2024-01-08 19:46:45 发布

阅读量337

点赞数

分类专栏：论文笔记文章标签：学习人工智能计算机视觉神经网络

本文链接：https://blog.csdn.net/weixin_51264202/article/details/128281033

版权

论文笔记专栏收录该内容

4 篇文章 1 订阅

订阅专栏

文章目录

Combining Events and Frames Using Recurrent Asynchronous Multimodal Networks for Monocular Depth Prediction

Combining Events and Frames Using Recurrent Asynchronous Multimodal Networks for Monocular Depth Prediction

event camera:

将每像素的亮度变化作为一系列异步“事件”进行报告
高时间分辨率、高动态范围和缺乏运动模糊

本文提出RAM网络实现传统相机和事件相机的单目深度估计。传统相机对静止场景捕捉更加完全（低频完整）、事件相机只编码视觉信号的变化部分（高频稀疏），所以作者设计的Recurrent Asynchronous Multimodal (RAM) network兼顾了两者特性，最终功能得到了连续的、稠密的单目深度图。

RAM:

考虑异步性、事件和帧的无规律性
将多个传感器的时间信息结合起来

在这里插入图片描述

Recurrent Asynchronous Multimodal Networks

在这里插入图片描述
我们希望融合来自N个传感器的数据，这些传感器以稳定增加的时间戳 $t_j$ 提供测量。在每个时间戳 $t_j$ 时，传感器 $k_j$ $\in$ {1,2,…,N}提供的测量为 $x_{kj}(t_j)$ ，我们因此要将一系列的测量 ${x_{kj}(t_j)\}_{j=1}^T$ 融合起来。

每个时刻每个传感器的测量进行编码：
$s_{k_j}$ = $E_{k_j}(x_{k_j},\theta_{k_j})$
因为不同传感器提供的测量有不同的形式，因此首先通过对传感器的编码器 $E_{k_j}$ ，将这一系列的测量映射到一系列中间特征 $s_{k_j}$ （green）。

其中 $\theta$ 是RAM网络的参数。
本文在编码器的不同scale中提取中间特征。
提取到的中间特征 $s_{k_j}$ 有以下性质：①从不同传感器提取到的特征可能以任何顺序出现在序列中（异步）；②特征之间的时间间隔随时间会发生变化（data rates会变化）。

将j时刻得到的测量与j-1时刻的变量进行融合：
$\Sigma_j=h_{k_j}(\Sigma_{j-1},s_{k_j},\theta)$
为保证正确融合特征，将传感器 $k_j$ 得到的特征 $s_{k_j}$ 通过传感器特定状态组合器 $h_{k_j}$ ，更新 $t_{j-1}$ 时刻的潜在的变量 $\Sigma_{j-1}$ 。

使用convGRU来将状态结合起来。
在每个传感器的每个scale都有。
更新方程：
f、g : 单个卷积+sigmoid ; $\phi$ : 卷积+tanh
从不同传感器中首先映射到合适的空间以便于和 $\sum_j$ 进行融合，之后状态组合器被顺序地应用，当某个传感器的测量可得的时候进行改变。
因此可以产生一系列 $\{\Sigma_j\}_{j=1}^T$

在每个时间点 $t_j$ 时将 $Σ_j$ 通过解码器 $\Gamma$ 解码，得到 $y_j$
$y_j = \Gamma (Σ_j, θ)$

Network Architecture for Monocular Depth Estimation

在每个scale上，使用skip connection作为中间特征 $s_{k_j}$
通过ConvGRU层将 $s_{k_j}$ 与 $\Sigma_{j-1}$ 结合得到 $\Sigma_{j}$
lowest scale的 $\Sigma_{j}$ 直接通过残差块（grey），之后通过3个decoder
注意decoder层的input，因为skip connection
每个encoder包括一个下采样的卷积：kernel size=5, stride=2
残差块由2个卷积层组成：kernel size=3
decoder使用双线性插值（bilinear)上采样，之后通过kernel size=5的卷积层
所有层后都跟随ReLU激活函数

Event Generation Model

Event相机包括独立的像素u，这个像素对log brightness signal L(u, t)作出反应。如果和上一个event相比，log brightness的变化超过阈值C，在像素点 $u=(x_k, y_k)^T$ 一个新的event $e_k = (x_k, y_k, t_k, p_k)$ 会被触发。其中 $p_k \in \{−1, +1\}$ , 具体取值决定于亮度变化的方向。故一个polarity为 $p_k$ 的事件在像素点 $u_k$ ，时间 $t_k$ 被触发 $\iff$ $ΔL(u_k, t_k) = p_k (L(u_k, t_k) − L(u_k, t_k − Δt_k)) ≥ C$

Event Representation

events被转换为固定大小的tenser。
在时间 $ΔT =t_{N−1} − t_0$ 中的输入events $\varepsilon =\{e_i\}_{i=0}^{N-1}$ 被转换为voxel grid: dimensions：H × W，以及B个temporal bins（给定固定数量的 bin B，原始事件序列被分成 B 个连续的窗口

实验中设置B＝５

Depth Representation

将深度矩阵 $\hat{D}_{m,k}$ 转换到归一化的log depth map $\hat{D}_{k}$
log depth计算：
EventScape: $\alpha$ =5.7， $D_{max}$ =1000 m
MVSEC: $\alpha$ =3.7， $D_{max}$ =80 m

Training

全监督
损失函数：结合scale-invariant loss和multi-scale scale-invariant
gradient matching loss
（1）scale-invariant loss：

其中n是有有效ground truth的像素点的个数
（2）multi-scale scale-invariant gradient matching loss：

s表示scale
（3）对序列长度为L的总损失：

$\lambda$ =0.25。
输入数据归一化，并随机裁剪为224*224，并进行随机水平翻转
voxel grid中的非零条目归一化