Translating Images into Maps 论文笔记

最新推荐文章于 2024-10-10 07:51:18 发布

byzy

最新推荐文章于 2024-10-10 07:51:18 发布

阅读量1.7k

点赞数 3

分类专栏：基于BEV特征表达的自动驾驶视觉感知文章标签：自动驾驶深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/126160536

版权

基于BEV特征表达的自动驾驶视觉感知专栏收录该内容

15 篇文章

订阅专栏

原文链接：https://assets.amazon.science/fa/95/a58d83da4db492cef7edbf299054/translating-images-into-maps.pdf

本文是针对地图分割任务设计的，但理论上也可用于目标检测任务。

I.引言

本文使用transformer，通过学习图像列与BEV极射线的对齐，来将已知相机内参的单目图像转换为BEV语义图。

III.方法

如下图所示，本文端到端学习包含3个子任务：（1）在图像平面建立表达，以编码语义和深度的某些信息；（2）将图像平面表达转换到BEV；（3）对BEV表达进行语义分割。

A.图像到BEV的变换

由于图像的每一列对应BEV下一条极射线（如下图所示；详见此文3.1节），本文将映射视为一组序列到序列的变换。

本文使用注意力机制进行图像列和BEV极射线的对齐，包含平面内注意力（上图；初步分配特征）和极射线自注意力（全局推断沿射线的位置分配）。

平面内注意力：若将上述对齐视为硬分配，即BEV极射线上的每个像素都分配一个图像列上的像素类别，需要像素的深度信息。本文使用软对齐方法，极射线上每个像素都是整个图像列的元素组合，这一操作是通过图像列和BEV极射线之间的软注意力实现的。

设 $h\in\mathbb{R}^{H\times C}$ 是图像列特征序列， $y\in\mathbb{R}^{r\times C}$ 是BEV极射线查询，则先将 $h$ 和 $y$ 的每个元素分别通过线性层得到 $K$ （键值）和 $Q$ （查询）：

$Q(y_i)=y_iW_Q,K(h_i)=h_iW_K$

然后通过点积计算未归一化的对齐分数：

$e_{i,j}=\frac{ \langle Q(y_i),K(h_j)\rangle}{\sqrt{D}}$

使用softmax归一化：

$\alpha_{i,j}=\frac{\exp(e_{i,j})}{\sum_{k=1}^H\exp(e_{i,k})}$

最后以其为权重，加权求和 $K$ ：

$c_i=\sum_{j=1}^H\alpha_{i,j}K(h_j)$

这样，BEV极射线的每个像素独立地从图像列收集相关信息。该方法可看作基于深度分布提升像素，且BEV极射线每个像素得到的图像上下文特征与其到相机的距离解耦。

极射线自注意力：得到极射线上所有像素的上下文特征 $c=\{c_1,\cdots,c_r\}$ 后，由于 $c_i$ 产生时的独立性，特征很可能不含有全局信息，需要再通过非线性函数进一步处理，也就是极射线自注意力。

类似前面的公式，区别在于输入 $h$ 和 $y$ 均是现在的 $c$ 。

扩展为transformer：上述两个注意力均可将最后一个公式中的 $K$ 变为 $V$ （值；由 $h$ 或 $c$ 通过另一个线性层得到），然后应用于transformer中。

B.无限回顾单调注意力

此方法应该是A部分方法的替代。

通常在图像中，图像越上方的位置深度越大。本文通过带有无限回顾的单调注意力（MAIL）来保证这一点。

单调注意力（MA）最初是用于机器翻译任务，属于硬分配方法，后来人们引入无限回顾来避免忽视上下文信息。

该方法的目的是确认像素下面的上下文信息是否比上面的更重要。

首先，使用MA计算硬对齐，即将 $c_i$ 分配给 $h_j$ ；然后使用软性注意力机制处理 $h_1,\cdots,h_{j-1}$ 。具体来说，对于位置 $y_i\in y$ ，从 $j=t_{i-1}$ 开始检索 $h_j$ ，其中 $c_{i-1}=h_{t_{i-1}}$ 。然后产生一个选择概率 $p_{i,j}$ ，表示终止并设置 $t_i=j$ 及 $c_{i}=h_{t_i}$ ，或继续检查 $h_{j+1}$ 的概率。

由于硬分配是不可微的，故根据 $c_i$ 的期望值进行训练：

$p_{i,j}=\textup{sigmoid}(\textup{Energy}(y_i,h_j))$

$\alpha_{i,j}=p_{i,j}\left ( (1-p_{i,j-1})\frac{\alpha_{i,j-1}}{p_{i,j-1}}+\alpha_{i-1,j} \right )$

其中 $\textup{Energy}$ 函数与前面 $e_{i,j}$ 的计算方式相同。

若单调注意力在 $t_i$ 处停止，无限回顾策略对 $k=1,2,\cdots, t_i$ 计算 $e_{i,k}$ ，然后按下式计算允许状态下的注意力分布：

$\beta_{i,j}=\sum_{k=j}^H\left ( \frac{\alpha_{i,k}\exp(e_{i,k})}{\sum_{l=1}^k\exp(e_{i,l})} \right )$

该式表达了图像某像素下方的分布；要计算上方的分布，将图像的列倒转过来类似计算即可。

最后按

$c_i=\sum_{i=1}^H\beta_{i,j}K(h_j)$

计算上下文特征。

C.模型结构

包含CNN主干（提取图像特征）、编码器-解码器transformer（图像特征转化为BEV特征）、分割网络（解码BEV特征为语义图）。

图像平面的2D多尺度特征学习：在BEV重建图像需要能检测不同深度和尺度物体的表达，因此本文使用特征金字塔提取不同尺度 $u$ 下，时间 $t$ 的图像特征图 $f_{t,u}^I\in\mathbb{R}^{C\times h_u\times w_u}$ 。

图像平面的1D transformer编码器：通过自注意力跨输入特征编码长距离垂直依赖性。对每个尺度特征使用一个编码器（其中将 $f_{t,u}^I$ 分割为 $w_u$ 个长为 $h_u$ 的序列），其中每个编码层包含多头注意力和前馈网络，并为每个注意力层的输入加入固定的正弦位置编码。编码器的输出为 $h_{t,u}^I\in\mathbb{R}^{w_u\times h_u\times C}$ 。

BEV平面的1D transformer解码器：该模块沿着极射线生成独立的BEV特征序列。对每个transformer编码器有一个transformer解码器，每个解码器输出 $r_u$ 长度的序列，输入 $r_u$ 个位置嵌入（称为位置查询）。这些嵌入被加入了固定的正弦位置信息。

若使用单调注意力替换软注意力，则在解码器中的注意力头均被换成单调注意力头。

最终尺度 $u$ 的输出为 $f^{\phi(BEV)}_{t,u}\in\mathbb{R}^{w_u\times r_u\times C}$ ，对应 $w_u$ 条极射线。最后将BEV极特征图转化为矩形特征图，得到 $f_{t,u}^{BEV}\in\mathbb{R}^{C\times Z_u\times X_u}$ 。

极自适应上下文分配：前面使用的位置编码均为1D的，这使得transformer能利用图像高度和深度的空间关系，但与另一检测的关键因素极角无关。为解决此问题，本文也在位置编码中加入了极角编码。

BEV平面的轴向注意力动态：该模块整合了过去估计的时间信息，为当前时刻建立时空BEV特征表达。得到多个时间的BEV特征 $f_{1:T,u}^{BEV}\in\mathbb{R}^{T\times C\times Z_u\times X_u}$ 后，沿着时间和空间轴使用轴向注意力，为每个时刻的每个像素提供来自其余时刻的上下文信息。

该模块是可选的。

BEV平面下的分割：使用卷积编码器-解码器的结构，为每个尺度特征 $f_{t,u}^{BEV}\in\mathbb{R}^{C\times Z_u\times X_u}$ 预测一个语义图 $m_{t,u}^{BEV}\in\mathbb{R}^{K\times Z_u\times X_u}$ （其中 $K$ 为类别数）。2D卷积使得前面没有交互的不同极射线特征得到交互，有助于缝合相邻极射线特征的不连续性。