Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer（GKT）论文

byzy

已于 2022-08-11 20:50:31 修改

阅读量1.2k

点赞数

分类专栏：基于BEV特征表达的自动驾驶视觉感知

于 2022-08-09 23:25:06 首次发布

本文链接：https://blog.csdn.net/weixin_45657478/article/details/126237496

版权

基于BEV特征表达的自动驾驶视觉感知专栏收录该内容

14 篇文章 13 订阅

订阅专栏

Efficient and Robust 2D-to-BEV Representation Learning via Geometry-guided Kernel Transformer 论文笔记

原文链接：https://arxiv.org/abs/2206.04584

1.引言

根据将图像特征转换到BEV特征时是否显式地使用几何信息，目前的方法可分为基于几何的逐点变换和无需几何的全局变换。

前者（左图）使用相机校准后的内外参来建立图像像素到BEV网格的对应关系。但该方法依赖过多校准数据，实际中相机可能偏移校准位置，导致对应关系不稳定；此外，往往需要复杂而耗时的操作如密集的深度分布估计、特征沿射线传播到BEV空间等等。

后者（右图）拉长图像特征，每个BEV网格与所有图像特征进行交互。该方法视图转换不需要几何先验，因此对相机偏移不敏感。但该方法计算复杂度与图像像素数正相关，存在效率和分辨率的矛盾；由于无几何先验指导，模型需要从所有视图中挖掘有判别力的信息，使得收敛困难。

本文提出几何指导的核Transformer（GKT），使用相机参数作为指导而不过多地依赖。发生相机偏移时，相应的核区域也会移动，但也能覆盖目标，使得该方法对相机偏移不敏感。核区域的注意力权重根据偏移动态生成。

GKT使用查找表索引，摆脱了逐点变换中的2D-3D映射操作，提高运行效率。与全局变换相比，GKT无需全局交互，仅关注由几何指导的核区域，有更快的运行速度和收敛速度。因此GKT平衡了逐点变换与全局变换。

2.方法

2.1 几何指导的核Transformer

上图为GKT的框架。其中多视图图像通过共享的CNN主干提取多尺度特征。BEV空间的每个网格对应一个3D坐标 $P_i=(x_i,y_i.z)$ 和一个查询嵌入 $q_i$ ，其中 $z$ 是所有网格共享的预定义高度。将Pi通过相机内外参粗略地投影到图像坐标并取整，用于指导transformer关注相应区域：

$Q_i^{sv}=K^{sv}\cdot Rt^{sv}\cdot P^{sv}_i;\;\; \; \bar{Q}_i^{sv}=\texttt{round}(Q^{sv}_i)$

其中 $s$ 索引特征尺度， $v$ 索引视图。

然后在 $\bar{Q}^{sv}_i$ 附近考虑 $K_h\times K_w$ 的核区域，每个查询 $q_i$ 与每个视图、每个尺度的相应核区域内所有特征交互（超出图像范围的部分特征设为0）。

2.2 对相机偏移的鲁棒性

将相机偏移分解为旋转偏移和平移偏移。其中平移偏移为

$T_{devi}=\begin{bmatrix} 1 & 0 & 0 & \Delta x\\ 0 & 1 & 0 & \Delta y\\ 0 & 0 & 1 & \Delta z\\ 0 & 0 & 0 & 1 \end{bmatrix}$

旋转偏移为

$R_{devi}=R_{\theta_x}\cdot R_{\theta_y}\cdot R_{\theta_z}$

其中

$R_{\theta_x}=\begin{bmatrix} 1 & 0 & 0 & 0\\ 0 & \cos(\theta_x) & \sin(\theta_x) & 0\\ 0 & -\sin(\theta_x) & \cos(\theta_x) & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$

$R_{\theta_y}=\begin{bmatrix} \cos(\theta_y) & 0 & -\sin(\theta_y) & 0\\ 0 & 1 & 0 & 0\\ \sin(\theta_y) & 0 & \cos(\theta_y) & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$

$R_{\theta_z}=\begin{bmatrix} \cos(\theta_z) & \sin(\theta_z) & 0 & 0\\ -\sin(\theta_z) & \cos(\theta_z) & 0 & 0\\ 0 & 0 & 1 & 0\\ 0 & 0 & 0 & 1 \end{bmatrix}$