【论文笔记】DualBEV: CNN is All You Need in View Transformation

最新推荐文章于 2024-10-06 08:54:13 发布

byzy

最新推荐文章于 2024-10-06 08:54:13 发布

阅读量914

点赞数 11

分类专栏：基于BEV特征表达的自动驾驶视觉感知 # 基于BEV特征表达的摄像机3D目标检测文章标签：论文阅读人工智能自动驾驶深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45657478/article/details/138540533

版权

基于BEV特征表达的自动驾驶视觉感知同时被 2 个专栏收录

14 篇文章 13 订阅

订阅专栏

基于BEV特征表达的摄像机3D目标检测

9 篇文章 2 订阅

订阅专栏

原文链接：https://arxiv.org/abs/2403.05402

1. 引言

有效的BEV目标检测需要PV到BEV的视图变换（VT）。目前的VT分为2D到3D和3D到2D两类，前者通过预测深度概率提升2D特征，但存在深度不确定性；后者则使用3D查询采样2D特征，使用Transformer学习注意力权重建立3D和2D特征的联系，有较高的复杂度。

一些方法整合两种VT，使用两阶段策略，使用LSS的特征初始化Transformer VT。但这会受到初始化特征精度的影响，且复杂度被进一步提高。

本文认为两种VT从不同的角度建立了3D和2D的关系。本文提出统一的特征变换（如下图所示），利用2D到3D和3D到2D VT，使用3个概率评估对应关系：（1）BEV概率：最小化BEV空网格的影响；（2）投影概率：考虑多个3D点投影到相同2D位置时，多个对应关系的区分；（3）图像概率：视图变换时排除背景特征。
在这里插入图片描述
本文使用CNN进行3D到2D的VT，引入HeightTrans。该模块基于概率采样，可建立精确的3D-2D关系；还可通过预先计算加速，有利于实时应用。还通过这一特征变换加强LSS，称为Prob-LSS。

组合HeightTrans和Prob-LSS，得到本文方法Dual-BEV，一种单阶段方法。此外，本文提出鲁棒的BEV融合模块，称为双重特征融合（DFF）。该模块使用通道注意力加强双BEV特征，并利用空间注意力细化BEV概率预测。Dual-BEV利用双视图概率对应关系，理解和表达场景的概率分布。

本文方法在没有使用Transformer的情况下达到了SotA水平。

3. 方法

在这里插入图片描述
Dual-BEV先使用图像主干提取 $N$ 视图图像特征 $I\in\mathbb R^{N\times C_I\times H_I\times W_I}$ ，然后使用SceneNet（结构与DepthNet类似）提取实例掩膜 $M\in\mathbb R^{N\times C_M\times H_I\times W_I}$ 和深度图 $D\in\mathbb R^{N\times C_D\times H_I\times W_I}$ 。BCE损失用于监督实例掩膜和深度。

HeightTrans模块使用概率采样获取图像特征，同时Prob-LSS分支使用深度预测提升带实例分割的图像。来自这两个分支的特征被送入DFF模块进行融合和BEV概率预测。最后，BEV概率 $P\in\mathbb R^{1\times H_F\times W_F}$ 被用于融合特征，得到最终的BEV特征 $F\in\mathbb R^{C_F\times H_F\times W_F}$ 。

3.1 HeightTrans

本文在预定义的BEV图下采样3D点集，并求和每个BEV网格内的点得到BEV特征。

BEV高度。不同高度编码了不同的3D空间信息，本文使用多分辨率采样策略，在感兴趣的高度范围内使用高分辨率采样，余下的范围使用低分辨率采样。这样，可以增强对小物体的关注。

概率采样。给定预定义的3D采样点 $p_{3d}=(x,y,z)\in\mathbb R^3$ ，后续任务包括获取特征和加权对应关系。已知相机内参 $K$ 和外参 $T$ ，可将采样点投影到图像上得到 $p_{2d}=d\cdot(u,v,1)$ ，其中 $d$ 为深度：
$p_{2d}=K\cdot T\cdot p_{3d}$

直接的方法是，使用双线性采样 $\mathcal G_{2d}$ ，在图像特征 $I$ 的投影位置 $p_{2d}$ 处获取3D特征 $F_{ht}$ ：
$F_{ht}(p_{3d})=\mathcal G_{2d}(I,p_{2d})$

但投影位置可能是背景像素，会误导检测。本文使用实例掩膜 $M$ ，表达图像概率 $P_{img}$ ：
$F_{ht}(p_{3d})=\mathcal G_{2d}(M\cdot I,p_{2d})$

为区分投影到同一2D位置的多个3D点，本文使用来自对深度 $D$ 进行三线性采样的投影概率 $P_{proj}$ ：
$F_{ht}(p_{3d})=\mathcal G_{3d}(D,p_{2d})\cdot\mathcal G_{2d}(M\cdot I,p_{2d})$

最后，为处理空的BEV网格，引入BEV概率 $P_{BEV}$ 表达BEV网格被占用的概率：
$F_{ht}(p_{3d})=P_{bev}(x,y)\cdot\mathcal G_{3d}(D,p_{2d})\cdot\mathcal G_{2d}(M\cdot I,p_{2d})$

加速。本文通过建立查找表，将双线性/三线性采样替换为舍入函数。上式简化为：
$F_{ht}(x,y,z)=P_{bev}(x,y)\cdot D(u,v,d)\cdot M(u,v)\cdot I(u,v)$

然后，可求和每个BEV网格内 $N_z$ 个预定义的点对应的 $N_c$ 个图像特征，得到最终的HeightTrans输出特征：
$F_{ht}(x,y)=P_{bev}(x,y)\cdot\sum_{i=1}^{N_z}\sum_{j=1}^{N_c}D(u_{ij},v_{ij},d_{ij})\cdot M(u_{ij},v_{ij})\cdot I(u_{ij},v_{ij})$

该式与BEVPooling类似，因此本文可计算3D点在特征图和深度图内的索引，形成查找表，在推断时加速。

3.2 Prob-LSS

本文将BEV概率引入LSS流程，称为Prob-LSS，其公式类似前式：
$F_{lss}(x,y)=P_{bev}(x,y)\cdot\sum_{i=1}^{N_d}D(u_k,v_k,d_k)\cdot M(u_k,v_k)\cdot I(u_k,v_k)$

其中 $N_d$ 为BEV网格在 $(x, y)$ 处的投影点数量。与HeightTrans相比，该点数为不固定的，因此LSS与HeightTrans互补。

3.3 双特征融合

观察HeightTrans和Prob-LSS的公式可知，BEV概率可在融合后获取。本文提出双特征融合（DFF）模块，融合特征并预测BEV概率。DFF模块含有融合模块 $f$ 、使用通道注意力预测求和权重；还含有空间注意力增强的ProbNet（SAE-ProbNet）预测BEV概率 $P$ ：
$F(x,y)=P(x,y)\cdot f(F_{lss}(x,y),F_{ht}(x,y))$
在这里插入图片描述
融合模块：可视化表明， $F_{lss}$ 关注占用多数图像像素的近距离物体，而 $F_{ht}$ 关注遥远物体的信息。这表明，在多阶段VT中，使用LSS初始化的特征无法指导二阶段VT遥远区域的特征提取。

本文将双特征拼接并输入通道注意力融合（CAF）模块，预测特征选择的亲和度：
$F_{channel}=f(F_{lss},F_{ht})=C(F_{lss}\ominus F_{ht})\cdot F_{lss}+(1-C(F_{lss}\ominus F_{ht}))\cdot F_{ht}$

其中 $\ominus$ 为拼接， $C$ 表示CAF模块，这样，可以软性融合两种特征，增强近处和远处的表达。

BEV概率预测：本文使用BEV概率 $P$ 聚合 $F_{channel}$ ，以减小空BEV网格的影响。使用ProbNet提取局部信息（称为局部分支 $P_l$ ），再通过空间注意力模块捕捉全局信息，作为全局分支 $P_g$ 进行增强。
$F_{spatial}=P\cdot F_{channel}=\sigma(P_l(F_{channel})+P_g(F_{channel}))\cdot F_{channel}$