Polar Parametrization for Vision-based Surround-View 3D Detection （PolarDETR）论文笔记

byzy

已于 2022-08-11 20:48:38 修改

阅读量902

点赞数 1

分类专栏：多视图图像3D目标检测

于 2022-08-01 23:03:38 首次发布

本文链接：https://blog.csdn.net/weixin_45657478/article/details/126099316

版权

多视图图像3D目标检测专栏收录该内容

14 篇文章

订阅专栏

PolarDETR是一种新的环视图3D物体检测方法，采用极坐标参数化物体位置，解决了基于图像和笛卡尔参数化的缺点。通过中心-上下文特征聚合和像素射线位置编码，提高了检测性能和收敛性。PolarDETR-T在处理时序图像时进一步增强了速度估计的准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

原文链接：https://arxiv.org/abs/2206.10965

1 引言

目前的物体位置参数化方法主要有两种，即基于图像的参数化和笛卡尔参数化。

基于图像的参数化（左图）：估计物体在图像中的像素索引和深度 $(u,v,d)$ ，再使用相机的内外参将该坐标转移到3D空间。通常用于单目图像。对于环视图像，该方法独立地在每个视角图像中回归边界框位置，然后投影到公共的3D空间。最后使用跨视图后处理如NMS滤除重复检测。

缺点是深度估计误差较大，且多视图方法中相邻视图重叠区域提供的额外信息未被利用；跨视图后处理方法困难而不稳定。

笛卡尔参数化（中图）：通常检测范围为矩形。结合多视图的相关性，联合预测物体的3D坐标。

但该方法也存在问题，如下图所示：设物体 $A_{t_1}$ 和 $A_{t_2}$ 位于不同图像中的相同位置，且有相同图像模式。

（1）由于检测范围为矩形（即只有检测范围内的物体会被标注），训练时仅考虑 $A_{t_1}$ ，而 $A_{t_2}$ 被丢弃（即两个视图没有被同等对待），这对网络的收敛性有不利影响。

（2）该方法忽视了视图对称性。上图产生的两张图像，若用基于图像的参数化，学到的模型仅需要预测相同的位置 $(u,v,d)$ ；而使用笛卡尔参数化学到的模型需要预测不同的3D坐标，无疑会增加模型的复杂度，且优化模型更加困难。

本文提出环视图3D检测transformer（PolarDETR），即使用柱坐标 $(r,\alpha,z)$ （即径向距离、水平角和高度）参数化（称为极参数化；右图）物体位置，并将物体速度参数化为径向速度和切向速度。此外，检测范围、损失函数都是在极坐标下定义的。

PolarDETR能够实现中心-上下文特征聚合，增强目标查询与图像之间的信息交互，并采用像素射线作为位置编码，提供三维空间先验，帮助预测方位角 $\alpha$ 。本文的PolarDETR实现了很好的性能-速度平衡。

3 PolarDETR

3.1 概述

如下图所示。 $K$ 个不同视图的图像首先输入到共享的CNN提取特征，然后使用目标查询来检测物体。每个目标查询编码了相应物体的语义特征和位置信息，然后一系列解码层从环视特征图中聚合特征，迭代地更新目标查询。前馈网络（FFN）基于这些查询，预测类别，以及边界框和速度的极坐标编码。

3.2 极参数化

每个边界框参数被极坐标编码为9元组 $B_{\textup{enc}}=(b_r,b_{\sin\alpha},b_{\cos\alpha},b_z,b_l,b_w,b_h,b_{\sin\theta},b_{\cos\theta})$ ，可根据其估计边界框极坐标参数 $B_{\textup{pred}}=(r,\sin\alpha,\cos\alpha,z,l,w,h,\sin\theta,\cos\theta)$ 。其中

$r=\sigma(b_r)\cdot R_{\max},z=\sigma(b_z)\cdot(Z_{\max}-Z_{\min})+Z_{\min}$

$\sin\alpha=\frac{b_{\sin\alpha}}{\sqrt{b_{\sin\alpha}^2+b_{\cos\alpha}^2}}, \cos\alpha=\frac{b_{\cos\alpha}}{\sqrt{b_{\sin\alpha}^2+b_{\cos\alpha}^2}}$

$l=\exp(b_l),w=\exp(b_w),h=\exp(b_h)$

$\sin\theta=\frac{b_{\sin\theta}}{\sqrt{b_{\sin\theta}^2+b_{\cos\theta}^2}}, \cos\theta=\frac{b_{\cos\theta}}{\sqrt{b_{\sin\theta}^2+b_{\cos\theta}^2}},$

$Z_{\max}$ 和 $Z_{\min}$ 为高度检测范围， $R_{\max}$ 为检测距离最大值； $\sigma$ 是sigmoid函数。水平角和朝向角的回归使用正余弦对 $(\sin(\cdot),\cos(\cdot))$ ，以保证回归空间的连续性。

位置估计的极分解：极参数化将物体位置解耦为径向距离和水平角。距离 $r$ 与物体大小关联，可从图像模式中学习；水平角 $\alpha$ 与像素索引相关联，可从位置编码中学习。

速度估计的极分解：径向速度与物体大小变化率关联，切向速度与物体在图像平面的运动关联。

极参数化显式地建立了图像模式和预测目标的关联，这些显式关联使得检测器能有更好的收敛性和性能。

3.3 解码层

解码层迭代地聚合特征并更新查询。首先使用一个多头自注意力模块（MHSA）来进行查询间的信息交互，然后使用线性层从查询提取物体位置：

$(b_r,b_{\sin\alpha},b_{\cos\alpha},b_z)=\textup{Linear}(\textup{MHSA}(q_i))$

转换为3D坐标 $c_i^{\textup{3D}}=(r,\alpha,z)$ 即可。

中心-上下文特征聚合：聚合环视图特征图的特征。先将3D中心点投影到各图像平面，得到2D中心点：

$c_i^{k}=\textbf{K}^k\cdot \textbf{Rt}^k\cdot c_i^{\textup{3D}}$

其中 $\textbf{K}^k$ 和 $\textbf{Rt}^k$ 分别是由第 $k$ 个相机内参和外参推导的投影矩阵。使用双线性插值从图像特征图中获得这些中心点的特征（如果2D中心位置超出图像范围，则特征设置为0）。

引入上下文特征增强查询和环视图特征的交互来促进定位。基于中心点特征 $f_{c_i^k}$ 和查询嵌入 $q_i$ 预测与中心点的偏移量，生成上下文点的集合 $\{p_i^k\}_{k=1}^K$ ：

$\Delta u_i^k,\Delta v_i^k=\textup{Linear}(\textup{Conact}(f_{c_i^k},q_i)),p_i^k=c_i^k+(\Delta u_i^k,\Delta v_i^k)$

最后使用双线性插值得到上下文点特征。

像素射线：如下图所示，像素射线从光学中心出发经过像素到达3D点，直接建立了像素与点之间的关系，包含了水平角的显式信息。

本文使用像素射线作为额外的位置编码，即对于每个中心点或上下文点，像素射线单位方向向量 $d_{\textup{ray}}$ 作为额外的特征维度与原特征拼接。

查询更新：

$\hat{q}_i=\textup{MLP}(\textup{Concat}(\{f_{c_i^1},\cdots,f_{c_i^K},f_{p_i^1},\cdots,f_{p_i^K}\},d_{\textup{ray}}))+q_i$

更新后的查询嵌入编码了更精确的位置信息，从而使得下一解码层能更好地进行特征聚合。

3.4 感知范围、标签分配和损失函数

感知范围：以自车为中心的圆形区域。

标签分配：先将标注标签转换为极坐标： $B_{\textup{gt}}=(\bar{r},\sin\bar{\alpha},\cos\bar{\alpha},\bar{z},\bar{l},\bar{w},\bar{h},\sin\bar{\theta},\cos\bar{\theta})$ ，然后使用双向匹配方法为真实边界框匹配唯一的预测值。逐对匹配代价如下：