【论文笔记】PolarPoint-BEV: Bird-eye-view Perception in Polar Points for Explainable End-to-end Autonomous Driving
原文链接:https://ieeexplore.ieee.org/document/10418570
I. 引言
端到端自动驾驶以传感器数据为输入,输出路径点或者控制信号。路径点可以输入低级控制器,如PID或模型预测控制。与包含各个模块(定位、感知、规划、控制)的传统方法相比,端到端方法可以避免误差的积累,且对复杂场景的可放缩性更强。但是,端到端方法通常可解释性较差,会导致不可预期的误差或危险。一些方法使用可解释人工智能(XAI)技术,生成交通场景的BEV图进行解释。
但是,传统BEV图有一些缺陷。首先,交通场景中的所有区域都被同等对待,但离自车近的物体对安全更为关键。因此,网络可能关注不重要的区域,而忽视重要信息。其次,像素方式表达相比稀疏表达,会需要更高的计算量、通信量和存储量,从而导致延迟。
本文提出BEV感知方法PolarPoint-BEV。使用极点BEV图,可以更关注自车附近的区域;此外,其为稀疏表达。为检验其可解释性和驾驶性能,本文提出端到端自动驾驶网络XPlan,同时预测控制指令和极点BEV图。
III. 提出的方法
A. PolarPoint-BEV
本文的极点BEV图与传统BEV图如上图所示。传统BEV图使用沿坐标轴均匀分布的矩形网格表达场景,极点BEV图则使用自车附近点的序列来表达。极点BEV图上的每个点都有语义标签,表示背景(橙色, { 0 } \{0\} {
0})、汽车(红色, { 1 } \{1\} {
1})和道路(绿色, { 2 } \{2\} {
2})。
极点BEV图上的点由极坐标表达,角度范围由前视相机的视野决定。可将该角度范围分割为若干子部分。径向方向被分为16层。因此,极点BEV图可表达为 P i ∈ { 0 , 1 , 2 } 16 × n P_i\in\{0,1,2\}^{16\times n} Pi∈{ 0,1,2}16×n。
将半径方向的16层分为4个区域,每个区域有不同的层间距,层间距随着区域离自车的距离增大而增大。因此,点的密度会随着离自车距离的增大而减小。这样,极点BEV图表达可使得模型更加关注离自车更近的区域。
B. 网络结构
如上图所示为XPlan的结构,包含3个组件:编码器、控制预测(CP)模块以及极点(PP)模块。网络以前视图像 I i ∈ R h × w × c I_i\in\mathbb{R}^{h\times w\times c} Ii∈R