CurveFormer: 3D Lane Detection by Curve Propagation with CurveQueries and Attention

CurveFormer是一种新的单级Transformer方法,用于直接计算3D车道参数,避免了复杂的BEV转换。通过曲线查询和动态锚点,它在3D车道检测中表现出色,优于基于CNN和Transformer的传统方法。实验验证了其在合成和真实数据集上的优越性能。
摘要由CSDN通过智能技术生成

分享一篇近期新工作CurveFormer,也是中了CVPR2022 Computer Science Computer Vision and Pattern Recognition

三维车道检测是自动驾驶系统的重要组成部分,以往基于CNN和transformer的方法通常先从正面图像生成鸟瞰(bird 's-eye-view, BEV)特征图,然后使用带有BEV特征图的子网络作为输入来预测3D车道。这种方法需要在BEV和正面视图之间进行显式的视图转换,在本文中,我们提出了CurveFormer,这是一种基于单级transformer的方法,可以直接计算3D车道参数,并可以绕过困难的视图转换步骤。实验结果表明,与最先进的方法相比,我们的方法获得了很好的性能。

原文:https://arxiv.org/abs/2209.07989

1.摘要:

提出了CurveFormer,这是一种基于单级transformer的方法,可以直接计算3D车道参数,并可以绕过困难的视图转换步骤。具体地说,我们通过使用曲线查询将三维车道检测描述为一个曲线传播问题。三维车道查询由一个动态有序的锚点集表示。这样,在Transformer解码器中使用曲线表示的查询迭代地细化3D车道检测结果。此外,引入曲线交叉注意模块计算曲线查询与图像特征之间的相似度。此外,还提供了一个上下文采样模块,可以捕获曲线查询的更多相对图像特征,以进一步提高3D车道检测性能。我们在合成数据集和真实数据集上评估了我们的3D车道检测方法,实验结果表明,与最先进的方法相比,我们的方法获得了很好的性能,每个成分的有效性也通过消融研究得到验证。

2.介绍:

车道检测是自动驾驶系统的重要组成部分,在车道保持辅助、车道偏离预警等方面发挥着重要作用。目前大多数车道检测方法都是使用语义分割或线回归对二维图像进行开发。

然而,规划和控制等下游任务更倾向于在3D空间中由曲线参数表示的车道。由于缺乏深度信息和准确的实时摄像机外部参数,从图像平面到BEV视角的投影容易出现误差传播问题。此外,这些方法还存在复杂且耗时的后处理步骤,如聚类和曲线拟合。

为了缓解两阶段方法后处理的缺点,针对端到端三维车道检测任务,提出了基于cnn的方法。3D- lanenet提出了一种基于锚点的三维车道表示方法,通过逆投影映射(IPM)预测摄像机姿态来投影二维特征。

我们提出的CurveFormer,通过Transformer解码器中的曲线交叉注意机制,通过稀疏曲线查询直接提供三维车道参数。

3.算法:

由于缺乏图像深度或BEV地图高度,无法获得与查询完全对应的特征,限制了它们的性能。为了解决上述挑战,我们提出了CurveFormer,一种基于transformer的3D车道检测方法。提出了一组三维动态锚点来交互曲线查询与图像特征。由于三维锚点(x, y, z)具有高度信息,可以利用相机外部参数来获得该点对应的精确图像特征。动态锚点集在Transformer解码器序列中迭代地细化。我们在解码器部分引入了一种新的曲线交叉注意模块,研究曲线查询和动态锚点设置的效果。引入了一个上下文采样单元,从参考特征和查询的组合中预测偏移量,以指导采样偏移量的学习。此外,采用辅助分割分支增强共享CNN主干。

总的来说,我们提出了CurveFormer,一种新的基于transformer的3D车道检测算法,通过将解码器层中的查询制定为动态锚点集,并应用曲线交叉注意模块来计算查询与图像的相似性。引入了一个上下文采样单元,从参考特征和查询的组合中预测偏移量,以指导采样偏移量学习。

3.1

它由三个主要部分组成:(1)共享CNN主干以单一的前视图图像作为输入,并输出多尺度特征图;(2)利用编码器增强多尺度特征映射;(3)利用曲线解码器通过曲线交叉注意传播曲线查询,迭代优化锚点集。最后,利用预测头输出三维车道参数。第i个输出可以表示为Predi = (pi, ystarti, yendi, {ai, bi}Rr=0),其中pi为前景置信度,ystarti和yendi为Y方向上的起点和终点。分别在X-O-Y平面和Y-O-Z平面上用ai和bi表示三维车道的两个多项式,阶为R。

B.共享骨干和变压器编码器骨干接收输入图像,输出多尺度特征图。我们在训练阶段增加了辅助分割分支来增强共享CNN主干。在解码器部分,我们对每个比例尺特征图应用多比例尺可变形自注意模块,实现不同比例尺之间的信息交换。

C.用动态锚点集表示稀疏曲线查询,提供了对矩形对象检测查询的作用的深入分析,它将查询建模为锚框,即D坐标(x,y,w,h)。因此,在交叉注意模块中,它可以同时利用每个锚盒的位置和大小信息。用动态锚点集表示基于transformer的3D车道检测中的查询,这些点在一组固定的Y位置上进行采样。

3.2

我们设计的曲线转换器译码器包含一个多头自注意模块、一个上下文采样模块和一个曲线交叉注意模块。我们在自注意模块中应用了变形注意,它关注参考点周围的一小组关键采样点,而不考虑特征图的空间大小。在可变形的DETR使用一个可学习的线性层通过查询来预测参考点对应的采样位置的偏移量,这些偏移量与图像特征无关。与之不同的是,我们引入了一个上下文采样模块,通过加入更多的相对图像特征来预测采样偏移量。

4.实验

在Apollo 3D Lane合成数据集上与以往方法的比较。CurveFormer在每个场景集上都获得了最佳的F-Score和AP,并有希望实现X/Z误差(m),远近误差表示Y轴上[0m, 40m], [40m, 100m]内的平均偏移量。

我们使用EfficientNet作为骨干,它给出了4个比例的特征图,输入图像的大小被调整为360 × 480,三维空间沿x、y、z轴分别设置为[−30m, 30m] × [3m, 103m] ×[−10m, 10m]。对于曲线表示,我们使用固定的y位置{5,10,15,20,30,40,50,60,80,100}。我们设置系数为α1 = 2, α2 = 5, α3 = 2, α4 = 2。所有实验都是在两组数据集提供的已知相机姿态和固有参数的情况下进行的。我们的网络使用Adam优化器,其基础学习率为2 × 10−4,权重衰减为10−4。所有模型从零开始训练100个epoch,每个gpu批处理大小设置为4。

最后,我们研究了辅助分割分支的效果。实验结果表明,在平衡场景测试集上,辅助分割分支可将F-Score提高0.13,AP提高0.06。

在本文中,我们介绍了CurveFormer,一种基于transformer的三维车道检测方法。它使用动态锚点集来构造查询,并在Transformer解码器中逐层改进它。此外,为了处理更多相关的图像特征,我们提出了一个曲线交叉注意模块和一个上下文采样模块来计算键到图像的相似度。在实验中,我们表明,与基于cnn和基于transformer的方法相比,CurveFormer取得了令人满意的结果。在未来的工作中,我们希望探索基于视频的自动驾驶3D车道检测。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值