该论文是商汤科技在BEV(Bird’s-Eye View)方面做的一个又快又准的一个baseline,并实现了在车载芯片,GPU,CPU上均可进行部署。并取得了不错的效果。
论文地址:https://arxiv.org/pdf/2301.12511v1.pdf
代码地址:https://github.com/sense-gvt/fast-bev
一、摘要:
近年来,基于鸟瞰(BEV)表示的感知任务受到越来越多的关注,BEV表示有望成为下一代自动驾驶汽车(AV)感知的基础。然而,大多数现有的BEV解决方案要么需要大量资源来执行车载推理,要么性能不佳。本文提出了一个简单而有效的框架,称为Fast-BEV,能够在车载芯片上执行更快的BEV感知。为了实现这一目标,我们首先经验地发现BEV表示法可以足够强大,不需要昂贵的基于变压器的变换和深度表示法。我们的fast -BEV由五个部分组成,我们新颖地提出(1)一种轻量级部署友好的视图转换,可以快速将2D图像特征转换为3D体素空间,(2)一种多尺度图像编码器,利用多尺度信息获得更好的性能,(3)一种高效的BEV编码器,特别设计用于加速车载推断。我们进一步引入了(4)图像和BEV空间的强数据增强策略,以避免过度拟合,(5)利用时间信息的多帧特征融合机制。其中,(1)和(3)使fast - bev能够在车载芯片上进行快速推断和部署,(2),(4)和(5)确保fast - bev具有竞争力的性能。所有这些使得fast - bev成为一种高性能、快速推理速度和部署在自动驾驶车载芯片上的解决方案。通过实验,在2080Ti平台上,我们的R50模型在nuScenes验证集上可以运行52.6 FPS, NDS为47.3%,超过了BEVDepth-R50模型的41.3 FPS和47.5% NDS,以及BEVDet4DR50模型的30.2 FPS和45.7% NDS。我们最大的模型(R101@900x1600)在nuScenes验证集上建立了一个具有竞争力的53.5% NDS。我们进一步在当前流行的车载芯片上开发了一个相当准确和高效的基准。
二、主要网络模型:
其主要提出了5点重要的改进:
1)轻量级视图转换;
2)多尺度图像编码;
3)高效BEV编码;
4)原始图像增强和BEV空间增强;
5)利用时间信息多帧融合。
其中,fast