论文阅读——Fast-BEV: A Fast and Strong Bird’s-Eye ViewPerception Baseline

最新推荐文章于 2024-07-18 08:54:07 发布

吴晓Q

最新推荐文章于 2024-07-18 08:54:07 发布

阅读量1.1k

点赞数

文章标签：论文阅读

本文链接：https://blog.csdn.net/weixin_46779338/article/details/128980986

版权

Fast-BEV是一个轻量级的BEV感知框架，设计用于在车载芯片、GPU和CPU上快速部署。该框架包括视图转换、多尺度图像编码、高效的BEV编码、数据增强策略和时间信息的多帧融合。实验显示，Fast-BEV在速度和性能上优于其他同类模型，且在车载芯片上表现出色。

摘要由CSDN通过智能技术生成

该论文是商汤科技在BEV(Bird’s-Eye View)方面做的一个又快又准的一个baseline，并实现了在车载芯片，GPU，CPU上均可进行部署。并取得了不错的效果。

论文地址：https://arxiv.org/pdf/2301.12511v1.pdf

代码地址：https://github.com/sense-gvt/fast-bev

一、摘要：

近年来，基于鸟瞰(BEV)表示的感知任务受到越来越多的关注，BEV表示有望成为下一代自动驾驶汽车(AV)感知的基础。然而，大多数现有的BEV解决方案要么需要大量资源来执行车载推理，要么性能不佳。本文提出了一个简单而有效的框架，称为Fast-BEV，能够在车载芯片上执行更快的BEV感知。为了实现这一目标，我们首先经验地发现BEV表示法可以足够强大，不需要昂贵的基于变压器的变换和深度表示法。我们的fast -BEV由五个部分组成，我们新颖地提出(1)一种轻量级部署友好的视图转换，可以快速将2D图像特征转换为3D体素空间，(2)一种多尺度图像编码器，利用多尺度信息获得更好的性能，(3)一种高效的BEV编码器，特别设计用于加速车载推断。我们进一步引入了(4)图像和BEV空间的强数据增强策略，以避免过度拟合，(5)利用时间信息的多帧特征融合机制。其中，(1)和(3)使fast - bev能够在车载芯片上进行快速推断和部署，(2)，(4)和(5)确保fast - bev具有竞争力的性能。所有这些使得fast - bev成为一种高性能、快速推理速度和部署在自动驾驶车载芯片上的解决方案。通过实验，在2080Ti平台上，我们的R50模型在nuScenes验证集上可以运行52.6 FPS, NDS为47.3%，超过了BEVDepth-R50模型的41.3 FPS和47.5% NDS，以及BEVDet4DR50模型的30.2 FPS和45.7% NDS。我们最大的模型(R101@900x1600)在nuScenes验证集上建立了一个具有竞争力的53.5% NDS。我们进一步在当前流行的车载芯片上开发了一个相当准确和高效的基准。

二、主要网络模型：

其主要提出了5点重要的改进：

1）轻量级视图转换；

2）多尺度图像编码；

3）高效BEV编码；

4）原始图像增强和BEV空间增强；

5）利用时间信息多帧融合。

其中，fast

最低0.47元/天解锁文章

吴晓Q

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
1
评论
论文阅读——Fast-BEV: A Fast and Strong Bird’s-Eye ViewPerception Baseline

考虑到在构建感知系统时，摄像机位置及其内/外参数是固定的，并且该论文的方法不使用依赖数据的depth predicate和Transformer，因此对于每个输入，各个摄像头的投影指数都是相同的。如下图所示，是填充密集体素的鸟瞰图。我们的方案不像基于lift - splash - shoot的改进视图转换方案，其离散深度，然后估计深度，即使加上繁琐的CUDA并行计算，速度也不够快，更不用CPU来进行相应的计算过程，在GPU上的耗时可以忽略不计，在CPU上的速度远远领先于其他方案，部署非常方便。
复制链接

扫一扫