今天要读论文的是BEVFormer,有人说这是新一代自动驾驶感知融合的基石,有人说是后续Occupancy Network占用网络工作的灵感源泉。我们从题目《通过时空transformer从多摄像头图像中学习BEV表示》来看,这应该是BEV开山之作LSS论文的姊妹篇。
本文以BEVFormer为主,同时介绍改进版BEVFormer v2。
论文和代码地址
论文题目:Learning Bird's-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers
论文地址:https://arxiv.org/abs/2203.17270
代码地址:https://github.com/zhiqi-li/BEVFormer
BEVFormer 是一个纯视觉方案,基本上奠定了当前自动驾驶纯视觉感知基本框架:
- 一个核心:纯视觉;
- 两个策略:将 Attention 应用于时间与空间维度;
- 三个节约:Attention 计算简化,特征映射简化,粗粒度特征空间;
- 框架结构:时间+空间+DeformableAt