论文: https://arxiv.org/pdf/2303.11926
Github: https://github.com/exiawsh/StreamPETR?tab=readme-ov-file
Q: 这篇论文试图解决什么问题?
A: 这篇论文提出了一个名为StreamPETR的长序列建模框架,旨在解决多视角3D对象检测问题。具体来说,它主要关注以下几个方面:
高效的时间建模:论文提出的方法通过对象查询(object queries)在帧之间传递长期历史信息,以此来建模时间信息。与传统的基于鸟瞰图(BEV)或透视图的方法相比,StreamPETR通过稀疏查询设计来提高效率。
在线性能:该框架以在线方式执行,能够实时处理视频流,并进行帧-by-帧的3D预测。这对于自动驾驶等实时应用场景非常重要。
运动建模:为了更好地处理视频中的运动对象,论文引入了一个运动感知层归一化(motion-aware layer normalization),用于隐式编码自车和周围对象的运动。
低计算成本:与单帧基线相比,StreamPETR在保持可忽略的计算成本的同时,实现了显著的性能提升。
多视角3D检测:论文针对的是相机视角下的3D检测任务,这对于降低部署成本和检测道路元素非常关键。
总体而言,StreamPETR旨在通过对象中心的时间建模范式,提高多视角3D对象检测的效率和准确性,同时保持较低的计算成本,使其适用于实时应用,如自动驾驶。
时间建模:
F ~ o u t = φ ( F 2 d , F b e v , F o b j ) \tilde{F}_{out}=\varphi(F_{2d},F_{bev},F_{obj}) F~out=φ(F2d,Fbev,Fobj)
Dense BEV Method:
F ~ b e v t = φ ( F b e v t − k , ⋯ , F b e v t − 1 , F b e v t ) \tilde{F}_{bev}^t=\varphi(F_{bev}^{t-k},\cdots,F_{bev}^{t-1},F_{bev}^t) F~bevt=φ(Fbevt−k,⋯,Fbev