如有错误,恳请指出。
paper:《Multi-View 3D Object Detection Network for Autonomous Driving》
1. 背景
激光雷达可以提供物体的深度信息,而摄像头可以提供物体的细节语义信息,利用Lidar+Image两种模态理应可以获得更好的检测效果。一般来说,基于LIDAR点云的方法通常可以获得更准确的3D位置,而基于图像的方法在2D框评估方面具有更高的准确性,如何有效的利用来自与Lidar和Imgae两种模态获得更好的3d检测效果设计模型结构是MV3D的出发点,并启发于FractalNet和Deeply-Fused Net两个工作进行网络设计。
此外,在Related Work中有些比较有趣的工作,比如利用体素和点云的多视图表示来进行3d物体分类任务,利用图像和深度信息以及光流的组合进行2d行人检测,不过这种利用多模态进行自动驾驶的研究还比较少。
2. 网络结构
网络的大体思路是利用点云的鸟瞰图生成3d候选框,再投影回去图像、点云、鸟瞰图模态上获取区域特征(region feature map),再将这些来自不同模态的区域特征进行深度融合用于后续的分类和边界框回归。结构图如下,下面