【WACV 2022】M3DeTR: Multi-representation, Multi-scale, Mutual-relation 3D Object Detection with Transformers
论文简介:
本文提出了一种新的三维目标检测架构,M3DETR,它将不同的点云表示(原始、体素、鸟瞰图)与基于多尺度特征金字塔的不同特征尺度相结合。M3DETR 是第一种使用 Transformer 同时统一多个点云表示、特征尺度以及建模点云之间的相互关系的方法。
作者进行了广泛的消融实验,强调融合不同表示和尺度的好处,并建模的关系。该方法在 KITTI 三维目标检测数据集和 Waymo 开放数据集上取得了最先进的性能。结果表明,M3DETR 显著为 Waymo 开放数据集上所有类的基线提高了 1.48% 的 mAP,并在汽车和自行车类的 KITTI 3D 检测基准上排名第一,在具有单帧点云输入的 Waymo 开放数据集上排名第一。
基本思路:
基于不同网络的三维目标检测方法有两个关键的限制:
- 无效的点云表示:用于处理点云的三种主要技术分别是基于体素、原始点云和鸟瞰图。每种表示都有一个独特的优势,并且已经表明,结合这些表示可以提高检测精度。然而,融合这些表示并不简单。首先,三类神经网络对应的结构是不同的。此外,在应用基于 VoxelNets 和二维卷积神经网络的技术之前,还需要将原始点云转换为体素和像素。这三种神经模型的输入之间的差异可能会导致语义差距。以往的工作倾向于使用特征连接和注意模块来融合多表示特征。然而,不同表示形式的特征之间的相关性尚未得到解决。
- 多尺度特征建模不足:融合多尺度特征图是 2D 检测中一种被广泛使用的技术,在三维目标检测方面,目前的方法倾向于使用多尺度特征金字塔。然而,融合这些多个特征金字塔是很重要的,因为更高的分辨率和更大的感受野是相互冲突的。现有的方法往往采用双线性下采样/上采样