PS:–转载自我的知乎
关键词:CVPR2022, LiDAR-camera,Transformer
文章贡献
(1)研究了激光雷达-相机融合的固有难点,并揭示了robust融合的一个关键,即软关联机制(soft-association mechanism,利用cross attention)。
(2)提出了一种新颖的transformer-based LiDAR-camera融合模型用于3D目标检测,该模型以attentive的方式进行细粒度融合,并对图像质量较差情况和传感器未配准的情况出优越的鲁棒性。
(3)为object queries引入了几个简单而有效的调整,以提高图像融合的初始边界框预测的质量。还设计了一个Image Guidance的查询初始化模块来处理在点云中难以检测到的objects。
引言(要解决什么问题)
激光雷达和照相机是自动驾驶中三维目标检测的两个重要传感器。尽管LiDAR-Camera多模态融合方案在这一领域越来越流行,但是对于较差的图像条件(比如说光照条件很差),以及传感器之间配准的情况尚未得到充分研究。现有的方法很容易受到这些因素影响,主要是由于由校准矩阵建立的激光雷达点和图像像素之间的硬关联(hard association,即_利用标定矩阵来建立LiDAR点和image像素的关联_)。
现有的LiDAR-camera方案(现有方法的缺陷)
分为三类:result-level,proposal-level以及point-level
result-level:使用现成的2D检测器来得到3D proposals,然后使用PointNet来进行object定位,如:FPointNet,RoarNet。
proposal-level:在region proposal执行融合(通过在shared proposals中应用RoIPool),如:MV3D,AVOD。
point-level:基于校准矩阵的激光雷达点和图像像素之间的硬关联(hard association),通过point-wise concatenation,用segmentation scores或CNN特征来增加LiDAR特征。
前面两种方法result-level和proposal-level的结果不理想,因为矩形感兴趣区域(RoI)通常包含大量的背景噪声。point-level效果较之前两者已经取得了令人满意的结果,但仍然存在两个问题:(1)结果手图片质量的直接影响;(2)直接将点云投影到image中会造成信息的损失(比如语义信息)并且受到LiDAR-camera之间校准质量的影响。
TransFusion(解决上述问题所提出的方法)
TransFusion的结构如上图所示,(1)上面这个Decoder作用是从点云特征中获取initial bounding boxes,此时的Queries主要是Object Querirs;(2)下面这个Decoder…with SMCA利用attention机制自适应的判定图像中哪一部分的特征更加重要并值得被转移到点云中,促进object queries和有用的image信息;(3)Image Guidance:利用图像queries判断点云中哪一部分是困难样本。
文章方法(重点模块介绍)
Query Initialization
Query Initialization主要涉及两个部分,与之前不同的,主要有两个要求
(1)Input-dependent: 提出了一种基于center heatmap的输入相关初始化策略,具体过程:
定义一个 d 维的LiDAR BEV特征
F
L
∈
R
X
×
Y
×
d
F_{L} \in \mathbb{R}^{X \times Y \times d}
FL∈RX×Y×d,预测的class-specific(回归出所有类别)的heatmap
S
^
∈
R
X
×
Y
×
K
\hat{S} \in \mathbb{R}^{X \times Y \times K}
S^∈RX×Y×K,其中 X × Y 表示 BEV 特征图的尺寸,K 是类别的数量。然后将heatmap视为 X × Y × K 对象候选,并选择所有类别的前 N 个候选对象作为Initial query positions 和 query features。
(2)Category-aware:与图像,BEV平面上的对象都是absolute scale的,在相同类别中具有较小的比例方差。为了能性更好地进行多类检测,通过为每个查询配备Category embedding,使对象查询具有Category-aware的能力。具体实现为:使用每个选定候选对象的类别(例如,属于第 _k _个类别的
S
^
i
j
k
\hat{S}_{i j k}
S^ijk,我们将query特征与通过将one-hot category 线性投影到
R
d
\mathbb{R}^{d}
Rd 的向量而产生的category embedding进行element-wise sum。
LiDAR-Camera Fusion
Image Feature Fetching(图像特征提取)
当一个对象只包含少量的激光雷达点时,point-level fusion的方法的只能获取相同数量的图像特征,浪费了高分辨率图像丰富的语义信息。为了缓解这个问题,直接采用了整个图像的特征
F
C
∈
R
N
v
×
H
×
W
×
d
F_{C} \in \mathbb{R}^{N_{v} \times H \times W \times d}
FC∈RNv×H×W×d,然后利用Transformer中的cross attention,以sparse-to-dense和自适应的方式进行特征融合。
SMCA for Image Feature Fusion
Multi-head attention是一种常用的进行信息交换和在两组输入之间建立soft association的机制,它已被广泛应用于特征匹配任务。为了降低hard association策略带来的对传感器校准和劣质图像特征的敏感性,利用cross-attention建立了激光雷达和图像之间的soft association,使网络能够自适应地确定应该从图像中获取的信息(在哪里的信息和什么样的信息)。具体采用的是Fast convergence of detr with spatially modulated co-attention中所提到的SMCA策略,利用heat map仅对projected 2D center附近的进行交叉注意力进行加权。
Image-Guided Query Initialization
通过以上模块,Trans-Fusion已经可以取得SOTA的效果了,为了进一步对小目标检测的鲁棒性,作者还提出
Image-Guided Query Initialization,对应的是Image Guidance。受到Predicting semantic map representations from images using pyramid occupancy networks启发,将multiview image特征沿 _H _轴折叠,然后将其作为attention mechanism的key-value,LiDAR BEV特征作为Query进行交叉注意力。
结果
nuScences上的结果
Waymo的结果对比
总结
设计了一种有效且鲁棒的基于变换的激光雷达相机3D检测框架,具有软关联机制(soft-association mechanism),以自适应地确定应该从图像中获取的位置和信息。