近期项目需要对3D点云数据进行数据增强操作,调研了一些点云数据增强的算法,moca是比较经典以及首次在多模态中使用剪切、复制操作的方式去进行数据增强。
Introduction
在无人驾驶的背景下,3D目标检测作为一个至关重要的可视化任务获得了广泛的应用。但是点云数据相对于图像而言,目前的数据集所存在着明显的不足,很多时候我们需要去对数据集进行增强操作,以此去减少过拟合以及提高算法的泛化能力。目前存在的许多点云数据的增强算法都是基于单模态,对于这些基于单模态获得的点云数据而言,存在着一些限制:一个典型的雷达系统只能感知目标的一个有限的范围,而且不能区别具有类似结构的语义类别,比如行人和树(两者的点云结构相似)。
为了解决这个限制,作者利用图像特征作为一个至关重要的补充角色–图像的特征能够提供丰富的语义信息,以此来实现更加精准的检测。
而对于多模态的方法而言,由于必须要维持点云与图像之间的一致性,目前的方法都存在着数据增强不充分的现象(作者通过实验发现多模态使用的增强的种类不够多),导致增强的结果只比单模态强一点或者不如单模态的增强方法。
为了解决这个问题,作者提供了一个名为“多模态转换流”的管道(如下图所示),以确保多模态一致性,以应对丰富的增强数据集。只有当增强可以反转和重放时,才能保持多模态一致性。转换流记录每个增强所使用的转换的参数和顺序。然后,在多模态融合过程中,激光雷达坐标中的任何点都可以通过反转点云变换找到相应的图像像素坐标。
在此基础上,作者提出了MoCa (multi-modalitycut and paste)。需要解决的问题有2个:1.目标遮挡问题;2.点云在不同模态之间的物理真实。
注:单模态与多模态在这里是指数据的来源分别从单个LIDAR相机与其他多个相机。
Methodology
Multi-modality Transformation Flow
如图所示,多模态的转换流记录了点云和图像在数据增强期间所有的变换。为了在融合过程中找到点云和图像像素之间的正确对应关系,需要这种转换流将增强数据转换回来。大多数增强都是可逆的,也就是说,它们包含用于增强数据的正向转换,以及用于将数据转换回原始状态的反向转换。
注意:点云的转换等价于将雷达传感器转换到一个新的坐标,但是这并不影响拍摄的图像照片,因为相机没有转换。
Reverse and Replay
如上图所示,在融合过程中,每个增强的反向变换将按照点云增强的逆顺序(反向)应用于增强点。接下来,我们可以使用数据的校准信息将点安全地投影到图像像素坐标上。然后,投影点在按照相应图像增强(重放)的相同顺序进行前向变换后获得相应的图像特征。
Multi-modality Cut and Paste
当数据受限时,复制和粘贴是一种有效的策略去生成目标和场景的多种结合。
从鸟瞰视图(BEV)中可见的点云块并不保证其相应的图像块在图像域中也可感知。通常,对象可能在图像平面中被遮挡,因此其图像内容仅捕获遮挡对象的特征。盲目剪切和粘贴可能会产生不一致的点云和图像块。
训练前,分别使用地面真实三维边界框和二维遮罩裁剪每个对象及其对应图像面片的点云。在训练期间,MoCa随机采样点云图像面片对,并根据其3D边界框和2D遮罩将其粘贴到原始场景。为了避免由图像块引起的边界伪影,我们使用随机混合来平滑图像块的边界。点云不需要这样的操作,因为数据是稀疏的。
目标遮挡问题的处理
基于图像的剪切粘贴通常会将对象粘贴到图像中的不同位置,而忽略物理合理性。另一方面,点云剪切和粘贴只会避免BEV中的遮挡,因为通常假设对象位于同一地平面上,并且在BEV中很好地分离。由于当前的三维物体检测器通常只从BEV预测边界盒,因此忽略了二维图像中的潜在遮挡。然而,在多模态融合过程中,由于遮挡,被遮挡物体的投影点可能获得遮挡物体的图像特征(如上图中b所示)。这使得图像特征模糊不清,增加了训练特征提取器的难度。因此,不处理2D图像中的遮挡会影响实验验证的整体性能。
MoCa考虑了点云和图像模式的一致性。具体来说,给定一批对象及其点云和相应的图像面片,多模态剪切粘贴首先丢弃BEV中的重叠对象,然后小心地处理2D图像中的遮挡。使用前景交集(IoF)来表示2D图像中对象PI的遮挡程度。
一旦采样对象的IoF大于给定阈值,或者该对象使任何一个原始框的IoF大于给定阈值,采样对象将不会粘贴到当前训练迭代中。原始对象不会被丢弃。
Mixed IoF thresholds.
不用的IoF门限会导致不同的目标数量被粘贴。为了提高模型的鲁棒性和泛化能力,作者提倡使用混合的IoF门限,论文中使用的是(0, 0.3, 0.5, 0.7)。门限会在集合中随机的选取一个门限。