【ECCV'24】AugUndo: Scaling Up Augmentations for Monocular Depth Completion and Estimation
1. 摘要
无监督的深度补全和估计方法通过最小化重建误差进行训练。采样、强度饱和和遮挡等数据增强方案的副作用会影响图像重建质量,从而影响训练信号。因此,尽管在其他视觉任务中的训练流程中被视为必不可少,典型的图像增强方法在深度补全中却被限制在较小的图像强度变化和翻转操作。由于稀疏深度模式中的强度变换会改变3D场景的尺度,几何变换在采样过程中可能会破坏稀疏点,因此稀疏深度模式的增强使用更少。我们提出了一种方法,通过逆转或“撤销”几何变换,将输出深度的坐标变换回原始参考框架,从而解锁先前无法实现的大范围几何增强。这样可以使用原始图像和稀疏深度图计算重建损失,消除了在增强输入上进行损失计算的缺陷,并且能够扩展增强以提升性能。我们在室内 (VOID) 和室外 (KITTI) 数据集上验证了我们的方法,并在四个其他数据集上实现了广泛的方法改进和泛化性能。
2. 引言
数据增强对训练机器学习模型至关重要;它在性能和泛化中起着重要作用 [52, 64, 71]。选择增强的一条通用准则是任务输出应该对增强保持不变。例如,图像翻转对动物分类是可行的增强,因为它不会改变标签。然而,翻转路标可能会改变其含义;因此,此类增强对涉及路标识别的任务可能有害。对于几何任务,由于问题设定的限制,增强的范围更加有限:立体视图假设成对的前平行校正图像,因此