【论文速递】CVPR2018 - 用于野外目标检测的域自适应Faster R-CNN
【论文原文】:Domain Adaptive Faster R-CNN for Object Detection in the Wild
【作者信息】:Yuhua Chen; Wen Li; Christos Sakaridis; Dengxin Dai; Luc Van Gool
获取地址:http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_Domain_Adaptive_Faster_CVPR_2018_paper.pdf
博主关键词: 目标检测、域自适应
推荐相关论文:
无
摘要:
目标检测假定训练和测试数据来自同一个分布,但是在实际中这通常是不成立的。这种分布的错误匹配将会导致性能明显下降。在这项工作中,我们旨在提升目标检测的跨域鲁棒性。我们在两个层面上解决域偏移问题:(1) 图像级偏移,例如图像的风格、亮度等。(2) 实例级偏移,例如目标的外观、大小等。我们基于最近的最先进的目标检测器Faster R-CNN来构建我们的方法,并在图像级别和实例级别设计了两个域自适应组件,以减少域偏移。这两个域域适组件基于H-发散理论,并通过以对抗训练方式学习领域分类器来实现。通过一致性正则化进一步加强了不同级别的域分类器,以学习Faster R-CNN模型中的域不变区域建议网络(RPN)。我们使用多个数据集评估我们新提出的方法,包括Cityscapes,KITTI,SIM10K等。结果表明,我们提出的方法在各种域移位场景中具有鲁棒目标检测的有效性。
关键词 - Faster R-CNN,RPN,域偏移。
简介:
目标检测是计算机视觉中的一个基本问题。它旨在识别和定位图像中某些类别的所有目标实例。在深度卷积网络(CNN)激增的推动下[32],已经提出了许多基于CNN的对象检测方法,大大提高了性能[21,51,20,8,19,39]。
虽然在基准数据集上已经取得了出色的性能[12,37],但现实世界中的目标检测仍然面临来自视点、物体外观、背景、照明、图像质量等巨大差异的挑战,这可能会导致训练和测试数据之间的相当大的域偏移。以自动驾驶为例,特定汽车中使用的摄像头类型和设置可能与用于收集训练数据的摄像头类型和设置不同,并且汽车可能位于物体外观不同的城市。此外,自动驾驶系统有望在不同的天气条件下(例如雨雾)可靠地工作,而训练数据通常在能见度更好的干燥天气下收集。由于视觉与现实的不匹配,最近使用合成数据训练深度CNN模型的趋势提出了类似的挑战。图1显示了几个专注于自动驾驶的数据集,我们可以观察到相当大的域偏移。
这种域偏移已被证实会导致性能显著下降[23]。尽管收集更多训练数据可能会减轻域偏移的影响,但这并非易事,因为注释边界框是一个昂贵且耗时的过程。因此,非常需要开发算法让目标检测模型适应视觉中与训练域不同的新领域。
在本文中,我们解决了这个跨域目标检测问题。我们考虑无监督域适应场景:在源域中给出完全监督,而在目标域中没有监督可用。因此,目标域中改进的目标检测应该在不增加注释成本的情况下实现。
我们基于最先进的Faster R-CNN模型[48]构建了一个端到端的深度学习模型,称为Domain Adaptive Faster R-CNN。基于协变量移位假设,域移位可能发生在图像级别(例如,图像比例、图像样式、照明等)和实例级别(例如,对象外观、大小等)上,这激励我们最小化两个级别的域差异。为了解决域偏移问题,我们将图像级别和实例级别的两个域适应组件合并到Faster R-CNN模型中,以最小化两个域之间的Hdivergence。在每个组件中,我们训练一个领域分类器,并采用对抗训练策略来学习领域不变的鲁棒特征。我们进一步整合了不同级别的域分类器之间的一致性正则化,以学习Faster RCNN模型中的域不变区域建议网络(RPN)。
这项工作的贡献可以总结如下:(1)我们从概率的角度对跨域目标检测的域偏移问题进行了理论分析。(2)我们设计了两个域自适应组件来缓解图像和实例级别的域差异。(3)我们进一步提出了一致性正则化,以使RPN是域不变的。(4)我们将提出的组件集成到Faster R-CNN模型中,并且生成的系统可以以端到端的方式进行训练。
我们进行了广泛的实验,使用多个数据集(包括Citylooks [5],KITTI [17],SIM 10k [30]等)来评估我们的Domain Adaptive Faster R-CNN。实验结果清楚地证明了我们提出的方法在具有域差异的多个场景下解决目标检测的域偏移的有效性。