深度学习技术在许多计算机视觉应用中取得了惊人的成功。然而,训练深度模型通常需要具有精细注释的大规模数据集。收集和注释大规模数据集是一项艰巨的任务,尤其是在物体检测方面,这是一项具有挑战性的视觉任务。降低成本的一个有前途的解决方案是在弱监督的情况下训练模型,这在模型性能和注释效率之间提供了良好的权衡。本文致力于在两个以对象为中心的应用场景中进行弱监督学习,即一般对象检测和RGB-D显著对象检测。
第一个任务是在图像级弱监督的情况下预测对象的类别及其在给定图像中的位置。首先引入了金字塔型多实例检测网络,以减少局部判别建议区域的暴露,缓解了仅使用图像级注释训练检测器时的局部最优问题。
除了学习仅具有图像级监督的检测器外,还考虑了弱监督对象检测中的两个更实际的场景。通过一个注释良好的对象检测数据集,本文进一步研究了如何使用弱监督将检测器扩展到新的领域或类别。具体来说,提出了一种整体和分层的特征对齐R-CNN,以与检测管道同步执行从粗到细的对齐,并有效地减少监督较弱的不同领域之间的差异。引入了一种循环自训练框架,该框架具有提议的权重调制模块来补偿。