Zigzag Learning for Weakly Supervised Object Detection:论文传送门
这篇CVPR2018的论文《Zigzag Learning for Weakly Supervised Object Detection》针对的是弱监督目标检测任务,和为大众所熟知的目标检测任务相比,弱监督目标检测任务的Ground Truth只包含图像中所有目标的类别信息而没有框的坐标。
解决的问题
目前针对弱监督目标检测任务主流的方法离不开多示例学习或类似思想的方法。
首先介绍一下什么是多示例学习,其实就是要了解两个概念:包(bag)和示例(instance)。包是由多个示例组成的(在图像分类中,一张图像就是一个包,图片分割出来的patches就是示例)。在多示例学习中,包带有类别标签而示例不带有类别标签,最终目的是对新的包或新的示例给出类别预测。包的类别和示例的类别是遵循一定约束规则的:如果一个包里面至少有一个示例是“+”,则该包就为正样本;如果一个包里面所有的示例都是“-”,则该包才为负样本。
多示例学习的优化方式一般为迭代优化(alternative optimization)。假设已经知道了所有样本的标记,通过某种监督学习的方法得到一个分类模型,之后再通过这个模型对每个训练样本进行预测更新它们的标记,循环往复。所以整个优化过程分为两部分:监督学习,标记更新。
然而针对这种优化方式,如果潜在的变量没有被正确初始化将非常容易陷入到局部最优解。这也就是为什么刚开始我训的网络在二分类任务中一直只倾向于一种类别,后来添加的一系列针对初始化的方法在一定程度上缓解了这个问题。这篇文章旨在挖掘可靠的proposal进行模型训练,同时避免陷入局部极小值。
创新点
- 设计一种标准—mean Energy Accumulated Scores(mEAS),用这个标准来衡量图像中目标的定位困难程度并对其进行排序,在训练过程中通过增加目标难度来逐步学习检测器。这样的话,模型可以从较简单的目标开始训练,为之后训练困难目标做准备,从而获得更好的检测效果。
- 在高阶卷积特征图中提出一种masking regularization strategy用来防止初始样本的过拟合。
这张图是Zigzag Detection网络框架图,它使用的主干网络是Fast R-CNN,提取候选区域的方法是Edge boxes,首先用mEAS来估计图像的定位难度,并按照容易到困难的顺序重新组织训练图像,然后在Fast R-CNN框架的卷积特征映射上引入了一种遮掩策略,提高了模型的泛化能力。它被命名为Zigzag Detection Network是因为它的训练过程是交替进行的,首先用简单的训练数据集(即图像、图像类别标签和图像中proposal的位置)初始化检测网络,然后用这个检测网络重新定位图像中所有的proposal,之后循环往复直至所有数据完成训练得到最后的检测模型。其实这个过程和多示例学习的训练过程非常相似,随机初始化示例标签分布,用这个分布训练一个分类器,然后再用这样的分类器重新更新标签分布。