arxiv 2017
1.Motivation
本文关注的是weakly supervised localization。
基本流程如上图所示,输入的是只有Image-level的标签,首先要从数据集里面提取一些initial patterns,然后利用这些initial pattern来训练detector。
这其实是一个典型的鸡和蛋的问题:我们要训练一个好的detector,就必须提供discriminative and representative的pattern,但我们要得到这些pattern,就需要我们的detector足够好。所以作者把这个问题归结为两个子问题:
1.1如何选择好的initial pattern
好的initial pattern的representative要求这个pattern经常出现在dataset里面,discriminative要求这个pattern不能出现在不是同一个category的其他图片里面。原来的方法基本采用k-means聚类,但是在高维空间里面,用欧氏距离来衡量patch之间的相似度是不合理的。
1.2如何学习泛化的detector
给定了initial pattern之后,大部分的弱监督学习方法直接训练一个SVM,或者迭代训练SVM(训练SVM<->用训练的SVM找到新的pattern进行训练)
因为一个category的pattern,因为光照,遮挡,视角等问题会有比较大的差别,同时inital pattern也存在不确定性。这种方法容易陷入局部最优,迭代寻找的新的pattern也是和原来的initial pattern差不多像。
2.Contribution
2.1相比传统的MIL方法,将每张positive image用一个instance表示,并且每张positive image的权重一样。作者提出了cls-MIL(confidence loss sparse):每个positive的图片看成member instance的sparse线性组合,同时不同的image权重不一样。
2.2提出了通过spectral clustering的方法来做pattern mining。首先初步选择一些discriminative的pattern,然后对每一个pattern训练一个exemplar-SVM,然后对这些SVM进行spectral clustering。每个类