弱监督目标检测算法论文阅读（一）Object Instance Mining for Weakly Supervised Object Detection

最新推荐文章于 2024-08-24 09:19:02 发布

橘子味的苹果

最新推荐文章于 2024-08-24 09:19:02 发布

阅读量3.6k

点赞数 2

文章标签：机器学习 pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/weixin_45997273/article/details/106404882

版权

这是一篇AAAI2020的一篇弱监督目标检测的文章。是商汤科技提出的弱监督目标检测算法。
在这里插入图片描述

摘要

在过去的几年中，仅使用图像级注释的弱监督目标检测（WSOD）引起了越来越多的关注。现有的使用多实例学习的方法很容易落入局部最优值，因为这种机制倾向于从图像中每个类别的最具区别性的对象中学习**（把其他不具备区别性质的示例去掉，只使用有区别性的实例）。因此，这些方法都缺少对象实例（实例数目不够）**，从而降低了WSOD的性能。为了解决这个问题，本文介绍了一种用于弱监督目标检测的端到端对象实例挖掘（OIM）框架。 OIM尝试通过在空间图和外观图上引入信息传播来检测每个图像中存在的所有可能的对象实例，而无需任何附加注释。在迭代学习过程中，可以逐渐检测到来自同一类别的不具有区分性的对象实例，并将其用于训练。另外，我们设计了一个对象实例重新加权损失，以学习每个对象实例的更大部分，从而进一步提高性能。在两个公开可用的数据库VOC 2007和2012上的实验结果证明了该方法的有效性。

Introduction

先前的大多数方法都遵循将多实例学习（MIL）与CNN相结合的框架。该框架通常会挖掘最有置信度的特定类的对象提取框（proposals），以学习基于CNN的分类器，而不管图像中出现的对象实例的数量如何。对于具有来自同一类的多个对象实例的图像，具有较低类特定分数的对象实例，可能被视为背景区域。具有挑战性的VOC数据集中的许多图像包含多个来自同一类的对象实例。例如，在VOC2007 trainval集中，图像级对象标签的数量和带注释的对象实例分别为7,913和15,662，这表示在训练过程中至少7,749个实例未选择。在这种情况下，具有相对有限的比例和外观变化的所选对象实例可能不足以训练具有强大判别力的CNN分类器。此外，可以在训练期间将丢失的实例选择为负样本，这可能进一步降低CNN分类器的判别能力。（主要是有很多置信度低的propoals并没有运用到训练过程中，还有可能置信度非常低的proposal虽然也是属于同一个类别，但认作成了负样本。）

在本文中，提出了端到端物体实例挖掘object instance mining（OIM）框架，以解决WSOD的每个图像中的多个物体实例的问题。 OIM基于两个基本假设：1）最高置信度proposal与其周围高度重叠的proposal应该属于同一类别； 2）同一类别的对象应具有很高的外观相似度。

从而，空间图和外观图被构建并用于挖掘图像中存在的所有可能的对象实例，并将其用于训练。空间图旨在对最高置信度建议与其周围建议之间的空间关系进行建模**（空间图我的理解是：假设一幅图像有2只羊，空间图是对于每一只羊，它身上的proposal的集合，与另外一只羊没有交集），而外观图旨在捕获与最高置信度建议具有高度相似性的所有可能的对象实例（外观图指的是这两只羊具有外观的相似性，也就是两个羊最有置信度的两个proposal没有交集，但是又是同一类别）**。通过将这两个图集成到迭代训练过程中，提出了一种OIM方法，该方法试图仅在图像级监督下准确挖掘每个图像中的所有可能对象实例。通过使用更多的对象实例进行训练，CNN分类器可以具有更强的区分能力和泛化能力。提出的OIM可以进一步防止学习过程陷入局部最优状态，因为每类具有更高相似性的对象都用于训练。图1所示的原始图像和相应的对象图说明，随着迭代次数的增加，可以检测到属于同一类的多个对象实例，并使用所提出的方法进行训练。
在这里插入图片描述

方法提出

在这里插入图片描述

Overall Framework

图2所示的框架的总体架构主要由两部分组成。第一部分是多实例检测器（MID），类似于（Bilen和Vedaldi 2016）中介绍的结构。它使用加权MIL池同时执行区域选择和分类。第二部分是提议(proposed)对象实例挖掘和提议（proposed）实例重加权损失。在训练阶段，我们首先采用MID将区域提案分类为不同的预测类别。然后，将检测输出和proposal特征进行集成，以使用空间图和外观图从每个图像中的同一类中搜索所有可能的对象实例。此外，实例重加权损失旨在学习每个对象的较大部分。从图2可以看出，使用所提出的方法可以准确地检测出属于同一类的多个对象实例。

Object Instance Mining

基于具有大的重叠（空间相似性）的得分最高的proposal和周围的proposal应具有相同的预测类别的假设，从而构建空间图。我们还假定来自同一类的对象应具有相似的外观。根据得分最高的proposal与其他proposal之间的相似性，构建外观图。然后，我们在每个图像中搜索所有可能的对象实例，并将它们用于训练。
给定输入图片 I 的类别C，产生一系列的proposals
在这里插入图片描述他们的置信度得分置信度得分最高的（proposal）Pic 的得分为 xic 。ic为这个中心（核）实例的索引。

中心（核）空间图我们定义为
在这里插入图片描述其中Vsic 代表选择的 proposal 与 pic 重叠的部分大于阈值T。Esic 代表着空间相似度。将选择空间图Gsic中的所有节点，并将其标记为与pic相同的类。

定义所有proposals的特征向量为
在这里插入图片描述他们从全连接层产生。每个向量表示为一个proposal。然后将外观图定义为
其中Va中的每个节点是一个与中心实例具有高度外观相似性的选定proposal，而Ea代表外观相似性。可以使用欧几里德距离，根据中心实例的特征向量和其他proposal（例如pj）来计算这种相似度，
在这里插入图片描述如果 提取框 pj 符合（Dic，j ）小于 α 倍的（Davg）并且 pj 和 pic 并没有重叠，则 pj 将被选为节点进入Ga（**这就相当于把是同一类的，但是不是一个对象的proposal分离开来 **）。Davg使用Gsic中所有节点的平均距离表示中心空间图Gsic的平均类间相似度，可以定义如下
在这里插入图片描述其中pk表示满足上述约束的节点，M表示Gsic中这些节点的数量。 α是通过实验确定的超参数。

我们为外观图Ga中的每个节点构建了空间图Gs，然后将所有这些节点包括在内进行训练。如果没有proposal与中心实例具有高度相似性（就是一张图片只有一种类别的一个物体），则仅采用中心实例和周围的proposal，即空间图Gsic。以这种方式，将使用来自相同类别，具有相似外观和不同姿势的更多实例进行训练。结果，不仅可以检测更多的对象实例，而且可以学习更准确的检测框。

以上的实例分类方法有点像C-MIL中实例分类方法
在这里插入图片描述上图使用OIM探索来自同一类的所有可能的对象实例的过程。（a）-（c）展示了不同时期的空间和外观图，（d）展示了所有检测到的实例。蓝色边框表示检测到的具有最高置信度得分的核心实例。红色边界框表示其他检测到的实例，这些实例与核心实例具有很高的外观相似性。蓝线和红线分别表示空间图和外观图的边缘。（b）中的红色虚线表示外观相似度小于阈值，因此在此阶段不使用对象实例。

Instance Reweighted Loss

除了探索每个图像中所有可能的对象实例外，我们还设计了对象实例重加权损失以学习更准确的检测盒。在迭代学习过程中，基于CNN的分类器易于学习每个对象实例的最有区分度的部分，而不是整个主体，特别是对于非刚性对象而言。我们建议为各个proposal分配不同的proposal权重，以平衡得分最高的proposal的权重和不那么具有区分性的proposal的权重。因此，将检测到每个实例的较大部分。

给定带有标签 Y 的图像和预测标签 Yj =
在这里插入图片描述对于空间图Gs中的第 j个proposal，其中yc，j = 1 或 0 表示是否属于 c 类，而c = 0 表示为背景。

下图等式中3的损失函数与（Tang等人，2017）中的损失相似，其中 wj 是第 j 个proposal的损失权重。在 Gs 中带有类别标签 c 的（ Xsc，j ）是用于训练的proposal，而（ Xsc，ic）是得分最高的中心（核心）proposal。
在这里插入图片描述从等式3式中可以看出。每个空间图中的proposal均贡献相同。因此，在训练期间很难学习每个空间图中得分相对较低的非中心proposal。为了解决这个问题，实例重加权损失函数设计如下：
引入 zsj 来平衡空间图 Gs 中的proposal权重，如等式5中所定义。β 是超参数。
在这里插入图片描述为了引导网络在学习每个图Gs中对象实例的具有较差区分性区域时更加注意，我们使用等式 4 和 5 平衡周围的较差区分性proposal与中心proposal的权重。在反向传播期间，周围proposal的梯度按比例缩放至其原始值的（1 +β），而中心proposal的梯度按比例缩放至其原始值的β。与（Gao et al.2018）中的实现类似，我们也将标准的多类交叉熵损失用于多标签分类，并将其与拟议的实例加权损失结合起来进行训练。

Experiments

数据集和评估指标

遵循先前关于WSOD的最新方法，我们还评估了我们的方法两个数据集，PASCAL VOC2007（Everingham等人，2010） VOC2012（Everingham等人，2015），它们都包含20个对象类别。对于VOC2007，我们在训练集上训练模型（5,011张图像），并在测试集上评估性能（4,952张图像）。对于VOC2012，训练集（11,540张图像）和测试集（10,991张图像）分别用于训练和评估。此外，我们在VOC2012训练集（5,717张图像）上训练模型，并在评估值集（5,823张图像）上进行评估，以进一步验证所提出方法的有效性。在先前的工作之后，我们使用平均精度（mAP）来评估所提出方法的性能。正确的定位（CorLoc）用于评估定位精度。

实施细节

为了进行公平的比较，采用ImageNet数据集上预先训练的VGG16模型（Russakovsky等人，2015年）作为骨干网络来微调CNN分类器。使用 Selective Search生成对象proposal（Uijlings等，2013）。batch size大小设置为2，对于前40K迭代和随后的50K迭代，学习率分别设置为0.001和0.0001。在训练和测试过程中，我们采用五个图像比例{480，576，688，864，1200}以及随机水平翻转进行数据增强。随后，阈值 T 设置为0.5。随着迭代次数的增加，网络具有更稳定的学习能力，我们将前 70K 的超级参数 α 动态设置为 α1= 5，随后的 20K 迭代将 α2= 2。在我们的实验中，根据经验将 β 设置为0.2。我们还在消融实验部分分析了这些参数的影响。保留100个得分最高的区域proposal，并执行IoU为每类0.3的非最大抑制来计算mAP和CorLoc。

Comparison with State-of-the-arts

在这里插入图片描述使用最新的WSOD方法进行比较，以验证所提出方法的有效性。表1显示了VOC2007测试集上按mAP进行的性能比较。与以前的SOTA方法（例如MELM，SDCN等）相比，仅使用OIM即可获得更好或相似的结果。我们将此改进归因于OIM，它可以通过搜索更多来自同一类的对象来提高训练后的CNN的表示能力并雇用他们进行训练。如图1所示，检测到的边界框和客观性图逐渐减少了具有较少区分性的对象的置信度，并且在训练过程中可以检测到更多来自同一类别的对象。进一步证明，将较少歧视的对象集成到训练中可以提高WSOD的性能。使用proposal的实例重加权损失可以实现进一步的性能改善。所提出的方法实现了50.1％的mAP，优于PCL，C-WSL *，SDCN，WSJDS方法等，并且性能类似于C-MIL的结果。我们进一步将学习到的物体用作伪ground-truth，以训练基于Fast-RCNN的检测器，与以前的最新方法相比，我们的方法还可以获得更好或相似的性能。

特别是，仅使用OIM策略，我们的方法就比C-WSL方法高出1.4％，而无需引入额外的按类别计数监督。我们的工作尝试包含每个类中所有可能的对象实例以进行训练，因为许多图像包含一个以上的每个类对象实例。图5说明了两个数据集中的大多数类在一个图像中具有多个对象实例。具体来说，几乎一半的类别在一个图像中包含两个以上的对象实例。特别是对于“绵羊”类（图像中出现的绵羊的平均数量大于3），我们的OIM方法（57.9％mAP）的性能要优于其他所有方法。此外，对于大多数非刚性对象（“猫”，“狗”，“马”，“人”等），如表1所示，通过应用实例重加权损失，可以检测到更准确的对象实例。
在这里插入图片描述 CorLoc还用作评估指标，以确定所提出方法的性能。表2显示了在VOC2007序列集上按CorLoc进行的性能比较。当不使用Fast-RCNN检测器时，我们的结果优于所有现有的最新技术。所提出的OIM框架迭代地探索了更多来自同一类，外观和姿势不同的类的对象实例和更大比例的实例，以进行训练，从而可以更准确地检测box。因此，所提出的方法不仅带来了mAP的改进，而且使检测到的box更加准确，从而获得了更好的CorLoc。
在这里插入图片描述还在VOC2012数据集上评估了所提出的方法。由于某些方法（Gao等人2018）仅使用VOC2012的验证集进行评估，因此我们同时使用test和val集来评估所提出的方法。在表3中，分别提供了基于测试的mAP和valset的检测结果。表4列出了VOC2012训练集上的CorLoc结果。表3和表4中的实验结果验证了该方法的有效性。
在这里插入图片描述图4展示了VOC2007测试仪上的检测结果。成功（IoU≥0.5）和失败（IoU <0.5）检测分别用红色和黄色边界框标记。绿色的边界框是ground-truths。前两行表明我们的方法甚至可以在图像中同时出现来自同一类别的多个对象的情况下检测紧框。 “牛”，“羊”。最后一行显示了一些失败的案例，这些案例通常归因于定位非刚性对象的最具区分性的部分，对多个对象进行分组以及背景混乱，例如 “人类”。
在这里插入图片描述

消融实验

我们进行了消融实验，以说明对象实例挖掘（α）和实例重加权损失（β）中引入的参数的效果。表5指出，当参数α（前70K中使用的α1和随后20K迭代中使用的α2）变小或变大时，所提出方法的性能将下降。如果参数α太小，则将在外观图中选择很少的实例进行训练。结果是，在许多图像中，仅选择最具区别性的对象并将其用于训练。如果参数α太大，则会使用许多错误的实例（背景提议）进行训练，这也会导致性能下降。从表5中也可以看出，对于建议的实例，重加权损失随着β的增加而降低。
在这里插入图片描述我们还仅通过使用外观图（AG）或空间图（SG）来分别评估其效果来研究WSOD性能。表6中的前两列以VOC2007测试集上的mAP表示了实验结果。我们可以看到，仅通过使用外观或空间图就可以显着提高WSOD的性能。
在这里插入图片描述还评估了建议实例重加权损失的有效性。我们在OICR中应用了网络结构，但只是用实例重新加权损失代替了损失。表6显示了使用建议的实例重加权损失（按VOC2007测试集上的mAP表示）所实现的性能。可以看出，仅通过使用mAP可以将mAP从41.2％（Tang等人，2017）提高到43.4％。实例重新加权损失。图6所示的视觉比较还说明，使用建议的损耗可以逐渐检测出较大的物体部分。通过将OIM与实例重新加权损失合并，可以实现最佳性能（mAP 50.1％）。

Conclusion

在本文中，提出了一种端到端对象实例挖掘框架，以解决WSOD现有方法的局限性。使用空间图和外观图执行对象实例挖掘算法，以使网络学习较少歧视性的对象实例。因此，可以相应地检测更多属于同一类别的对象。在不引入任何额外计数信息的情况下，所提出的方法已实现了与许多最新结果相当的改进性能。对象实例重新加权损失旨在通过学习每个图像中目标对象实例的较大部分来进一步帮助OIM。在两个公开可用的数据集上的实验结果表明，与WSOD的最新方法相比，该方法具有竞争性或优越的性能。