Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector论文解读

摘要

介绍

  • 作者认为在新颖类上检测效果不好主要是由于在RPN分类中可能会错过新颖类的实例框(我的理解是新颖类的框置信度偏低,容易识别为背景类导致删除)
  • 另外,最近的工作需要在新颖类上进行微调,不能直接用于新颖类。
  • 作者的第一个贡献,提出一个不需要再训练或者微调的小样本检测通用模型,包含了对比学习策略,注意力RPN,多关系检测器,并且在ImageNet Detection和MS COCO两个数据集上都取得了SOTA的效果
  • 作者的第二个贡献,提出一个1000类的小样本检测数据集,该数据集每个类都只有几个样本,专门为小样本检测服务。

相关工作

不做详细介绍,以下为谷歌翻译,如果感兴趣可以去读原论文

  • 一般对象检测。目标检测是计算机视觉中的一个经典问题。在早期,目标检测通常被表述为使用手工特征的滑动窗口分类问题[14,15,16]。随着深度学习[17]的兴起,基于cnn的方法已经成为主流的目标检测解决方案。大多数方法可以进一步分为两大类:无提案检测器和基于提案检测器。第一行工作遵循一阶段培训策略,并不明确生成提案框[18,19,20,21,22]。另一方面,由RCNN[23]首创的第二行,首先从给定的图像中提取潜在物体的类别无关的区域建议。然后这些盒子被进一步细化,并根据特定的模块分为不同的类别[24,25,26,27]。该方法的一个优点是可以通过RPN模块过滤掉很多的负位置,从而方便了探测器的下一步任务。因此,基于rpn的方法通常比无提议的方法执行得更好,最先进的检测任务结果为[27]。然而,上述方法的工作方式是在密集的监督方式,很难扩展到新的类别,只有几个例子。
  • Few-shot学习。对于传统的机器学习算法来说,从几个训练例子中学习是一个挑战。早期的作品试图学习一般的先验[29,30,31,32,33],例如可以跨类别共享的手工设计的笔画或部分。一些著作[1,34,35,36]关注在手工设计不同类别之间的距离公式时的度量学习。最近的趋势是设计一个总代理/策略,可以在每个任务中指导监督学习;通过积累知识,该网络可以捕获不同任务之间的结构变化。该研究方向一般称为元学习[2,5,37,38,39]。在这方面,在[37]中提出了一个连体网络,该网络由两个共享权值的网络组成,每个网络分别提供一个支持图像和一个查询。查询与其支持之间的距离可以通过逻辑回归自然地了解到。这种匹配策略捕获支持和查询之间的内在差异,而不考虑它们的类别。在匹配框架领域,后续的研究[3,4,6,8,10,40]关注的是增强特征嵌入,其中一个方向是构建内存模块来捕获支持之间的全局上下文。许多著作[41,42]利用局部描述符从有限的数据中获取额外的知识。在[43,44]中,作者引入了图神经网络(Graph Neural Network, GNN)来建模不同类别之间的关系。在[45]中,遍历给定的整个支持集,以识别与任务相关的特征,使高维空间中的度量学习更加有效。其他作品如[2,46]则致力于学习总代理来指导参数优化。
  • 到目前为止,少镜头学习还没有取得突破性进展,主要集中在分类任务上,很少研究其他重要的计算机视觉任务,如语义分割[47,48,49]、人体运动预测[50]和物体检测[9]。在[51]中,使用无标记数据,并在无框图像上交替优化多个模块。但是,这种方法在监管薄弱的情况下可能会被不正确的检测所误导,需要重新培训以适应新的类别。在LSTD[9]中,作者提出了一种新的少镜头目标检测框架,该框架通过最小化源域和目标域的后验概率分类差距,将知识从一个大数据集转移到另一个小数据集。然而,这种方法强烈依赖于源域,并且很难扩展到非常不同的场景。最近,其他几个关于少镜头检测的工作也被提出了[9,10,11,12],但它们学习特定类别的嵌入,需要对新的类别进行微调。
  • 我们的工作是由匹配网络[37]开创的研究路线所推动的。我们提出了一种通用的少镜头目标检测网络,该网络在Faster R-CNN框架的基础上学习图像对之间的匹配度量,该框架配备了我们的新注意RPN和使用我们的对比训练策略训练的多关系检测器。

FSOD-一个高度多样化的小样本目标检测数据集

  • 小样本学习的关键在于出现新类别的泛化性,所以数据集的类别数量很重要,然而现有的数据集包含的类别都非常有限。

  • 数据集构建:

    • 作者从现有的数据集中抽取样本构建新的数据集,但是存在三个问题:1.在不同数据集中同样语义的类标注单词不同;2.标注不完善,可能有错标,漏标,重复或者实例过大的问题;3.训练和测试的类别相同,对于小样本检测,训练与测试应该是不同的类。
    • 我们将原始标签树中的叶子标签合并,方法是将语义相同的叶子标签(例如,北极熊和北极熊)分组到一个类别中,并删除不属于任何叶子类别的语义。然后,我们将标签质量不好的图片和盒子大小不合适的图片删除。具体来说,被删除的图像中有小于图像大小0.05%的方框,这些方框通常视觉质量很差,不适合作为支持示例。接下来,我们按照few-shot学习设置将我们的数据划分为训练集和测试集,不存在类别重叠。我们在MS COCO数据集[13]中构造带有类别的训练集,以方便研究人员选择训练前阶段。然后,我们通过选择与现有训练类别之间距离最大的类别来分割包含200个类别的测试集,其中距离是连接is-a分类法[57]中两个短语的含义的最短路径。其余类别合并到训练集中,该训练集总共包含800个类别。
  • 数据集分析:

    • 我们的数据集是专门为小样本学习和评估模型在新类别上的通用性而设计的,包含1000个类别,分别为800/200分割训练集和测试集,总计约66,000张图像和182,000个边界框。详细统计数据如表1、图3所示。
      在这里插入图片描述
      在这里插入图片描述
    • 高度的分类多样性:我们的数据集包含83个父语义,如哺乳动物,服装,武器等,并进一步拆分为1000个叶子类别。我们的标签树如图2所示。由于我们严格的数据集分割,我们的训练/测试集包含非常不同的语义类别的图像,因此对模型的评估提出了挑战。
      在这里插入图片描述
    • 具有挑战性的设置:我们的数据集包含了在盒子大小和宽高比上有很大差异的对象,包括测试集中的26.5%的图像有不少于3个对象。我们的测试集包含了大量没有包含在我们的标签系统中的类别盒子,因此对小样本模型提出了很大的挑战。
    • 虽然数据集有大量的分类,但是训练图像和框的数量远远少于其他大型基准数据集,如MS COCO数据集包含了123,287张图像和大约886,000个边界框。我们的数据集被设计成紧凑而有效的小样本学习。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: "few-shot object detection with attention-rpn and multi-relation detector" 是一种使用注意力机制的少样本目标检测方法。它通过使用 Attention-RPN(Region Proposal Network)和 Multi-Relation Detector 来实现对目标的检测。 Attention-RPN 可以在提议区域中识别关键部位,而 Multi-Relation Detector 则可以在少量样本中识别目标并定位它们。这种方法在训练和测试时都需要少量样本,因此可以减少模型的训练时间和资源消耗。 ### 回答2: 随着人工智能技术的不断发展,目标检测的研究也得到了越来越多的关注。其中,Few-shot object detection with attention-rpn and multi-relation detector是目前在目标检测领域上的一个最新研究成果。那这个算法是什么呢? 针对目前目标检测领域中的一大难点——少样本学习,此研究提出了一种基于RPN(region proposal network)和注意力机制的多关系检测算法,使得模型只需使用少量的训练数据,就能在未见过的类别中达到较高的检测准确率。 具体来说,该算法通过在RPN中引入注意力交互模块来提供精细的检测区域,同时通过设计多组关系特征提取器,能够有效处理不同目标类别之间的相互关系。在训练阶段,该算法将训练数据集划分为meta-train和meta-test集合,然后在较小的meta-train集合中学习关系特征提取器和注意力交互模块,最后在meta-test集合的未知类别中进行目标检测。 综合以上基本思路,该算法通过引入注意力机制和多关系特征提取器来实现Few-shot object detection。该算法在目前的Few-shot目标检测基准测试数据集上进行了实验证明,实现了较高的检测准确率,在很大程度上解决了少样本学习的问题。未来,这个技术还需要进一步实践和推广,使得得到更广泛的使用。 ### 回答3: 本文介绍了一种基于注意力机制RPN(Attention-RPN)和多关系检测器(Multi-Relation Detector)的小样本目标检测技术(Few-shot Object Detection)。该技术可以利用预训练的模型来辅助小样本检测任务,并可以适应新的目标类别。 本文中的Attention-RPN是一种针对小样本学习的改进版本,它可以通过选择性的关注训练数据中的重要区域来提高小样本的性能。同时,Attention-RPN还可以利用先前训练模型的知识来指导小样本的训练过程,从而提高检测结果的准确性。 而多关系检测器则是一种可以检测目标之间关系的模型。通过学习目标之间的关系,可以更好地理解图像中的场景,并且可以更准确地定位和分类目标。本文中的多关系检测器采用了一种新的模型结构,其中用到了一种称为Transformers的自注意力机制,它可以自适应地聚焦于任务中的关键区域,从而提高检测性能。 在实验中,本文采用了COCO、VOC和miniImagenet等数据集进行测试。结果表明,本文所提出的Few-shot Object Detection技术可以在少量样本的情况下取得好的检测结果。同时,Attention-RPNMulti-Relation Detector也能分别提高小样本和多样本的检测性能,证明它们是十分有效的模型改进方式。 综上所述,本文提出了一种新的小样本目标检测技术,并通过Attention-RPNMulti-Relation Detector的改进来提高检测性能。该技术对于具有高效率和精度要求的目标检测任务具有十分重要的意义,可能对未来的计算机视觉研究和工业应用产生积极的影响。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值