libra R-CNN

这篇论文针对的训练过程的不平衡导致模型的潜力不能充分发挥的问题,提出了三种问题,并给出三种文体的解决方案。
Abstract
detection的performance通常会受到训练过程的影响,三个层面的影响比如:sample level,feature level,objective level。本文提出的libra R-CNN结构缓解了这种影响,融合了三种结构: IoU-balanced sampling, balanced feature pyramid, and balanced L1 loss,这三种结构分别去减少sample,feature,objective level方面的不平衡。
introduction
一般的目标检测训练的步骤包括:sampling regions,extracting features therefrom,jointly recognition the categories and refining the locations under the guidance of a standard multi-task objective function。
一般一个成功的目标检测训练过程主要包括三个关键步骤:
1>候选区域是否具有代表性
2>提取的不同level的特征应该如何利用
3>目前设计的目标检测函数能否很好的收敛
然而目前的学习器在这方面都是不平衡的,这种不平衡就会导致设计很好的模型的潜力得不到很好的开发,限制了整体的表现力。在这里插入图片描述

  • sampling level imbalance
    hard samples通常是很珍贵的,因为可以有效的提高检测器的performance。然而随机采样的方法通常得到的是简单的样本。OHME专注于挖掘hard samples,然而他们通常对于噪声是敏感的,就会导致过大的内存和时间消耗。
    focal loss在但阶段的检测器可以缓解这个问题,但是在两阶段的检测器中不怎么缓解这个问题,因为打部分的负样本被去除掉了,所以这个问题需要优雅的解决掉。
  • feature level imbalance
    深度网络意味着高层具有更多的语义信息,浅层具有更多的细节信息。高层和浅层的特征可以互补来提高目标检测的效果。如何使用他们来集成金字塔表征决定了检测器的性能。然而,集成的最好办法是什么呢,研究表明,集成的特征应该应该处理每一分辨率中的不平衡信息。上诉方法的顺序集成方式都是关注相邻分辨率的特征却没有关注其他的其他层的特征。在信息流中,非相邻层的语义信息将被稀释一次。
  • objective level imbalance
    检测过程中的两个目标就是分类和定位,如果在训练的时候,两个目标不能很好地平衡,一个目标的compromised就会潜在的影响整体的表现力。训练过程中包含的样本也是如此。
    如果不能很好地平衡,容易样品产生的小梯度可能会被难样品产生的大梯度所淹没,从而限制进一步的细化。我们需要重新平衡涉及的任务和样本已达到更好的收敛。
    本文提出的Libra R-CNN,一个简单的有效的对于目标检测的框架,这个framework融合了三种成分,
  • IOU-balance sample、balanced feature pyramid、balanced L1 loss,在这里插入图片描述
    总之,这篇文章的三个贡献是:
    1 重新修订了检测器的训练过程,我们研究表明了限制检测器表现水平的三种不平衡问题

    2 提出了Libra R-CNN,一个可以重新平衡训练过程三种元素,就是采样平衡,特征提取的平衡,还有L1loss的平衡
    3 我们在MS COCO测试了提出的框架,获得了显著的水平,包括单阶段和双阶段的检测器。
    related
    先介绍了一系列的目标检检测方法
    平衡目标检测的学习方法
  • sample level imbalance

OHME和imbalance是挖掘样本的主要流行方法。OHME根据置信度来选择困难样本,这个过程导致了内存和时间的浪费,训练过程膨胀,OHME因为噪声导致训练效果的不好。Focal loss解决了之前的背景类在但阶段检测的不平衡问题,但是对于两阶段检测器的效果就不是特备好。

  • feature level imbalance
    FPN用一种至顶向下的方式丰富浅层的语义信息
    PANet一种bottom-up的方式进一步增强深层网络的浅层信息,Kong等人提出了一种新的基于SSD的高效金字塔结构,该结构以一种高度非线性但高效的方式集成了这些特征,我们的方法融合平衡的语义特征来增强原始的特征,金字塔中的每一个分辨率都能从其他分辨率中获得相同的信息,从而平衡信息流,使特征更具辨别力。

  • object level imbalance
    多任务学习模型的性能和每一任务的相对权值有很强的依赖关系,然而之前的方法都在于如何平衡模型模型的识别能力。最近,UnitBox和IouNet介绍一种新的目标函数来提高定位的准确度,和这些不同的是,我们的方法重新平衡了任务和样本,拥有一个更好的聚合。
    Methodology
    我们的目的就是缓解这些的不平衡性,挖掘模型的潜力,以下是详细的介绍

  • IoU-balanced sample
    样本的分布在IOU上并不是均匀分布的,生成侯选框的随机采样,会导致背景框的远大于框中的GT框,背景占据了大部分,IoU大多在0-0.05,60%的hard样本都在0.05的地方,随机采样只有30%,这种不平衡就会将困难样本埋没在简单样本中。
    在这里插入图片描述
    在这里插入图片描述

  • balanced feature pyramid

与以往使用横向连接集成多级特征的方法[19,22]不同,我们的关键思想是使用相同的深度集成均衡语义特征来增强多级特征。
在这里插入图片描述
一般组成部分是四个,rescaling,integrating,refining,and strengthening

  • Obtaining balanced semantic features

获取平衡的语义信息,l层的分辨率特征叫做cl,为了融合多层语义信息和并且同时保存语义特征。使用插值和最大池化将多层的特征图都resize到中间的size,一共有L级特征。
在这里插入图片描述
每个分辨率都获取到来自其它层的相等的语义信息,这个过程不包含任何的参数,我们观察到这种非参数方法的改进,证明了信息流的有效性。

  • Refining balanced semantic features
    提取的语义信息可以进一步的refine变得更有区分性,并且直接卷积和non-local 对于refine都是非常有效的,使用了gaussian non-local attention 来增强intergrate后的特征,进一步提高结果。
  • balanced L1 Loss
    分类和定位问题都在多任务损失下解决的,在faster-rcnn下定义的损失函数是:

在这里插入图片描述

在这里插入图片描述
分贝代表的是,识别和定位的目标函数,p,u分别是预测和目标,在这里插入图片描述
代表的是u类的回归结果,v是回归的目标,lamda代表的是,多任务学习下调整损失权重,这个损失函数就是两个loss的相加,如果分类做的好的话一样会得到一个很高的分数,,却忽略了回归的重要性,一个自然的想法就是调整lamda的值,我们将样本损失大于1.0的样本叫做outliers,小于的叫做inliers。由于回归的目标是没有边界限制的,直接增加回归损失的权重将会使得模型对于outliers更加敏感。outliers会被看做是苦难样本,苦难样本就会产生较大的梯度不利于训练,而inliers就会是简单样本,并且会产生比outliers大概0.3的梯度。
在这里插入图片描述

  • 1
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值