半监督目标检测(四)

目录

Dense Learning based Semi-Supervised Object Detection

动机

1. Overview

2. Adaptive Filtering Strategy

3. MetaNet

4. Aggregated Teacher

5. Uncertainty Consistency

Dense Teacher

动机

1. Overview

2. Disadvantages of Pseudo-box Labels

1) Dilemma in Thresholding 

2) Dilemma in Non-Maximum Suppression (NMS)

3) Inconsistent Label Assignment

3. Dense Pseudo-Label

4. Region Selection


Dense Learning based Semi-Supervised Object Detection

动机

此前的半监督目标检测(SSOD)模型基本都属于 anchor-based 检测器,作者认为在实际应用中对于 anchor-free 检测器的需求更大。包括 FCOS 在内的 anchor-free 检测器,是在像素层面上进行高密度的特征预测,因此在 SSOD 场景下,需要更加细粒度的伪标签。作者根据 anchor-free 检测器所具备的特点,针对性地提出了一种 DenSe Learning(DSL)based 半监督目标检测算法。 

1. Overview

ed7e4c37acfa4d32a8dba47e84524a38.jpeg

作者使用 FCOS(ResNet50 backbone + FPN neck+ dense head)作为 baseline,采用 教师-学生 模型,及强-弱数据增广方式进行训练。针对 anchor-free 检测器对 noisy pseudo-label 更加敏感这一问题,作者先采取 Adaptive Filtering(AF)策略,将生成的伪标签划分为 foreground,background,ignorable regions 三类(区别于过去前景、背景的单一划分);针对存在的高置信度错误预测,作者利用 MetaNet 进一步筛选伪标签;为了提高模型的泛化能力,作者引入了 gif.latex?%7B%5Ccolor%7BRed%7D%20L_%7Bscale%7D%7D 损失,对无标签图像在不同尺度上采取 patch shuffleUncertainty-Consistency regularization;最后,为了获取更加稳定和高质量的伪标签,作者使用 Aggregated Teacher(AF)方法,在学生模型的基础上更新教师模型。

54b8d8107a754d7a96a074ba48db97e2.jpeg

 f3234a5eb1aa4a36bfe17db4fa6ffd8e.jpeg

2. Adaptive Filtering Strategy

作者指出, 如果只使用一个阈值来划分前景和背景,那么很多实例有可能会被错误分类,会降低检测器的学习性能。因此,作者建议使用多阈值 gif.latex?%5Cleft%20%5C%7B%20%5Ctau%20_%7B1%7D%2C%20%5Ctau%20_%7B2%7D%5Cright%20%5C%7D,将实例分为前景背景可忽略区域三部分,只计算前景和背景的损失:

a4767346454842a8b4966853ef795237.jpeg

5d8e6059524d424488dcfe3ae4b6d2e7.jpeg

式(4)中,作者将筛选背景的阈值 gif.latex?%5Ctau%20_%7B1%7D = 0.1 设置为固定值;而筛选前景的 gif.latex?%5Ctau%20_%7B2%7D 则设置为类别自适应的 gif.latex?%7B%5Ccolor%7BRed%7D%20%5Ctau%20_%7B2%7D%5E%7Bk%7D%7D

bb55572906de452f9daed391c5a809b8.jpeg

3. MetaNet

1d83c6eedcac4aa5952c2d22814c6113.png

作者提出 MetaNet,主要是为了过滤掉一批高置信度的错误分类实例。作者使用 ResNet50 实现 MetaNet,在 DSL 训练之前,作者将所有带标签的实例输入 MetaNet,计算各个类别的 proxy  vector gif.latex?%7B%5Ccolor%7BRed%7D%20m_%7Bk%7D%7D

d4fc0bd1e6034924958880ba6272bcab.jpeg

之后,作者计算无标签实例的特征向量与对应类别 gif.latex?m_%7Bk%7D 之间的余弦距离。若距离小于阈值 d = 0.6,则将该实例的“前景”标签更换为“可忽略区域”。

【补充】余弦距离: 用向量空间中两个向量夹角的余弦值,作为衡量两个个体间差异的大小的度量。

63952bc8b08b429eab5f2951030db236.png

来源:机器学习:余弦距离(Cosine Dsitance)_电光闪烁的博客-CSDN博客

4. Aggregated Teacher

作者认为,使用 EMA Teacher 的方法集成学生模型参数,更新教师模型,仅仅针对单独的某一层聚合了训练迭代产生的参数差异,而没有考虑各层之间的关联性。因此,作者不仅使用 EMA Teacher 方法更新参数,同时也引入 Recurrent Layer Aggregation(RLA,出自论文 Recurrence along Depth: Deep Convolutional Neural Networks with Recurrent Layer Aggregation),将卷积同 RNN 结构相结合,聚合各层信息。

【注】作者只对 backbone 做层间聚合(循环结构)。

ddb72c9643a2441bab8878ad39513f4c.png

0ccc329d32074108bc683ca605d808bd.png

上式中,gif.latex?x_%7Bl%7D 为第 l 层的张量,gif.latex?%5Ctheta%20_%7Bl%7D 为对应的卷积参数,gif.latex?h_%7Bl%7D 为第 l 层的 hidden state tensor,gif.latex?g_%7B1%7Dgif.latex?g_%7B2%7D 为1×1、3×3卷积层。

设 gif.latex?y_%7Bl+1%7D%20%3D%20%5Ctheta%20_%7Bl+1%7D%20%5Bx_%7Bl%7D%20+%20h_%7Bl%7D%5D,则上式可化为:gif.latex?x_%7Bl+1%7D%20%3D%20y_%7Bl+1%7D%20+%20x_%7Bl%7Dgif.latex?h_%7Bl+1%7D%20%3D%20g_%7B2%7D%5Bg_%7B1%7D%28y_%7Bl+1%7D%29%20+%20h_%7Bl%7D%5D,与 RLA 原论文中的操作一致(l 对应原论文中的 t):

2c340b69e85f4ead9cd08eef1e807ba2.jpeg

【补充】循环神经网络(RNN)

来源:12.循环神经网络(基础篇)_哔哩哔哩_bilibili

13d2b0414b6348429ad1276f53b8adbe.jpeg

 ba8d783716b9418892dbefa415b78a88.jpeg

5. Uncertainty Consistency

ec6384f0f42b4160b3b2da6a3537014b.jpeg

经过上述步骤获得较高质量的伪标签后,作者对无标签数据采取 uncertainty-consistency regularizaiton 的方法提升模型的泛化性能。具体来说,模型每次接受一对图像作为输入,分别是经过 Strong & Patch Augmented 的图像(gif.latex?U_%7Bsp%7D),以及对应的2倍下采样版本(gif.latex?U_%7Bd%7D),产生不同尺度的密集特征图。

Patch shuffle augmentation 算法如下:

7e31a05c5a114ea99d373ccfa41d9381.png

作者使用 patch shuffle 以减少前景目标对于周围环境的依赖,提升模型对于上下文信息的鲁棒性。

而计算 gif.latex?l_%7Bscale%7D 则是为了提升模型对于不同尺度目标的鲁棒性:

0ea088c51e38466fb8f94d5d64c1fbc4.png

Dense Teacher

Dense Teacher: Dense Pseudo-Labels for Semi-supervised Object Detection

动机

此前的SOTA半监督目标检测器(SSOD)大多数都基于伪框(pseudo-boxes)进行训练,而筛选伪框需要一系列后处理步骤,调试相应的超参数。作者认为使用伪框作为无监督图像的伪标签对于 SSOD 并不是最优的,因而提出 Dense Pseudo-Label(DPL)方法, 使用网络的原始输出作为伪标签,不经过任何后处理,保留了更丰富的信息。

1. Overview

f3cfe73d11594a8ba711dbf4dbc04d3c.jpeg

Dense Teacher 使用 FCOS 作为基础检测器,ResNet-50 作为 backbone,总体框架与此前的伪标签范式相似。每次迭代,随机选取带标签和无标签图像组成 data batch;教师模型(学生模型的 EMA 参数集成)为无标签数据生成 DPL;随后学生模型使用带标签图像的 ground truth 和无标签图像的 DPL 共同训练,分别计算监督损失 gif.latex?L_%7Bs%7D 和无监督损失 gif.latex?L_%7Bu%7D

                                                             gif.latex?L%20%3D%20L_%7Bs%7D%20+%20w_%7Bu%7DL_%7Bu%7D

虽然相较于此前的伪框标签,DPL 提供了更丰富的信息,但也包含了更多的噪声(低分预测)。为了缓解这一问题,作者采取区域选择(region selection)技巧,以突出关键区域信息,同时抑制密集标签携带的噪音。

2. Disadvantages of Pseudo-box Labels

1) Dilemma in Thresholding 

在 SSOD 算法中,教师模型的输出将作为无监督图像的 “ground truth” 使用,而通过特定阈值 gif.latex?%5Csigma%20_%7Bt%7D筛选过滤掉一些低分预测框是其中很关键的一个步骤,也会很大程度上影响整体训练过程。然而作者通过实验指出,若将阈值设置得过高,那么会使得很多高质量预测被淘汰,产生很多 false negatives,从而导致训练根本无法收敛;而若将阈值设置得过低,那么由于大量 false positives 的出现,模型的性能也会随之降低。作者认为,很可能根本找不到一个能够保证伪框质量的合适阈值。

2) Dilemma in Non-Maximum Suppression (NMS)

在此前的 SSOD 方法中,非极大值抑制(NMS)会作用于教师模型的原始输出,从而产生最终的伪框。而 NMS 也会设置一个 gif.latex?%5Csigma%20_%7Bnms%7D 阈值,来控制抑制程度。作者认为这个阈值的选取也会对 SSOD 算法产生不可忽视的影响。首先,不同的 gif.latex?%5Csigma%20_%7Bnms%7D 会给检测性能带来波动;其次,不同数据集对应的最优 gif.latex?%5Csigma%20_%7Bnms%7D 也不同,这就带来了额外的调试负担;另外,对于密集场景(如 CrowdHuman 数据集),可能根本不存在一个最优的 gif.latex?%5Csigma_%7Bnms%7D

3) Inconsistent Label Assignment

由于伪框可能存在定位不准的问题,所以给各个位置(像素)分配类别标签时,很可能与真实标签存在不一致的情况(可以回顾一下 FCOS 的 center sampling),如下图:

3afb402ea7454c53ac81a61b911b453c.jpeg

3. Dense Pseudo-Label

作者不使用伪框形式的伪标签,而是直接使用训练模型输出的 post-sigmoid logits 作为伪标签。

【注】FCOS 的分类分支在预测特征图的每个位置上预测 C 个类别概率(C个二分类器),所以这里的 post-sigmoid logits 应该就是 Logistic Regression 中的 gif.latex?%7B%5Ccolor%7BRed%7D%20%5Csigma%28z%29%7D,即:gif.latex?P%28y%3D1%7CX%29%20%5Cequiv%20%5Crho%28X%3BW%2Cb%29%20%3D%20%5Csigma%28z%29%20%3D%20%5Cfrac%7B1%7D%7B1+e%5E%7B-z%7D%7D%3B%20z%20%3D%20W%5E%7BT%7DX%20+%20b

定义几率 oddsgif.latex?odds%28y%3D1%29%20%3D%20%5Cfrac%7BP%28y%3D1%7Cx%29%7D%7BP%28y%3D0%7Cx%29%7D%20%3D%20%5Cfrac%7B%5Crho%20%7D%7B1-%5Crho%7D%20%3D%20e%5E%7Bz%7D

logit 即为 log-it ,其中的 "it" 为几率 odds,所以gif.latex?logit%20%3D%20log%28odds%28y%3D1%29%29%20%3D%20log%5Cfrac%7B%5Crho%7D%7B1-%5Crho%7D%20%3D%20z;

logit 即为 zgif.latex?z%20%3D%20logit%28%5Crho%29%20%3D%20logodds%20%3D%20log%5Cfrac%7B%5Crho%7D%7B1-%5Crho%7D

因而实际上,post-sigmoid logits 就是经过 sigmoid 之后的 z,即gif.latex?%7B%5Ccolor%7BRed%7D%20%5Csigma%28z%29%7D

 参考资料:Logit究竟是个啥?——离散选择模型之三 - 知乎

由于 DPL 是连续值,标准的 Focal Loss 在此不适用,所以作者采用了 Quality Focal Loss

作者对每个锚(anchor-free 检测器为锚点 anchor point,区别于 anchor-based 检测器的锚框 anchor box)计算类别损失如下:

0ad5eb974197475899ca3f2c7c41ef09.jpeg

4. Region Selection

由于 DPL 携带了很多低分的预测,而这些低分预测往往会覆盖信息量较少的背景区域,无益于学生模型的学习。所以作者使用 Feature Richness Score(FRS),将输入图像划分为学习区域抑制区域两部分(非背景的分类得分的最大值作为 FRS)。

bdd52c3695054825914d877351278afe.png

其中,gif.latex?p%5E%7Bt%7D_%7Bi%2Cc%7D  表示教师模型的第 i 个样本(我对这里有些疑问,不知道是否应为第 i 个锚点)对应于第 c 个类别(共 C 个类别)的预测分值。

随后,作者选择 top k% 分值的像素点作为学习区域,而其他区域将被抑制为 0。从而 DPL 将进行如下转化:

bb17b0394a2547d0b8c78a2a775fd588.jpeg

作者认为,这种 region selection 技巧能够较为容易地实现难例挖掘(Hard Negative Mining),也可以很轻易地将其应用于回归分支。

847e5986bbde4680b5960128b33d7979.jpeg

  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值