pseudo-label用于自训练(self-training)的文章综述

以下几种方法的核心在于怎样在人力少干预的情况下生成目标域的pseudo-label,用于再训练
第一种方法是用cycle gan进行域迁移,使源域迁移至目标域,再用转换后的源域训练图像,可以达到较好的检测精度。
第二种方法是用于SSD检测,在SSD的检测结果中优化并完成再训练
第三种方法是融合检测和跟踪的结果,使pseudo-label更加准确

  • Cross-Domain Weakly-Supervised Object Detection through Progressive Domain Adaptation,cvpr2018 来自东京大学的

论文提出了基于域适应的弱监督学习策略。
虽然深度学习技术在物体检测方面取得了巨大的成功,但目前的物体检测技术主要面向的对象是真实场景下的图像,而对于非训练数据集相似图像的物体检测任务来说,一般很难获取大量带有标注的数据集,因此物体检测问题就变得比较棘手。

为解决这一问题,本文提出了基于域适应的弱监督学习策略,其可以描述为:(1)选取一个带有实例级标注的源域数据;(2)仅有图像级标注的目标域数据;(3)目标域数据的类别是源域数据类别的全集或子集。

论文的任务就是在源域拥有充足的实例级标注的数据,但目标域仅有少量图像级标注的数据的情况下,尽可能准确地实现对目标域数据的物体检测。这个任务的难点主要在于目标域没有实例级的标注,因此无法直接利用目标数据集对基于源数据集训练的模型进行微调。

针对这一问题,作者提出了两种解决方法:

(1)域迁移(domain transform,DT):即利用图像转换技术,如CycleGAN将源域数据转换为和目标数据相似的带有实例级的图像;
(2)伪标记(pseudo-labeling,PL):利用伪标记来对目标域数据产生伪实例级标注。

  • Self-Training and Adversarial Background Regularization for Unsupervised Domain Adaptive One-Stage Object Detection,cvpr2019,oral,来自韩国
    在这里插入图片描述
    (1)先用ssd检测,在不送入nms前的检测框进行以下操作
    (2)对于检测到的负样本(低于阈值的检测框)要进行进一步地判断,进行了优化,将优化后的伪标签进行自训练。具体方法包括(Reducing False Negatives,Reducing False Positives)两个部分。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述

还有一个创新点:

-2.2 Adversarial Background Score Regularization

出发点是:源域和目标域的背景相较于前景常常具备更少的公共特征,而简单的全局特征对齐强制对齐不具备不变性的背景会让训练不稳定。因此作者专注于对背景进行约束。

首先提出了一个基于Binary Cross Entropy的对背景进行二分类的目标函数。

在训练过程中,一般对抗训练促使最小化特征提取器、分类器损失以增强Discriminability,最小化Domain Discriminator损失以增强其判别能力,同时最大化Domain Discriminator损失以保证提取的特征具备Transferability。尽管这里由于WST将问题转换为了监督情况下的域迁移,常常(实际上也是)通过Fine-tune实现,故不再需要Domain Discriminator。但作者还是构建了一个作用于背景的分类器,期望背景分类器和特征提取器的对抗式训练可以提取更加Discriminative的特征,以至于无法区分其为背景还是前景。

除此以外,由于检测器检测到的背景样本数(负例)常常较多,因此首先根据被分类为背景的分数升序排列并选取最低的3N个样本(N为预测为前景样本的数目)。作者发现这样的选取方法有助于提升训练稳定性。作者还对目标函数增加了Focal项使得分类Loss更高效稳定。

  • Chen, Y., Wang, W., Zhou, Y., Yang, F., Yang, D., & Wang, W. (2020). Self-Training for Domain Adaptive Scene Text Detection. Retrieved from http://arxiv.org/abs/2005.11487

在这里插入图片描述
Methods
The contributions are as follows:
1、提出一个domain adaptive 场景文本检测器,使用unlabeled videos和image进行训练。
2、提出一个Text Mining Module(TMM)融合detection 和 tracking的结果,mine hard examples of less noise
3、对于只有image的数据,设计了一种image-to-video的方式去产生video,从而帮助只有image的数据集也能使用论文中提出的这种方法。
在这里插入图片描述
如上图所示:
yellow box是 the detection results
red box 是 the tracking results
blue, purple (hard negative) and orange (hard positive) 是 trajectory results
Each frame of the video 都会被detector和tracker处理。
Framework Overview
整个网络框架主要包含三个部分:
1、Detection module
2、Tracking module
3、Text Mining Module(TMM)

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值