用于一致性训练的无监督数据的增强
摘要
当数据的标签稀缺的时候,半监督学习在改善深度学习的模型上很有效果。在最近的方法中是利用大量的无标签数据去进行一致性训练使得模型的结果预测不受输入的噪声影响。在这项工作中,我们提出了一个观点,如何有效的干扰无标签的 例子,并且使这些由数剧增强产生的噪声保证质量,它们在半监督学习中扮演着重要的角色。通过用先进的数据增强方法代替简单的噪声处理,我们的方法在相同的一致性训练框架下,对6种语言和3种视觉任务都有了显著的改进。在IMDb文本分类的数据集中,仅仅使用了20条有标签的数据 ,我们的方法的错误率只有4.2,超越了其他使用25000有标签数据的模型 。在CIFAR-10 上仅用4000张标签图片就达到了2.7%的错误率,相当于是在50000的有标签数据集中训练的效果。我们的方法也结合了迁移学习,例如,在Bert的基础上微调,并且当只有10%标记数据时,或当有一个完整的标记集合,伴随额外1.3M未标记数据,提高了高数据系统的性能,比如ImageNet。
1.介绍
第一段:深度学习的一个弱点就是需要大量标记的数据来进行训练,这样的效果才会好。
第二段 :
在这项工作中,我们研究了噪音在一致性训练中的作用并且观察先进的数据增强方法,尤其是那些在监督学习中表现好的,同样在半监督表现也好的方法。我们可以看出在监督学习数据增强的表现和一致性的训练是相关的。因此,我们提出用高质量的数据增强代替传统的噪声注入方法来提高一致性训练。强调使用更好的数据增强在一致性训练中,我们将我们的方法命名为Unsupervised Data Augmentation,简称UDA。
UDA方法生成无监督数据与原始无监督数据具备分布的一致性,而以前的方法通常只是应用高斯噪声和dropout噪声(无法保证一致性)。UDA方法利用了一种目前为止最优的方法生成更加“真实”的数据。使用这种数据增强方法,在极少量数据集上,六种语言任务和三种视觉任务都得到了明显的提升。
我们的主要贡献和研究结果总结如下:
- 将监督学习的数据增强运用在半监督学习中。
- 我们证明了UDA这种方法超越了仅仅使用有标记数据的有监督学习。
- 我们证明了UDA可以很好的结合迁移模型,例如,在Bert 上微调。