如何使用无标签数据进行训练？

云隐雾匿

已于 2023-03-17 22:39:02 修改

阅读量5.7k

点赞数 4

分类专栏： NLP 文章标签：神经网络计算机视觉 pytorch 机器学习

于 2023-01-13 21:31:29 首次发布

本文链接：https://blog.csdn.net/weixin_45684362/article/details/128678896

版权

NLP 专栏收录该内容

18 篇文章

订阅专栏

一、直观解释

简单来说就是“造目标”。也即人为地去构造一些子任务（论文里的protext task），或者利用一些最基本的公理性常识，去设计“类似监督”的任务。所不同的是，我们引入的“类似监督”的任务通常是用来完成表征学习，具体的下游任务仍需要额外想办法实现。

通俗来说，所谓的监督学习就是有明确的监督信号（比如分类任务中的 label，检测任务中的 cls等）去驱动网络不断地学习更好的特征表示，并完成相应的任务。所以对于无监督学习，我们很容易想到，能不能用什么方法，去构造某些监督信号？可能这些构造出来的信号不及监督学习中的label、bbox那样明确，但在无监督大样本的加持下，总算也能让模型慢慢变好。理解这几句话对于了解无监督学习、自监督学习非常重要。

二、常用造目标的方法

1.伪标签

该方法的主旨思想其实很简单。首先，在标签数据上训练模型，然后使用经过训练的模型来预测无标签数据的标签，从而创建伪标签。此外，将标签数据和新生成的伪标签数据结合起来作为新的训练数据。

2.用数据本身作为标签

例如BERT模型的预训练，其包含两种模式：mask words prediction和 next sentence prediction

mask words prediction

首先，第一个预训练模型是让BERT做“完形填空”。具体来说是在输入的一段文本中随机将某一个单词盖住（mask），然后让BERT预测这个单词是什么的概率。最后一层用softmax输出所有单词出现在这个位置的概率，概率最大的即是BERT的预测。将这个预测的结果与真值进行对比，使预测值和真实值之间的交叉熵最小，这就是第一个预训练。

next sentence prediction

第二种预训练做的是两句话间是否是连续的逻辑判断。一共有四个输入：sentence1, sentence2, CLS判断符号和SEP分隔符号。但我们主要关注的是CLS的输出，这是个二分类输出，只有YES/NO两种情况。

3.数据增强

论文： Unsupervised Representation Learning by Predicting Image Rotations (ICLR18)，如图，文章提出，通过训练ConvNets来识别输入图像的2D旋转来学习图像特征。其输入为原图像，使用的标签为人为旋转图片后得到的数据。