自监督学习
在没有label的情况下,自己做supervised learning。
将无label数据分成x’和x’’,然后将x’放入model进行学习,得到y,这个y要越接近x’'越好。
我们拿BERT来举例。
我们将台湾大学中的“湾”字涂抹掉,可以选择两种替换方式,MASK(完全抹掉)或者Random(随机替换一个汉子)。然后将Sequence输入,就会对应另外的Sequence输出。
盖住的汉子依然会有一个输出Vector,我们对其做一个linear transform和softmax,得到一个输出的分布。这个输出是所有汉子对应的向量值。每一个字都对应一个分数,是一个Distribution。
、
虽然“湾”被盖住了,但是我们本身是知道的。只是放入的模型不知道。所以最后softmax输出的所有汉子中,“湾”字的值和真实的“湾”越接近越好(通过minimize cross entropy)。
所以简单解释就是BERT在做一个所有汉字的分类,比如5000个汉子,最后输出的是5000个分类,要找到与“湾”这个字最接近的那个类别。
(Quesiton:我们做的行为模式识别是将不同的行为分成不同的类别,然后进行识别or把每个用户分成不同的类别,进行识别?)
上述表明,BERT只能做一些预测盖住的单词的问题,但其实BERT还可以做各式各样的DownStream Tasks(a little bit labeled data). BERT可以做各式各样的任务,称之为Fine-tune(回调)。
Self-supervised learning(Pre-train) Model 训练出BERT。
BERT的实际应用:
Case 1: Sentiment Analysis:情感分析