自监督学习笔记——李宏毅老师《自监督学习》笔记

最新推荐文章于 2023-07-27 15:42:38 发布

大叔爱学习.

最新推荐文章于 2023-07-27 15:42:38 发布

阅读量394

点赞数

文章标签：自然语言处理机器学习人工智能

本文链接：https://blog.csdn.net/weixin_43716712/article/details/120017126

版权

自监督学习
在没有label的情况下，自己做supervised learning。
将无label数据分成x’和x’’，然后将x’放入model进行学习，得到y，这个y要越接近x’'越好。
在这里插入图片描述

我们拿BERT来举例。

在这里插入图片描述
我们将台湾大学中的“湾”字涂抹掉，可以选择两种替换方式，MASK（完全抹掉）或者Random（随机替换一个汉子）。然后将Sequence输入，就会对应另外的Sequence输出。
盖住的汉子依然会有一个输出Vector，我们对其做一个linear transform和softmax，得到一个输出的分布。这个输出是所有汉子对应的向量值。每一个字都对应一个分数，是一个Distribution。
、在这里插入图片描述
虽然“湾”被盖住了，但是我们本身是知道的。只是放入的模型不知道。所以最后softmax输出的所有汉子中，“湾”字的值和真实的“湾”越接近越好（通过minimize cross entropy）。

所以简单解释就是BERT在做一个所有汉字的分类，比如5000个汉子，最后输出的是5000个分类，要找到与“湾”这个字最接近的那个类别。

（Quesiton：我们做的行为模式识别是将不同的行为分成不同的类别，然后进行识别or把每个用户分成不同的类别，进行识别？）

上述表明，BERT只能做一些预测盖住的单词的问题，但其实BERT还可以做各式各样的DownStream Tasks(a little bit labeled data). BERT可以做各式各样的任务，称之为Fine-tune（回调）。
Self-supervised learning(Pre-train) Model 训练出BERT。
在这里插入图片描述