自监督学习笔记——李宏毅老师《自监督学习》笔记

自监督学习
在没有label的情况下,自己做supervised learning。
将无label数据分成x’和x’’,然后将x’放入model进行学习,得到y,这个y要越接近x’'越好。
在这里插入图片描述

我们拿BERT来举例。

在这里插入图片描述
我们将台湾大学中的“湾”字涂抹掉,可以选择两种替换方式,MASK(完全抹掉)或者Random(随机替换一个汉子)。然后将Sequence输入,就会对应另外的Sequence输出。
盖住的汉子依然会有一个输出Vector,我们对其做一个linear transform和softmax,得到一个输出的分布。这个输出是所有汉子对应的向量值。每一个字都对应一个分数,是一个Distribution。
在这里插入图片描述
虽然“湾”被盖住了,但是我们本身是知道的。只是放入的模型不知道。所以最后softmax输出的所有汉子中,“湾”字的值和真实的“湾”越接近越好(通过minimize cross entropy)。
在这里插入图片描述
所以简单解释就是BERT在做一个所有汉字的分类,比如5000个汉子,最后输出的是5000个分类,要找到与“湾”这个字最接近的那个类别。

(Quesiton:我们做的行为模式识别是将不同的行为分成不同的类别,然后进行识别or把每个用户分成不同的类别,进行识别?)

上述表明,BERT只能做一些预测盖住的单词的问题,但其实BERT还可以做各式各样的DownStream Tasks(a little bit labeled data). BERT可以做各式各样的任务,称之为Fine-tune(回调)。
Self-supervised learning(Pre-train) Model 训练出BERT。
在这里插入图片描述

BERT的实际应用:
Case 1: Sentiment Analysis:情感分析
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值