Self-supervised Learning

最新推荐文章于 2024-07-25 23:48:49 发布

zzz_qing

最新推荐文章于 2024-07-25 23:48:49 发布

阅读量161

点赞数

文章标签：深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zzz_qing/article/details/130331388

版权

目录

How to use BERT

Why dose BERT work

Multi-lingual BERT

Self-Supervised Learning，又称为自监督学习。一般机器学习分为有监督学习，无监督学习和强化学习。而 Self-Supervised Learning 是无监督学习里面的一种，主要是希望能够学习到一种通用的特征表达用于下游任务 (Downstream Tasks)。其主要的方式就是通过自己监督自己。

Self-Supervised Learning的model喜欢以芝麻街的人物命名：

下面以BERT和GPT这两个模型为例，介绍Self-Supervised Learning的model做的事情是什么。

BERT

BERT是一个Transformer的Encoder。

有了BERT技术后，机器在自然语言处理的能力上又向前迈了一步。

BERT训练的时候做两件事：

① Masking Input: Randomly maskingsome tokens.

② Next Sentence Prediction

后来研究表明这一招对BERT要做的事情不太有用。

还有一招和Next Sentence Prediction有点类似，叫做SOP，这招在文献中证明是有效的。

通过以上两件事，BERT只学会做填空题，但BERT可以被用来做各式各样人们感兴趣的Downstream Tasks。给BERT一些不同的有标注的资料，它就可以变成做不同Task的model（类似于胚胎干细胞，可以分化），这就是BERT神奇的地方。

训练BERT是比较困难的：

Pre-training a seq2seq model:

How to use BERT

下面通过四个例子来介绍如何使用BERT。

case 1:

这个model中Linear的参数是随机初始化的，但BERT的参数是使用pre-train之后的参数。下面图中对比了BERT使用随机参数和使用pre-train参数的训练效果：

case 2:

case 3:

case 4:

训练过程如下：首先输出答案的起始位置

然后输出答案的结束位置

Why dose BERT work

首先给出文献中最常见的解释：BERT输入一串文字，输出一串向量，这些向量称为embedding。这些embedding代表了输入的那个字的意思，并且包含了它的上下文信息（比如吃苹果和苹果手机的果，输出的是不同的embedding）。

根据李老师实验室的一些实验，BERT work可能不止是embedding能够代表输入文字及其上下文关系这一个原因。

如下图实验，对DNA进行分类，随意选取四个英文单词来代表A、T、C、G，把DNA转化成一些没有实际意义的英文句子。然后输出DNA的种类。对于这些没有实际意义的英文句子，进行分类也能得到很好的结果。这说明BERT的能力不完全来自于它能看得懂文章，还有一些其他的原因。

Multi-lingual BERT

——Training a BERT model by many different languages.

Multi-lingual神奇之处在于，用英文的QA资料进行训练，就可以自动学会做中文的QA。

对以上神奇现象的一个简单解释是，对Multi-lingual BERT而言，不同语言间没什么差异：

GPT

——Predict Next Token

How to use GPT

Beyond Text

上面的例子都与文字有关，但Self-Supervised Learning不止能用在文字上：

Image - SimCLR:

Image - BYOL:

zzz_qing CSDN认证博客专家 CSDN认证企业博客

码龄6年

44: 原创

120万+: 周排名

86万+: 总排名

1万+: 访问

: 等级

452: 积分

9: 粉丝

2: 获赞

7: 评论

13: 收藏

私信

关注

热门文章

分类专栏

论文精读 2篇

最新评论

Overcoming catastrophic forgetting in neural networks
xuebing55555: 请问有完整实现代码吗？
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 非常棒的博客！学习元学习是非常有趣和有用的！我们希望看到更多关于此主题的内容。我们建议您写一篇有关如何使用元学习来优化深度学习模型的博客。谢谢你的分享！ 2023年博客之星「城市赛道」年中评选已开启（https://activity.csdn.net/creatActivity?id=10470&utm_source=blog_comment_city ），博主的原力值在所在城市已经名列前茅，持续创作就有机会成为所在城市的 TOP1 博主（https://bbs.csdn.net/forums/blogstar2023?typeId=3152981&utm_source=blog_comment_city），更有丰厚奖品等你来拿~。
Lecture 15：元学习Meta Learning2
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/615663682?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。
The first GAN——Generative Adversarial Nets
CSDN-Ada助手: 恭喜你这篇博客进入【CSDN每天值得看】榜单，全部的排名请看 https://bbs.csdn.net/topics/614789723。
[机器学习]Lecture 1：Regression，Pokemon classification，Logistic Regression
CSDN-Ada助手: 非常感谢您分享这篇博客。恭喜您能够坚持创作，继续保持哦！同时，我希望您能够在未来的博客中，更深入地探讨机器学习的其他方面，例如深度学习和神经网络等等。期待您的下一篇作品，谢谢！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=ada，我们会奖励持续创作和学习的博主，请看：https://bbs.csdn.net/forums/csdnnews?typeId=116148

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。