李宏毅老师-自监督学习（Self-supervised Learning）Part3

最新推荐文章于 2024-08-13 15:57:18 发布

想研究又不会研究的研究生

最新推荐文章于 2024-08-13 15:57:18 发布

阅读量473

点赞数

文章标签：深度学习机器学习 bert transformer

本文链接：https://blog.csdn.net/weixin_46675905/article/details/124647092

版权

本文探讨了BERT模型在自然语言处理中的优势，如何根据上下文生成不同的词向量，并通过例子展示了BERT在DNA分类和多语言任务中的出色表现。BERT通过填空任务训练，能捕捉到词汇的语义，并且在不同语言间的转换中展现出惊人的能力。

摘要由CSDN通过智能技术生成

慢慢来，会更好！
大家好，我是一个想研究又不会研究的研究生
陪伴大家一起学习成长！

那么，为什么我们要先做BERT工作呢？

越相近的字产生的向量越接近，如果与草、鸟与鱼等
同时，BERT会根据上下文，不同语义的同一个字会产生不同的向量

在这里插入图片描述

看看下图的例子，同一个果字对应的向量会不一样

在这里插入图片描述

有两堆苹果
一堆是吃的苹果（5个）
一堆是苹果模型（5个）

那么我们就可以发现，前5个果相似度高，前5个跟后5个相似度就低

在这里插入图片描述

所以，BERT输出的向量代表了那个词的意思。
可以在接下来的任务做的更好

那为什么BERT有如此功效呢？
因为训练BERT的时候就是根据上下文咨询来填空的

在这里插入图片描述

但是真的是这样吗？
可能还有其他不知所云的原因呢
我们来看一个DNA分类的例子

在这里插入图片描述

神奇的地方是，使用了we，you等字代替氨基酸，BERT的分类会更好。

在这里插入图片描述

接下来，我们来看一个Multi-lingual BERT
它的特点就是用各种语言来做填空题

在这里插入图片描述

我们在这里train了104种不同的语言来做填空题
那它有什么神奇之处的

我们拿英文的问答的资料做train，接下来它就会自动学做中文的问答的问题
下面是一些不可思议真实的数据

在这里插入图片描述

那为什么会这样的呢？
也许对于它而言，不同语言没什么差距
所以同义的不同语言的向量会比较接近

在这里插入图片描述

为了探寻不同语言之间的关系，做了这么一件事情

将所有中文的embbeding平均一下，英文的embbeding平均一下，发现两者之间存在着差距，
这个差距用一个蓝色向量来表示。

对一个multi-BERT输入英文问题后，
会输出一堆embedding，这堆embedding加上这个差距的embbeding后，最终竟然能输出中文的答案。

在这里插入图片描述

下面是真实的结果
好神奇

在这里插入图片描述

关注