李宏毅老师-自监督学习(Self-supervised Learning)Part3

本文探讨了BERT模型在自然语言处理中的优势,如何根据上下文生成不同的词向量,并通过例子展示了BERT在DNA分类和多语言任务中的出色表现。BERT通过填空任务训练,能捕捉到词汇的语义,并且在不同语言间的转换中展现出惊人的能力。
摘要由CSDN通过智能技术生成

慢慢来,会更好!
大家好,我是一个想研究又不会研究的研究生
陪伴大家一起学习成长!

那么,为什么我们要先做BERT工作呢?
越相近的字产生的向量越接近,如果与草、鸟与鱼等
同时,BERT会根据上下文,不同语义的同一个字会产生不同的向量

在这里插入图片描述

看看下图的例子,同一个果字对应的向量会不一样

在这里插入图片描述

有两堆苹果
一堆是吃的苹果(5个)
一堆是苹果模型(5个)

那么我们就可以发现,前5个果相似度高,前5个跟后5个相似度就低

在这里插入图片描述

所以,BERT输出的向量代表了那个词的意思。
可以在接下来的任务做的更好
那为什么BERT有如此功效呢?
因为训练BERT的时候就是根据上下文咨询来填空的

在这里插入图片描述

但是真的是这样吗?
可能还有其他不知所云的原因呢
我们来看一个DNA分类的例子

在这里插入图片描述
在这里插入图片描述

神奇的地方是,使用了we,you等字代替氨基酸,BERT的分类会更好。

在这里插入图片描述
在这里插入图片描述

接下来,我们来看一个Multi-lingual BERT
它的特点就是用各种语言来做填空题

在这里插入图片描述

我们在这里train了104种不同的语言来做填空题
那它有什么神奇之处的

我们拿英文的问答的资料做train,接下来它就会自动学做中文的问答的问题
下面是一些不可思议真实的数据

在这里插入图片描述

那为什么会这样的呢?
也许对于它而言,不同语言没什么差距
所以同义的不同语言的向量会比较接近

在这里插入图片描述

为了探寻不同语言之间的关系,做了这么一件事情
将所有中文的embbeding平均一下,英文的embbeding平均一下,发现两者之间存在着差距,
这个差距用一个蓝色向量来表示。

对一个multi-BERT输入英文问题后,
会输出一堆embedding,这堆embedding加上这个差距的embbeding后,最终竟然能输出中文的答案。

在这里插入图片描述

下面是真实的结果
好神奇

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值