11、BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

简介

论文地址:https://arxiv.org/pdf/1810.04805.pdf

BERT 是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练,而是采用新的masked language model(MLM),以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP(Natural Language Processing,自然语言处理)任务中获得了新的state-of-the-art的结果,令人目瞪口呆。

从创新的角度来看,BERT其实并没有过多的结构方面的创新点,其和GPT一样均是采用的transformer的结构,相对于GPT来说,其是双向结构的,而GPT是单向的
在这里插入图片描述
elmo:将上下文当作特征,但是无监督的语料和真实的语料还是有区别的,不一定的符合特定的任务,是一种双向的特征提取。

openAi gpt:就做了一个改进,也是通过transformer的Decoder部分学习出来一个语言模型,不是固定的,通过任务 Fine Tune,用 transfome r代替 elmo 的 lstm。

openAI gpt : 进行 Fine Tune 时对不同任务设置不同的数据输入格式,并且 decoder只能看到前面的信息。从实验结果上看 bert 在多方面的nlp任务变现来看效果都较好,具备较强的泛化能力,对于特定的任务只需要添加一个输出层来进行 Fine Tune 即可。

实现原理

在这里插入图片描述
BERF提供两个版本 B E R T B A S E 和 B E R T L A R G E BERT_{BASE} 和 BERT_{LARGE} BERTBASEBERTLARGE ,base模型用来对标GPT,large模型用来刷榜。L 表示Transformer层数,H mlp 维度,A表示多头注意力的个数
在这里插入图片描述

预训练模型

预训练的好处在于在特定场景使用时不需要用大量的语料来进行训练,节约时间效率高效,bert就是这样的一个泛化能力较强的预训练模型

BERT的预训练阶段包括两个任务,一个是Masked Language Model,还有一个是Next Sentence Prediction

Masked Language Model

MLM可以理解为完形填空,作者会随机mask每一个句子中15%的词,用其上下文来做预测
如:my dog is hairy -> my dog is [MASK]

此处将hairy进行了mask处理,然后采用非监督学习的方法预测mask位置的词是什么,但是该方法有一个问题,因为是mask 15% 的词,其数量已经很高了,这样就会导致某些词在 fine-tuning阶段从未见过,为了解决这个问题,作者做了如下的处理
在这里插入图片描述
因为transformer要保持对每个输入token分布式的表征,否则Transformer很可能会记住这个[MASK]就是"hairy"。至于使用随机词带来的负面影响,文章中解释说,所有其他的token(即非"hairy"的token)共享15%*10% = 1.5%的概率,其影响是可以忽略不计的。Transformer全局的可视,又增加了信息的获取,但是不让模型获取全量信息

Next Sentence Prediction

选择一些句子对A与B,其中50%的数据B是A的下一条句子,剩余50%的数据B是语料库中随机选择的,学习其中的相关性,添加这样的预训练的目的是目前很多NLP的任务比如QA和NLI都需要理解两个句子之间的关系,从而能让预训练的模型更好的适应这样的任务

输入
bert的输入可以是单一的一个句子或者是句子对,实际的输入值是,词向量,segment embedding(表明这个词属于哪个句子)和position embedding(学习出来的embedding向量。这与Transformer不同,Transformer中是预先设定好的值)相加
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值