一:模型简介
BERT的全称为Bidirectional Encoder Representations from Transformers,即双向Transformer的Encoder。Bert模型算是Transformer模型(encoder)的一种堆栈,不同的是把其改造成双向模型,同时完成单词补全(Masked model)和句子关系预测(sentence prediction)两个任务,提高了模型的特征提取能力。
二:论文
Bert:Pre-training of Deep Bidirectional Transformer for language understanding
发布者:Google AI Language,2018-NAACL
三:Motivation
解决之前单向模型无法捕捉足够的语义信息,提出使用双向编码器的预训练模型
四:Contributions
1:MLM(Masked Language Model)
通过对输入部分单词进行掩盖,使得模型能够获取目标单词的双向上下文信息,
2:NSP (Next Sentence Prediction)
在预训练期加入了句子级别的任务,使得模型可以