优势
- 使用Transform作为算法的主要框架;
- 使用Mask Language Model(MLM)和Next Sentence Prediction(NSP)的多任务训练目标;
- 使用更强大的机器训练更大规模的数据;
BERT的本质时通过海量的语料的基础上运行自监督学习方法为单词学习一个好的特征表示,所谓自监督学习时指没有人工标注的数据上运行的监督学习,以后可以之间使用BERT的特征表示作为该任务的词嵌入特征。
输入表示
BERT的输入的编码向量是三个嵌入特征的单位,这三个词的嵌入特征是:
- WordPiece是指将单词划分成一组有限的公共子词单元,能在单词的有效性和字符的灵活性之间取得平衡。
- 位置嵌入指将单词的位置信息编码成特征向量,位置嵌入是向量模型中引入单词位置关系的至关重要的一环。
- 分割嵌入:用于区别两个句子,对于句子对,第一个句子的特征值是0,第二个句子的特征值是1;
[CLS]表示该特征用于分类模型,对非分类模型,该符合可以省去。[SEP]表示分句符号,用于断开输入语料中的两个句子;
预训练任务
BERT是一个多任务模型,它的任务是由两个自监督任务组成的,即MLM和NSP;
MLM是指训练的时候随即从输入语料库上mask掉一些单词,然后通过上下文预测单词;
NSP是判断句子B是否是句子A的下文;