背景
正如论文名:BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding。BERT 是一个语言模型,通过大量的语料进行无监督训练,这称为预训练 Pre-training。再使用预训练好的参数和词向量表示参与实际任务。
BERT 的全名是 Bidirectional Encoder Representations from Transformers 。
Bidirectional :表示用的是双向语言模型,可以更好的融合上下文信息。
Transformers :表示使用 Transformers 作为特征提取器。