
pytorch实现BERT
BERT是基于transformer架构的双向编码器表示,这个名称具有两个关键点,首先是基于transformer架构的编码器,其次是双向编码器。第一点类似于生成式预训练模型(GPT),只不过GPT是基于transformer架构的decoder,而BERT是基于transformer架构的encoder。至于第二点双向编码器也可以相对于GPT进行理解,GPT采用的是顺序预测,即根据之前的K个字符去预测当前字符,而BERT则同时考虑一个字符的上下文信息,即通过每个字符两个方向的序列对当前字符进行预测。







