论文链接 词向量 基本结构 Transformer encoder 预训练阶段 mask language model 15%的选定词汇 80%mask10%用随机词汇替代10%保持原样 next sentence prediction 50%下一句为真实跟随句,50%不是