Bert中的两处mask bert模型在训练过程中的第一处mask是我们都知道的随机mask掉15%的token。在讲第二处mask之前,我们先了解一下bert模型在训练时的处理,也就是先获取同一个批次中的最长句子作为最大句子长度,对于其它句子则需要进行填充达到最大句子长度,一般是使用[UNK]符号进行填充,而在计算attention的时候,需要将这些填充符号mask掉,这便是bert模型在训练过程中的第二处mask。