bert的mask到底有什么问题?损失函数Ld的符号对吗?确实有负号,在正式版已经修改了。联合训练具体怎么操作的?electra相对Bert, 学到了更细粒度得语义特征。判别式学习的就是如何去分辨近义词的细微差别,生成器可认为是一个近义词生成器。