论文目的
dropout会给训练和测试的过程中带来不一致,regularize dropout 简单的一致性训练策略,迫使dropout产生的子模型输出分布一致,这是通过约束每个样本两个子模型的输出的双向KL散度来达到的。在 neural machine translation, abstractive summarization, language understanding, language modeling, and image classification五个任务上做了实验。
方法
R-Drop Regularization
training data D = ( x i , y i ) i = 1 n D={(x_i,y_i)}_{i=1}^n D=(xi,yi)i=1n
loss function L n l l = 1 n ∑ i = 1 n − log p w ( y i ∣ x i ) L_{nll}=\frac{1}{n}\sum_{i=1}^n-\log p^w(y_i|x_i) Lnll=n1∑i=1n−logpw(y