R-Drop: Regularized Dropout for Neural Networks

R-Drop是一种正则化策略,通过约束dropout产生的子模型输出分布一致性,解决训练和推理的不一致问题。在神经机器翻译、语言理解、摘要生成、语言建模和图像分类等任务上表现出色。通过双向KL散度控制子模型输出分布,实现在多个任务上的性能提升。
摘要由CSDN通过智能技术生成

论文目的

dropout会给训练和测试的过程中带来不一致,regularize dropout 简单的一致性训练策略,迫使dropout产生的子模型输出分布一致,这是通过约束每个样本两个子模型的输出的双向KL散度来达到的。在 neural machine translation, abstractive summarization, language understanding, language modeling, and image classification五个任务上做了实验。

方法

在这里插入图片描述

R-Drop Regularization

training data D = ( x i , y i ) i = 1 n D={(x_i,y_i)}_{i=1}^n D=(xi,yi)i=1n
loss function L n l l = 1 n ∑ i = 1 n − log ⁡ p w ( y i ∣ x i ) L_{nll}=\frac{1}{n}\sum_{i=1}^n-\log p^w(y_i|x_i) Lnll=n1i=1nlogpw(y

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值