读论文——DeBERTa(2021)

第一遍

  • 标题:DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION
  • 作者:Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院
  • 摘要:
    1. 分离注意力机制,每个词用两个向量表示,分别表示内容和位置,利用分离矩阵计算注意力权重分数
    2. 在模型预训练过程中,使用增强的掩码解码器在解码层中合并绝对位置,来预测掩码Token
    3. 使用一种新的虚拟对抗训练方法对模型进行微调,提升模型泛化能力。
    4. 提升了预训练模型在NLU和NLG下游任务上的表现
    5. 提升了MNLI、SQuAD v2.0 RACE上的表现
    6. 48层Transform、1.5 billion 参数、超过了SuperGLUE上人类的表现(89.9)
  • 结论:
    1. DeBERTa在SuperGLUE上超过了人类,但是在NLU绝对没有人类水准,人类具有一种组合泛化能力,可以将新任务划分了熟悉的小任务,然后去解决新任务。
    2. 展望未来,我们有必要探索如何让DeBERTa以一种更加明确的方式整合组合结构,这样就可以将自然语言的神经计算和符号计算结合起来,就像人类所做的那样。
  • 介绍
    1. Disentangle attention:
      1. 不像BERT将词嵌入和位置编码直接相加然后计算注意力权重,这里分别计算词嵌入和位置编码的注意力权重;因为注意力权重不仅取决于序列的内容,也取决于序列的相对位置。例如:当“深度”和“学习”(内容权重)并排(位置权重)出现时,它们之间的依赖关系比它们出现在不同的句子中时要强很多。
    2. Enhanced mask decoder:
      1. 绝对位置在解码过程中,很重要。例如:a new store opened beside the new mallstoremall两个词意思相似,但是它们在句子中扮演不同句子成分。
      2. 根据词内容和位置的聚合上下文嵌入(编码的输出),在模型解码掩码字的softmax层之前合并词的绝对位置嵌入。
    3. 提出了新的虚拟对抗训练方法,用于下游NLP任务进行微调

第二遍

重要的图表

  1. Table 1

    在这里插入图片描述

    比较不同模型在GLUE dev上的结果

  2. Table 2

    在这里插入图片描述

    比较在MNLI in/out-domain等上的结果

  3. table 3

    在这里插入图片描述

  4. table 4

在这里插入图片描述

DeBERTa上的Ablation study

  1. table 5

在这里插入图片描述

SuperGLUE上的测试集结果

第三遍

2. Background

2.1 Transformer

  1. 编码过程中,相对位置编码更加有效。
  2. 本文采用分离的词嵌入和相对位置编码

2.2 Masked Language Model(带掩码的语言模型)

  1. 公式:
    max θ log p θ ( X ∣ X ~ ) = max θ ∑ i ∈ C log p θ ( x ~ i = x i ∣ X ~ ) \text{max}_{\theta}\text{log}p_{\theta}(X|\widetilde{X}) = \text{max}_{\theta}\sum_{i \in C}\text{log}p_{\theta}(\widetilde{x}_i = x_i|\widetilde{X}) maxθlogpθ(XX )=maxθiClogpθ(x i=xiX )
    X : 表 示 需 要 重 建 的 序 列 X ~ : 表 示 带 掩 码 的 序 列 C : 表 示 序 列 中 掩 码 的 索 引 X:表示需要重建的序列 \\ \widetilde{X}:表示带掩码的序列 \\ C:表示序列中掩码的索引 X:X :C:

3. The DeBERTa Architecture

3.1 分离注意力机制

  1. 对于在位置 i i i的token,使用 H i {H_i} Hi P i ∣ j {P_{i|j}} Pij分别表示内容和相对位置, j j j是是一个token的位置

    计算 t o k e n i token_i tokeni t o k e n j token_j tokenj注意力分数公式如下:
    A i , j = { H i , P i ∣ j } × { H j , P j ∣ i } T = H i H j T + H i P j ∣ i T + P i ∣ j H j T + P i ∣ j P j ∣ i T \begin{aligned} A_{i,j} & = \{H_i,P_{i|j}\} \times \{H_j,P_{j|i}\}^{T} \\ & = H_iH_j^T + H_iP_{j|i}^T + P_{i|j}H_j^T + P_{i|j}P_{j|i}^T \end{aligned} Ai,j<

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值