第一遍
- 标题:DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION
- 作者:Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院
- 摘要:
- 分离注意力机制,每个词用两个向量表示,分别表示内容和位置,利用分离矩阵计算注意力权重分数
- 在模型预训练过程中,使用增强的掩码解码器在解码层中合并绝对位置,来预测掩码Token
- 使用一种新的虚拟对抗训练方法对模型进行微调,提升模型泛化能力。
- 提升了预训练模型在NLU和NLG下游任务上的表现
- 提升了MNLI、SQuAD v2.0 RACE上的表现
- 48层Transform、1.5 billion 参数、超过了SuperGLUE上人类的表现(89.9)
- 结论:
- DeBERTa在SuperGLUE上超过了人类,但是在NLU绝对没有人类水准,人类具有一种组合泛化能力,可以将新任务划分了熟悉的小任务,然后去解决新任务。
- 展望未来,我们有必要探索如何让DeBERTa以一种更加明确的方式整合组合结构,这样就可以将自然语言的神经计算和符号计算结合起来,就像人类所做的那样。
- 介绍
- Disentangle attention:
- 不像BERT将词嵌入和位置编码直接相加然后计算注意力权重,这里分别计算词嵌入和位置编码的注意力权重;因为注意力权重不仅取决于序列的内容,也取决于序列的相对位置。例如:当“深度”和“学习”(内容权重)并排(位置权重)出现时,它们之间的依赖关系比它们出现在不同的句子中时要强很多。
- Enhanced mask decoder:
- 绝对位置在解码过程中,很重要。例如:
a new store opened beside the new mall
中store
和mall
两个词意思相似,但是它们在句子中扮演不同句子成分。 - 根据词内容和位置的聚合上下文嵌入(编码的输出),在模型解码掩码字的softmax层之前合并词的绝对位置嵌入。
- 绝对位置在解码过程中,很重要。例如:
- 提出了新的虚拟对抗训练方法,用于下游NLP任务进行微调
- Disentangle attention:
第二遍
重要的图表
-
Table 1
比较不同模型在GLUE dev上的结果
-
Table 2
比较在MNLI in/out-domain等上的结果
-
table 3
-
table 4
DeBERTa上的Ablation study
- table 5
SuperGLUE上的测试集结果
第三遍
2. Background
2.1 Transformer
- 编码过程中,相对位置编码更加有效。
- 本文采用分离的词嵌入和相对位置编码
2.2 Masked Language Model(带掩码的语言模型)
- 公式:
max θ log p θ ( X ∣ X ~ ) = max θ ∑ i ∈ C log p θ ( x ~ i = x i ∣ X ~ ) \text{max}_{\theta}\text{log}p_{\theta}(X|\widetilde{X}) = \text{max}_{\theta}\sum_{i \in C}\text{log}p_{\theta}(\widetilde{x}_i = x_i|\widetilde{X}) maxθlogpθ(X∣X )=maxθi∈C∑logpθ(x i=xi∣X )
X : 表 示 需 要 重 建 的 序 列 X ~ : 表 示 带 掩 码 的 序 列 C : 表 示 序 列 中 掩 码 的 索 引 X:表示需要重建的序列 \\ \widetilde{X}:表示带掩码的序列 \\ C:表示序列中掩码的索引 X:表示需要重建的序列X :表示带掩码的序列C:表示序列中掩码的索引
3. The DeBERTa Architecture
3.1 分离注意力机制
-
对于在位置 i i i的token,使用 H i {H_i} Hi和 P i ∣ j {P_{i|j}} Pi∣j分别表示内容和相对位置, j j j是是一个token的位置
计算 t o k e n i token_i tokeni和 t o k e n j token_j tokenj注意力分数公式如下:
A i , j = { H i , P i ∣ j } × { H j , P j ∣ i } T = H i H j T + H i P j ∣ i T + P i ∣ j H j T + P i ∣ j P j ∣ i T \begin{aligned} A_{i,j} & = \{H_i,P_{i|j}\} \times \{H_j,P_{j|i}\}^{T} \\ & = H_iH_j^T + H_iP_{j|i}^T + P_{i|j}H_j^T + P_{i|j}P_{j|i}^T \end{aligned} Ai,j<