读论文——DeBERTa（2021）

最新推荐文章于 2024-05-06 13:46:28 发布

前行follow

最新推荐文章于 2024-05-06 13:46:28 发布

阅读量947

点赞数

分类专栏： # 自然语言处理文章标签：自然语言处理 nlp 深度学习

本文链接：https://blog.csdn.net/y1040468929/article/details/121491488

版权

第一遍

标题：DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION
作者：Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院
摘要：
1. 分离注意力机制，每个词用两个向量表示，分别表示内容和位置，利用分离矩阵计算注意力权重分数
2. 在模型预训练过程中，使用增强的掩码解码器在解码层中合并绝对位置，来预测掩码Token
3. 使用一种新的虚拟对抗训练方法对模型进行微调，提升模型泛化能力。
4. 提升了预训练模型在NLU和NLG下游任务上的表现
5. 提升了MNLI、SQuAD v2.0 RACE上的表现
6. 48层Transform、1.5 billion 参数、超过了SuperGLUE上人类的表现（89.9）
结论:
1. DeBERTa在SuperGLUE上超过了人类，但是在NLU绝对没有人类水准，人类具有一种组合泛化能力，可以将新任务划分了熟悉的小任务，然后去解决新任务。
2. 展望未来，我们有必要探索如何让DeBERTa以一种更加明确的方式整合组合结构，这样就可以将自然语言的神经计算和符号计算结合起来，就像人类所做的那样。
介绍
1. Disentangle attention:
  1. 不像BERT将词嵌入和位置编码直接相加然后计算注意力权重，这里分别计算词嵌入和位置编码的注意力权重；因为注意力权重不仅取决于序列的内容，也取决于序列的相对位置。例如：当“深度”和“学习”（内容权重）并排（位置权重）出现时，它们之间的依赖关系比它们出现在不同的句子中时要强很多。
2. Enhanced mask decoder：
  1. 绝对位置在解码过程中，很重要。例如：a new store opened beside the new mall中store和mall两个词意思相似，但是它们在句子中扮演不同句子成分。
  2. 根据词内容和位置的聚合上下文嵌入（编码的输出），在模型解码掩码字的softmax层之前合并词的绝对位置嵌入。
3. 提出了新的虚拟对抗训练方法，用于下游NLP任务进行微调

第二遍

重要的图表

Table 1

比较不同模型在GLUE dev上的结果
Table 2

比较在MNLI in/out-domain等上的结果
table 3
table 4

在这里插入图片描述

DeBERTa上的Ablation study

table 5

在这里插入图片描述

SuperGLUE上的测试集结果

第三遍

2. Background

2.1 Transformer

编码过程中，相对位置编码更加有效。
本文采用分离的词嵌入和相对位置编码

2.2 Masked Language Model(带掩码的语言模型)

公式：
$\text{max}_{\theta}\text{log}p_{\theta}(X|\widetilde{X}) = \text{max}_{\theta}\sum_{i \in C}\text{log}p_{\theta}(\widetilde{x}_i = x_i|\widetilde{X})$
$\\ \widetilde{X}:表示带掩码的序列 \\ C:表示序列中掩码的索引$

3. The DeBERTa Architecture

3.1 分离注意力机制

对于在位置 $i$ 的token，使用 ${H_i}$ 和 ${P_{i|j}}$ 分别表示内容和相对位置， $j$ 是是一个token的位置

计算 $token_i$ 和 $token_j$ 注意力分数公式如下：
$\begin{aligned} A_{i,j} & = \{H_i,P_{i|j}\} \times \{H_j,P_{j|i}\}^{T} \\ & = H_iH_j^T + H_iP_{j|i}^T + P_{i|j}H_j^T + P_{i|j}P_{j|i}^T \end{aligned}$

最低0.47元/天解锁文章

前行follow

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
读论文——DeBERTa（2021）

第一遍标题：DEBERTA: DECODING-ENHANCED BERT WITH DIS-ENTANGLED ATTENTION作者：Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen1微软研究院摘要：分离注意力机制，每个词用两个向量表示，分别表示内容和位置，利用分离矩阵计算注意力权重分数在模型预训练过程中，使用增强的掩码解码器在解码层中合并绝对位置，来预测掩码Token使用一种新的虚拟对抗训练方法对模型进行微调，提升模型泛化能力。
复制链接

扫一扫