论文笔记 -《A Mixture of h-1 Heads is Better than h Heads》

最新推荐文章于 2025-02-20 09:33:20 发布

*Lisen

最新推荐文章于 2025-02-20 09:33:20 发布

阅读量829

点赞数

分类专栏：论文文章标签：自然语言处理深度学习

本文链接：https://blog.csdn.net/weixin_43922901/article/details/106753220

版权

论文专栏收录该内容

15 篇文章

订阅专栏

1、摘要

多头注意神经结构已经在各种自然语言处理任务上取得了最先进的结果。事实证明，它们是过度参数化的，注意力头可以被修剪而不会造成显著的性能损失。论文提出：根据输入的不同，选择不同的header，提出了专注其中几个header的专家混合模型(MAE)。 MAE使用block coordinate descent (BCD：块协同下降算法)进行训练，该算法交替更新(1)选择header的参数和(2)header的参数。机器翻译和语言建模实验表明，MAE 在这两个任务上都优于基线模型。特别是在 WMT14英语到德语的翻译数据集上，MAE 提高了0.8 BLEU。

2、拟解决问题

通过对Transformer headers的选择，优化Transformer中的多头注意力参数，提高模型的文本表示能力。

3、MAE

如下图所示，文章主要通过在Transformer的多头注意力向量中加入可学习的门参数g，通过做softmax，得到每组的权重分数。可能有的人要问了，为什么不直接用softmax分数乘以每一个头的向量呢？那是因为，如果这样做就是选一个头了，论文主要想通过一个参数选取某个n个头。因为一个头不足以拟合模型。
在这里插入图片描述
多头注意向量：

g_i(x) - 表示注意力头的门控制函数
f_i(x) - 表示注意力头的参数

那么具体这两个函数怎么来的呢？

首先，先回顾下Transformer的多头注意力表示：

多头注意力分数：
在这里插入图片描述
多头注意力输出向量表示：

进行简单的变形，令 $\overline{\text{H}}$ _iW_i = H_i，则有：

将上式变换下：

那么gate g_i是什么呢？

gate g_i指的就是多头注意力向量的权重分数，目的是用来控制多头向量的选取。

gate g_i又是怎么得到的呢？

将每层的输出向量在Sequence维度上算平均 -> tanh -> 线性层 -> tanh -> 经过线性层 -> softmax 。

4、模型训练

由于该模型结构涉及到两个参数（头的门控制参数和其他参数），因此训练方法也很关键。基于一系列的实验分析，论文最后采用了以下训练策略：

每5个epoch反传G步更新门控制参数；
在不反传门控制参数时更新其他参数。

5、结论

(a) 机器翻译结果

从下表可知，采用了BCD训练以及7个experts的模型（MAE-7）取得了最佳的效果，相比自己实现的Transformer Base模型，在WMT14 EN-DE数据集上提升了0.8个BLEU，在IWSLT14 DE-EN数据集上提升了0.9个BLEU。通过比较NoBCD和UNI-MAE的模型结果，也可以发现，BCD和softmax的策略对于模型的效果提升是有很大帮助的。
在这里插入图片描述