摘要:
注意机制允许模型保持可解释性,提升了NLP任务的表现。自我注意是目前广泛使用的一种注意类型,但由于存在大量的注意分布,其可解释性较差。最近的研究表明,模型表示可以受益于特定标签的信息,同时促进对预测的解释。因此作者引入标签注意层——一种新的自我注意形式,注意头代表标签。实验结果表明,作者的新模型在Penn Treebank (PTB)和Chinese Treebank上都获得了最先进的结果。此外,与现有的工作相比,作者的模型需要更少的self-attention层。最后,作者发现标签注意头学习句法类别之间的关系,并显示分析错误的路径。
一、简介:
1.1 作者发现的问题:
自注意力机制可解释,但多个注意力组合后作用的结果难以预测
自注意力机制提供了可解释的注意力分布,有助于解释预测,比如在机器翻译领域预测。同样,在Transformer架构里,自我注意头产生从输入词到相同输入词的注意分布。(如图1所示)但是,自注意力机制有多个头,使得组合后的输出难以预测。
1.2、作者提出的解决方案
1.2.1、Label Attention Layer
最近的工作显示label-specific representations不仅效率高和,而且可解释性好。作者引入the Label Attention Layer(自注意机制的改进版本,其中每个分类标签对应一个或多个注意头。)作者在注意力头级别研究输出,而不是在聚集所有输出之后。这样做的目的是留头部特定信息的来源,从而允许作者将标签与头部匹配。
1.2.2、LAL-Parser
为了验证所提出的Label Attention Layer,作者在Head-Driven phrase structure grammar所提出的parser基础上,新建一个能处理中文和英文的结构成分语法分析和依存语法分析的句法分析器。
二、Label Attention Layer
自注意力机制实现了句子单词间信息的传递,每个输出的单词表示(词向量)都包含了考虑过整个句子后的注意力权重。作者假设在自注意力获得信息的基础上,对于同一个句子,从不同注意力加权角度来看,一个单词的词向量表示有多种,那么这个个单词的词向量表示就可以得到加强。比如同一个句子,我用成分语法分析,再用依存句法分析,那么句中单词词向量表示更加丰富。(刚才是我对作者的观点的理解,原话是We hypothesize that a word representation can be enhanced by including each label’s attention-weighted view of the sentence, on top of the information obtained from self-attention )
Label Attention Layer(LAL)是一种新颖的、改进的自我注意形式,每个注意头只需要一个查询向量。每个分类标签都由一个或多个注意头表示,这允许模型学习输入句子的特定标签视图。图1显示了Label Attention Layer和self-attention之间的高级比较。
作者将通过解析的示例应用程序解释作者提议的Label Attention Layer背后的架构和直觉。
图2显示了标签注意机制和自我注意之间的一个主要区别:查询矩阵 W Q \bold{W^Q} WQ的缺失;相反,作者有一个学习过的矩阵 Q \bold{Q} Q,由表示每个头的查询向量组成。更正式说,对于注意力头 i i i 和输入词向量矩阵 X \bold{X} X,我们如下(式子1)计算相关注意力权重向量 a i \bold{a}_i ai:
a i = s o f t m a x ( q i ∗ K i d ) (1) \bold{a}_i =softmax(\frac{\bold{q}_i*\bold{K}_i}{\sqrt{d}}) \tag{1} ai=softmax(dqi∗Ki)(1)
这里d为查询向量和关键向量的维数, K i \bold{K}_i Ki是关键向量的矩阵,给定一个已知的头部特定的键矩阵 W i K \bold{W}^K_i WiK,我们计算 K i \bold{K}_i Ki如下(式2):