【论文分享】用于中文零代词解析的带有配对损失的分层注意力网络

【AAAI 2020】Hierarchical Attention Network with Pairwise Loss for Chinese Zero Pronoun Resolution
在这里插入图片描述
论文地址:https://ojs.aaai.org//index.php/AAAI/article/view/6352

摘要

       最近的神经网络方法在解决汉语零代词问题时,没有考虑零代词和候选先行词之间的双向注意,而是简单地将该任务作为一个分类任务,忽略了零代词不同候选者之间的关系。为了解决这些问题,我们提出了一个带有配对损失的层次注意力网络(HAN-PL),用于中文零代词的解析。在所提出的HAN-PL中,我们设计了一个两层的注意力模型,为零代词和候选先行词产生更强的表示。此外,我们还提出了一种新的成对损失,即引入正确的先行词相似性约束和成对边际损失,使学到的模型更具有辨别力。我们在OntoNotes 5.0数据集上进行了广泛的实验,我们的模型在中文零代词解析任务中取得了最先进的性能。

1 引言

       零代词作为原生语言中的一种特殊语言现象,在汉语文献中普遍存在。零代词是句子中的一个缺口,指的是由于语言的连贯性而被省略的成分。如图 1 所示,如果零代词指代在相关文本中一次或多次提到,它可以是一个隐喻性零代词(AZP),这通常由一个共指链表示;如果没有这样被提到,则可以是一个非无喻的。在这个例子中,∗pro∗1是隐喻性的,与 提及的"警察 "相关,而∗pro∗2是非隐喻性的。这些用于解释零代词的提法被称为先行词。如何正确解决 AZP 是语义理解中一个具有挑战性的话题,已经引起了人们的关注。
在这里插入图片描述

       早期的方法采用了基于规则的方法来解决中文零代词的解析(Converse and Palmer 2006;Yeh and Chen 2007)。之后,一些传统的机器学习模型与手工制作的特征,包括有监督的方法和无监督的方法,被广泛采用来解决这个问题(Zhao and Ng 2007;Kong and Zhou 2010;Chen and Ng 2013;2014;2015)。(Zhao和Ng 2007)研究了一系列基于解析树的句法特征来定位和解决零隐喻。在(Zhao and Ng 2007)的基础上,(Chen and Ng 2013)进一步引入了词法特征和零代词之间的同指代推理联系。尽管特征工程很有效,但它是劳动密集型的,而且高度依赖注释过的语料库。
       由于深度学习的强大能力,(Chen和Ng 2016)率先将深度神经网络应用于该任务。随后(Liu等人,2016)制作了伪数据集,并采用了预训练-再适应的方法;(Yin等人,2017)引入了一个基于记忆的网络,为特定的零代词选择正确的先行词。为了捕捉更多的信息,(Yin等人,2016)对先行词的局部信息和全局信息进行了编码;(Yin等人,2018a)通过利用深度强化学习模型整合了局部和全局决策。此外,还引入了自注意力机制对零代词进行编码,并应用基于注意力的递归神经网络对候选先行词按其内容进行编码(Yin等人,2018b)。然而,这些方法要么不考虑零代词和候选先行词之间的任何互动(Chen and Ng 2016; Yin et al. 2018a),要么只是采用了从零代词的表征到候选先行词的表征的单向注意(Liu et al. 2016; Yin et al. 2018b),削弱了所学特征的表示能力。此外,这些方法只是将解析任务表述为一个分类任务(例如,一个候选人是否是零号代词的前缀),这就忽略了零号代词的不同候选先行词之间的关系(例如,正确的候选先行词是相似的,他们的分数应该比错误候选先行词的分数大很多)。
       为了解决这些问题,我们提出了一个新的框架,即带有配对损失的层次注意力 网络(HANPL)。我们设计了一个两层的分层注意力网络,它不仅考虑了双向注意,首先解决了任务,产生了更强大的表征,而且还提出了一个配对损失,将更多的辨别力整合到所学模型中。层次注意网络(HAN)采用交互式注意和自注意来更好地建立零代词和候选先行词的模型,而配对损失(PL)将正确先行词相似性整合到配对损失中。在OntoNotes 5.0上的实验清楚地表明,所提出的HAN-PL优于所有的基线系统,并显著获得了最先进的性能。本文的主要贡献有三个方面。

  • 用所提出的分层注意机制交互式地学习零代词和候选先行词的更强大的表征。
  • 用一对边际损失指导模型的优化,这比以前的方法中使用的交叉熵损失更合理。
  • 考虑到正确先行词相似性的约束,以利用连锁信息所提供的全局信息。

2 相关工作

       在这一节中,我们首先对与我们的贡献相关的注意力机制和最大边际损失的早期工作进行了简要总结,然后简要回顾了中文零代词解析的流行方法。

2.1 自然语言处理的注意力机制

       (Bahdanau, Cho, and Bengio 2014)是第一个将注意力机制应用于自然语言处理(NLP)的人。此后,注意力机制被广泛应用于许多NLP任务,如文档分类(Yang等人,2016)、机器阅读理解(Kadlec等人,2016)等。一些用于阅读理解的方法(Seo等人,2016;Wang,Yan和Wu,2018),提出了问题和段落之间的各种互动方式,确实给了我们很大启发。

2.2 最大边际损失

       在一些任务中,最大边际损失比交叉熵损失更合理,比如图像相似性(Wang等人,2014)和人脸识别(Schroff, Kalenichenko, and Philbin 2015)。实际上,最大边际损失(Wiseman等人,2015年;Clark和Manning,2016年)也被采用于同指代推理解析,这是一个与本文任务类似的任务。然而,为同指代推理解决所设计的损失需要仔细调整,不适合用于模型优化。

2.3 中文零代词解析

       以前的中文零代词解析方法用传统的机器学习方法或深度学习方法对任务进行建模,然后用交叉熵损失训练模型。
       最近,一些深度学习模型被应用于中文零代词的解析(Chen and Ng 2016;Yin et al.2017)。(Yin等人2018b)分别引入了编码零代词的自注意机制和基于注意的递归神经网络,以其内容来编码候选先行词。此外,(Yin等人,2018b)将解析任务视为分类任务,用交叉熵损失指导优化。
l c e = − δ ( z p , n p ) ∗ l o g ( g ( z p , n p ) ) (1) \begin{aligned} l_{ce}=−\delta(zp,np)*log(g(zp,np)) \tag{1}\\ \end{aligned} lce=δ(zp,np)log(g(zp,np))(1)其中, g ( z p , n p ) ∈ [ 0 , 1 ] g(zp, np)∈[0, 1] g(zp,np)[0,1],由(Yin et al. 2018b)计算,是给定的零代词 z p zp zp 和其候选先行词 n p np np 的同指代推理概率。 δ ( z p , n p ) \delta(zp, np) δ(zp,np) 表示 z p zp zp n p np np 之间的实际同指代推理结果:如果它们是同指代推理, δ ( z p , n p ) = 1 \delta(zp, np)=1 δ(zp,np)=1,否则, δ ( z p , n p ) = 0 \delta(zp, np)=0 δ(zp,np)=0
       但是,上述方法在对零代词进行编码时忽略了候选先行词的信息,从而削弱了零代词和候选先行词的学习特征的表示能力。此外,该方法中使用的交叉熵损失不能保证正确的候选先行词的解析分数比错误的候选先行词的解析分数有足够大的差距。

3 模型

       为了更合理地实现中文零代词的解析任务,我们提出了一个带有配对损失的层次注意网络(HAN-PL)。在提出的 HAN-PL 中,我们设计了一个两层的注意力模型,为零代词和候选先行词生成更强大的表征。此外,我们还将正确的先行词之间的相似性约束整合到对偶边际损失中,以指导模型的训练。在这一节中,我们首先给出了解析任务的描述,然后详细描述了我们的主要贡献,即层次注意网络和配对损失。

3.1 任务描述

       在中文零代词解析问题中,零代词的位置已经由前一步的零代词检测给出(Kong and Ng 2013)。给定一个隐喻的零代词 z p zp zp,通过捕捉与 z p zp zp 最多相隔两句的最大或修饰名词短语来提取候选先行词 S z p = { n p 1 , n p 2 , . . . , n p k } S_{zp}=\{np_1, np_2, ..., np_k\} Szp={np1,np2,...,npk}(Chen and Ng 2015),这可以回忆起大部分(约 98%)的先行词。此外,还考虑了先行词的上下文 { n p c 1 , n p c 2 , . . . , n p c k } \{npc_1, npc_2, ..., npc_k\} {npc1,npc2,...,npck}。为了确定 z p zp zp 的正确前因,我们设计了一个层次注意网络 f ( z p , n p ) f(zp, np) f(zp,np),并将在下面的小节中详细介绍。

3.2 分层注意力网络

       以前的方法没有考虑到足够的信息,例如,它们没有考虑到零代词和候选先行词之间的足够的互动。先行词的语境可能对建模有帮助,但在以前的方法中通常被忽略。此外,先行词的信息也很少被考虑用来帮助建立零代词的模型。为了以更好的方式对 z p zp zp n p np np n p c npc npc 进行建模,我们设计了一个分层注意网络,如图2所示。
在这里插入图片描述
       零代词和候选先行词的语境建模。 由于零代词是没有文本的空隙,因此将把 z p zp zp 的上下文作为模型 z p zp zp 的输入(Yin et al. 2017; 2018a; 2018b)。此外,我们还利用了候选先行词 n p c npc npc 的上下文信息,这在以前的方法中被忽略了,实际上应该考虑到。在这里,我们应用一个两层的注意网络,包括一个双向注意层和一个自我注意层,来交互学习 z p zp zp n p c npc npc 的表示。
       编码层。 编码 z p zp zp n p c npc npc 的方法是vanilla recurrent neural networks (RNNs),这在以前的方法中被应用(Yin et al. 2018b)。我们首先使用一个从左到右的 RNN 来编码 z p zp zp 的左侧上下文,并使用一个从右到左的 RNN 来编码右侧上下文。编码之后,我们可以分别得到 z p zp zp 的前文和后文的隐藏状态。因此,我们可以通过简单地串联两个矩阵得到 z p zp zp 的最终隐藏状态 H z p ∈ R d × n H_{zp}∈R^{d×n} HzpRd×n,其中 d d d 是隐藏大小, n n n z p zp zp 的上下文长度。此外,我们还用同样的方法来编码候选先行词 n p c npc npc 的上下文。 n p c npc npc 的最终状态被表示为 H n p c ∈ R d × m H_{npc}∈R^{d×m} HnpcRd×m,其中 m m m 是先行词的上下文长度。
       双向注意力层。 以互动的方式学习ZP和NPC的表征。该层首先计算出一个注意力矩阵:
A t t = R e L U ( W l T H z p ) T ⋅ R e L U ( W l T H n p c ) (2) \begin{aligned} Att=ReLU(W_l^TH_{zp})^T·ReLU(W_l^TH_{npc}) \tag{2}\\ \end{aligned} Att=ReLU(WlTHzp)TReLU(WlTHnpc)(2)其中, W l T W^T_l WlT 是线性变换的可训练矩阵, A t t ∈ R n × m Att∈R^{n×m} AttRn×m A t t ( i , j ) Att(i, j) Att(i,j) 代表 z p zp zp 的第 i i i 个词和 n p c npc npc 的第 j j j 个词之间的注意力得分。
       通过计算出的注意力矩阵 A t t Att Att,我们可以得到从 n p c npc npc z p zp zp 的归一化分数,表明 n p c npc npc 的哪些词与 z p zp zp 的每个词最相关。
在这里插入图片描述

       因此,从npc到zp的第i个字的对齐表示可以得出:
在这里插入图片描述

       最后,我们通过简单的求和,将原始的情境表征和相应的注意力向量结合起来,即 z p zp zp
在这里插入图片描述

       类似于计算zp的最终表征,我们也可以得到npc的表征,即 H n p c ′ H'_{npc} Hnpc
       自注意力层。 自注意力层最后分别应用于 z p zp zp n p c npc npc 的表征,得到最终的向量。我们可以按以下方式计算 z p zp zp 的注意分数:
S c o = s o f t m a x ( W 1 t a n h ( W 2 H z p ′ ) ) (6) \begin{aligned} Sco=softmax(W_1tanh(W_2H'_{zp})) \tag{6}\\ \end{aligned} Sco=softmax(W1tanh(W2Hzp))(6)其中 W 1 ∈ R 1 × d W_1∈R^{1×d} W1R1×d W 2 ∈ R d × d W_2∈R^{d×d} W2Rd×d 是权重矩阵。然后我们可以得到 z p zp zp 的最终向量:
v z p = S c o ⋅ ( H z p ′ ) T (7) \begin{aligned} v_{zp}=Sco·(H'_{zp})^T \tag{7}\\ \end{aligned} vzp=Sco(Hzp)T(7)同样地,我们可以得到 n p c npc npc 的最终表示,即 v n p c v_{npc} vnpc
       候选先行词的内容建模。 毫无疑问,候选先行词的内容也应该被考虑。与上下文的编码类似,我们应用一个 RNNs ,其输入由候选先行词中的单词组成(Yin等人,2018b)。然后我们可以得到名词代词内容np的隐藏状态 H n p = { h n p 1 , . . . , h n p i , . . . , h n p p } H_{np}=\{h^1_{np},..., h^i_{np},..., h^p_{np}\} Hnp={hnp1,...,hnpi,...,hnpp},其中 p p p n p np np 的长度。
       为了更好地捕捉候选先行词内容中信息量更大的部分,我们在此通过利用其上下文的信息将注意力层整合到我们的模型中:
在这里插入图片描述
其中 W a t t W_{att} Watt b a t t b_{att} batt 是权重矩阵和偏置,然后我们可以得到最终的表示 v n p v_{np} vnp
在这里插入图片描述

       获得决议结果。 在生成 z p zp zp n p np np n p c npc npc 的表征后,我们使用两层前馈神经网络来计算每个零代词候选先行词的解析分数。以 v z p v_{zp} vzp v n p c v_{npc} vnpc v n p v_{np} vnp 为输入,我们的模型通过两个 t a n h tanh tanh 层来计算分辨率分数。
在这里插入图片描述
其中 W j W_j Wj b j b_j bj 是这个前馈神经网络的参数, r 0 = ( v z p ; v n p ; v n p c ; v f e ) r_0=(v_{zp}; v_{np}; v_{npc}; v_{fe}) r0=(vzp;vnp;vnpc;vfe)。手工制作的特征 v f e v_{fe} vfe,在以前的工作中使用(Yin等人,2016;2017;2018a;2018b),旨在捕捉 z p zp zp n p np np 之间的句法、位置和其他关系(Chen和Ng,2013;2016)。然后我们就可以得到解析得分:
在这里插入图片描述
其中, s i ∈ ( − ∞ , ∞ ) s_i∈(-\infty,\infty) si(,) 是一个标量,表示第 i i i 个候选先行词 n p i np_i npi 被预测为前者的解析概率, r − 1 r_{-1} r1 是第二个隐藏层的输出。之后,我们得到所有候选先行词 { s 1 , s 2 , . . . , s k } \{s_1, s_2, ..., s_k\} {s1,s2,...,sk} 的解析分数。得分最大的候选先行词被选为 z p zp zp 的先行词。

3.3 配对损失 Pairwise Loss

       为了指导模型的优化,我们设计了一个合理的损失,名为Pairwise Loss,它是基于一个成对的边缘损失和一个相似性约束,而不是以前方法中使用的交叉熵损失。我们将我们的损失函数称为Pairwise Loss,主要有两个原因:

  • 我们把候选先行词集中的每个正确的先行词和每个错误的先行词作为一对,然后计算它们之间的对等边际损失。
  • 我们把正确的前因放在一起,然后设计一个相似性约束来更好地训练模型。

       成对的边缘损失(Pairwise-Margin Loss)。 以前的方法将任务视为每个零代词和候选先行词对的同指代分类任务,即把例子分为同指代或非同指代两类,然后通过最小化交叉熵误差来训练他们的模型,这种方法不太合理。首先,交叉熵损失函数为所有的例子设定了一个固定的决策边界,这不够灵活。其次,在解决同指代词的任务中,非同指代词的例子要比同指代词的例子多得多,这将导致数据不平衡的问题,在分类任务中无法有效解决。
       为了解决上述问题,我们设计了一个成对边际损失,这比较合理。在提取的零代词 S z p = { n p 1 , n p 2 , . . . , n p k } S_{zp}=\{np_1, np_2, ..., np_k\} Szp={np1,np2,...,npk} 的候选先行词集合中,我们可以简单地将其分为两个集合,正确的候选先行词集合 S z p T = { n p 1 , n p 2 , . . . , n p k 1 } S^T_{zp}=\{np_1, np_2, ..., np_{k1} \} SzpT={np1,np2,...,npk1} 和错误的候选先行词集合 S z p F = { n p 1 , n p 2 , . . . , n p k 2 } S^F_{zp}=\{np_1, np_2, ..., np_{k2} \} SzpF={np1,np2,...,npk2}。然后,我们可以设计不同情况下的原始损失函数(如公式(12)所示,并在图3中说明)如下:
在这里插入图片描述
在这里插入图片描述

  • 情况1:如果候选集同时包含正确的先行词和错误的先行词( S z p T ≠ Ø S^T_{zp} \not= Ø SzpT=Ø S z p F ≠ Ø S^F_{zp}\not=Ø SzpF=Ø),我们设计一个成对边缘损失,其中 m 是正确先行词和错误先行词之间的边缘。
  • 情况2:如果候选集只包含正确的先行词( S z p T ≠ Ø S^T_{zp} \not= Ø SzpT=Ø S z p F = Ø S^F_{zp}=Ø SzpF=Ø,命名为案例2a)或错误的先行词( S z p T = Ø S^T_{zp} = Ø SzpT=Ø S z p F ≠ Ø S^F_{zp}\not=Ø SzpF=Ø,命名为案例2b),将设置边界值,即前者的下限值 b v T bv_T bvT和后者的上限值 b v F bv_F bvF,以指导这些实例的训练。边界值是根据满足案例11的样本所产生的分辨率分数来设置的。
  • 情况3:如果候选集是空的( S z p T = Ø S^T_{zp} = Ø SzpT=Ø S z p F = Ø S^F_{zp}=Ø SzpF=Ø),相应的 z p zp zp 将被忽略。

       通过设计的pairwise-margin loss,我们上面提到的两个问题都可以得到很好的解决。对偶-边际损失并没有设定一个明确的决策边界,而是要求正确先行词的解析概率比错误先行词的解析概率高一些。此外,pairwise-margin loss 可以轻松解决不平衡数据的问题。对于第一种情况,即最常见的情况,在计算 pairwise-margin loss 时,使用的正确例子的数量与错误例子的数量相同。
       正确的先行词相似性。 由于特定Zp的候选集合中的正确先行词必须具有相同或接近的含义,我们将正确先行词之间的相似性整合到上述的对偶边际损失函数中。我们计算出正确先行词之间的余弦相似度,然后定义约束条件。
在这里插入图片描述其中sim(·)是计算 v x 1 v_{x_1} vx1 v x 2 v_{x_2} vx2 之间余弦相似性的函数,这是在节中描述的 n p np np 的表示。

       最终损失函数。 该模型是通过最小化成对边际损失、相似性约束和L2正则化项的组合来训练的。
在这里插入图片描述
其中 λ c λ_c λc λ λ λ L c L_c Lc L 2 L_2 L2 正则化项的权重。
       在设计的 L L L 中,成对边际损失 L o L_o Lo 的设计是为了使所有正确的先行词得到比错误的先行词更大的解析分数,相似性约束 L c L_c Lc 使同一零代词的正确先行词具有相似的表示, ∣ ∣ θ ∣ ∣ 2 2 ||θ||^2_2 θ22 L 2 L_2 L2 正则化项,用于避免过度拟合。有了所提出的损失 L L L ,可以用合理的方式解决解析任务。

4 实验

4.1 实验设置

       数据集。我们在OntoNotes 5.0数据集的中文部分进行了实验。这个数据集中的文档来自6个来源:BN(广播新闻),NW(新闻网),BC(广播对话),WB(网络博客),TC(电话对话)和MZ(杂志)。数据集的统计数据见表 1。
在这里插入图片描述

       衡量标准。遵循以往关于零代词解析的方法(Zhao and Ng 2007; Chen and Ng 2016; Yin et al. 2016; 2017; 2018a; 2018b),采用F-score(F)来评估我们的模型,其计算方法如下。
在这里插入图片描述
其中,P和R是模型的精度和召回率, N h i t N_{hit} Nhit N a z p ∗ N_{azp}∗ Nazp N a z p N_{azp} Nazp 分别表示正确解决的例子、具有非空候选集的例子和测试集中的 AZPs 的数量。除了总体结果之外,我们还报告了每个来源的 F-cores。
       基线。我们使用最近的中文零代词解析方法作为基线,即基于学习的模型(Zhao and Ng 2007);无监督的方法(Chen and Ng 2015);还有一些是基于深度学习的方法(Chen and Ng 2016;Yin et al. 2016;2017;Liu et al. 2016;Yin et al. 2018a; 2018b)。
       超参数。我们通过Adam(Kingma and Ba 2014)最小化损失函数,学习率为5e-5, L 2 L_2 L2 权重为1e-4。输入嵌入向量的维度为100,隐藏层和表征的维度为256,配对损失的边际 m m m 为0.1,正确先行词和错误先行词的边界值为 0.3 和 0.4,相似性约束 λ c λ_c λc 的权重为0.5。此外,我们在每一层的输出上添加概率为 50% 的 dropout(Hinton等人,2012)。
       与之前的方法相同(Yin et al. 2018a; 2018b),我们取零代词前后文的十个字来编码 z p zp zp,候选先行词的上下文也用同样的方法处理。此外,当候选先行词的内容超过八个字时,我们取其最后的八个字。

4.2 与基线的比较

       我们在表2中报告了HAN-PL和基线的实验结果(F-score),包括完整测试数据集的总体结果和每个来源的结果。
在这里插入图片描述

       如表2所示,我们的模型 HAN-PL 在总体 F 分数上达到了60.2%,大大超过了最佳基线(Yin等人2018b)的2.9%。此外,我们对不同来源的测试语料库进行了实验,如前六栏所示。我们可以观察到,我们的模型 HANPL 在数据集的 6 个来源中的 4 个中提高了性能。更具体地说,我们的模型在所有文档的F-score上都优于最佳基线(Yin等人,2018b):2.4%(来源NW)、0.1%(来源MZ)、1.1%(来源WB)、5.6%(来源BN)、2.2%(来源BC)和1.5%(来源TC)。我们的模型在某些来源(NW、BN、BC)上获得了比其他来源(MZ、WB、TC)更好的性能,原因之一可能是后者的文本长度较短,这使得注意力机制难以捕捉到信息。此外,这些资料中一些常见的大量口头语,如 "Er "和 “Yo”,也给零代词和候选词的编码带来困难。

4.3 分层注意力的有效性

       为了验证使用分层注意力的有效性,我们在OntoNotes 5.0数据集上进行了广泛的实验,并报告了实验结果,如表 3 所示。我们设计了三个消融的模型:
在这里插入图片描述

  • w/o自注意力的HAN-PL应用了双向注意层,并对双向注意层的最终输出,即 H z p ′ H'_{zp} Hzp H n p c ′ H'_{npc} Hnpc,使用平均集合。
  • w/o npc2zp注意力的HAN-PL不应用从 n p c npc npc z p zp zp 的注意机制,而自我注意层应用于 H z p H_{zp} Hzp H n p c ′ H'_{npc} Hnpc
  • w/o zp2npc注意力的HAN-PL与最后一个模型相似,自注意层应用于 H z p ′ H'_{zp} Hzp H n p c H_{npc} Hnpc 上。

       从实验结果来看,我们可以看到双向注意层和自注意层都可以获得改进的性能。如果没有自注意机制,性能比原方法低1.6%。此外,将双向注意层改为单向注意层,即只应用 npc2zp 注意或 zp2npc 注意,也会使性能下降。实际上,应用从 zp 到 npc 的注意更有效,因为相应的消融模型的性能比原始方法的性能差很多。
       为了更好地说明层次注意网络的有效性,我们给出一个案例,如图4所示。从图中我们可以看出,零代词和候选先行词之间的层次注意学习可以成功地捕捉到解释零代词 "pro"和候选先行词 "双方 "的有用信息。零代词的上下文 "继承权 "和候选先行词的上下文 "继承权 "含义相似,得到了更多的关注,而一些无意义的词,如 “从”、"是 "和一些标点符号则被层次注意网络所忽略。最后,该模型可以达到零代词和候选先行词是同指代的结果。
在这里插入图片描述

4.4 成对损失的有效性

       To verify the impact of applying Pairwise Loss, we conduct extensive experiments on the OntoNotes 5.0 dataset and experimental results are shown in Table 4. There are two ablated models designed:
在这里插入图片描述

  • HAN-PL w/o pairwise-margin loss将最终输出层改为softmax层,并使用交叉熵损失来指导模型的训练,这在以前的方法中得到了应用(Yin et al 2018b; Chen and Ng 2016; Zhao and Ng 2007)。
  • 不考虑相似性约束的 HAN-PL 不考虑 L c L_c Lc,即 λ c λ_c λc 被设置为0。

       如结果所示,配对损失是指导模型优化的一个合理有效的方法。用交叉熵损失代替配对损失,性能急剧下降了3.7%,这证实了应用配对损失对于良好的性能至关重要。此外,根据实验结果, S z p T S^T_{zp} SzpT n p np np 表示之间的相似性约束,可以利用正确候选先行词之间的全局信息,也有助于提高性能。

4.5 候选先行词数量的影响

       为了研究候选集的大小对HAN-PL模型的性能有何影响,我们进行了大量的实验,结果见图5。如图所示,候选先行词越多,就越难找到正确的先行词。然而,我们的模型与AttentionZP(Yin等人,2018b)相比,当候选集变大时,有更明显的改善,原因是我们设计的注意力网络可以产生更强大的特征,并且配对损失可以使模型更具有辨别力。
在这里插入图片描述

4.6 案例研究

       表5显示了从HANPL和AttentionZP(Yin等人,2018b)中抽取的一些定性的案例。我们可以观察到,我们的模型HAN-PL对于那些比较复杂的例子可以表现得更好。以第三个例子为例,候选的 "中国 "和 "侦察卫星 "有相似的语境,所以很难区分哪一个是正确的先行词。然而,我们的模型可以通过交互注意和对偶边际损失来学习这两个候选先行词之间的区别。因此,案例显示了我们的模型在零代词解析任务上的有效性。
在这里插入图片描述

5 总结

       在本文中,我们提出了一种有效的带有配对损失的层次注意网络模型来解决中文零代词问题。我们设计了一个两层的注意力模型,以更好地模拟零代词和候选先行词。为了更合理地指导模型的训练,我们还将正确先行词之间的相似性约束整合到成对损失中。在OntoNotes 5.0数据集上的实验清楚地表明,我们模型的性能是最先进的。


以上是自己对原文翻译的结果,可能有部分疏漏请谅解。
       
       
       
       
       
       
       
       
       
       
       
       
       
       

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值