NLP论文阅读(通过义元信息增强的Transformer)

论文

                Enhancing Transformer with Sememe Knowledge

 摘要

向Transformer模型中引进了义元知识,并提出三种基于义元信息增强的Transformer模型,根据语言定义,义位是语言的最小语义单位,可以很好地表示单词背后的隐含语义

 在Transformer中引入义元知识可以持续改善语言模型和下游任务,对抗测试显示义元信息可以提高模型健壮性

引言

自我监督的预训练显着提高了Transformer(V aswani等人,2017)在各种NLP任务上的性能(Radford等人,2018; Devlin等人,2019; Yang等人,2019)。尽管没有引入明确的语言规则和概念,但是通过大规模数据提供的大量训练信号,模型可以实现出色的性能。尽管如此,最近的工作仍然表明,外部句法信息可以改善各种NLP任务,包括机器翻译(Sennrich和Haddow,2016年; Aharoni和Goldberg,2017年; Bastings等人,2017年)和语义角色标记(Marcheggiani和Titov,2017年; Strubell等人,2018)。我们探索将义元知识整合到Transformer中(V aswani等人,2017)。义元是自然语言中语义的最小语义单位,因为一些语言学家认为,可以组成一组有限的封闭的义元来表示每个单词的语义(Bloomfield,1926)。在这项工作中,我们采用了高质量的基于义元的词法知识库HowNet(Dong and Dong,2006; Qi et al。,2019),该模型可以为理解汉语单词语义的模型提供强大的支持(Gu et al。,2018)。 ; Niu等人,2017)。图1中显示了sememe注释的一些示例。两种简单的方法将义元知识纳入我们的框架。

  1. 在语言假设的基础上,我们在每个词嵌入中添加聚合的义元嵌入,以增强其语义表示。
  2. 将义元预测作为辅助任务,来帮助模型更深入地理解单词语义

我们验证了我们的方法在几个与单词级和句子级语义密切相关的中文NLP任务上的有效性。按照预训练和微调的常规设置,我们的实验表明,使用sememe增强型Transformer可以在所有任务上实现一致的改进。我们还发现,sememe增强模型可以用较少的微调数据来达到相同的性能,这是理想的,因为数据注释过程始终是耗时且昂贵的。

方法

义元聚集嵌入以及义元预测辅助任务

对于每个单词w,Transformer-SE都会考虑其所有义元,并通过在单词嵌入中添加其平均义元嵌入来增强单词表示。

 

 义元预测辅助任务

除了Transformer-SP的语言建模任务之外,我们还添加了sememe预测任务。这项任务挑战了模型整合义元知识的能力,并且可以看作是义元建模的补充任务,因为预测下一个单词的义元与理解语义密切相关,并且比直接建模义元的概率通常更容易学习

实验

 我们使用6层8头变压器,其隐藏大小为768,前馈大小为2048。我们将字嵌入和sememe嵌入大小都设置为768。我们将批处理大小设置为32,将辍学率设置为0.2,以缓解过度拟合的情况。词汇量为39,770,总义元为2,100。我们将序列长度截断为128,以进行预训练和监督学习。进行监督训练时,我们将系数ρ设置为0.5。嵌入被绑定到输入层和输出层,以加快收敛速度​​。我们裁剪小于2的梯度,并使用具有0.001学习速率和8000个预热步骤的Adam优化器(Kingma和Ba,2014)。对于下游任务,我们使用语言建模中最好的预训练模型进行初始化。我们使用困惑(PPL)来衡量语言模型的性能。 PPL越低表示性能越好。

As characters provide strong semantics for Chinese (Chen et al., 2015), we also compare sememe decomposition with character decomposition (Sememe2Char) for our best model (i.e., with aggre-gated character embedding and character predictionauxiliary task). From Table 1, we observe clear performance drops over all tasks, which demonstrates that decomposing word into sememes are much more effective.由于字符为中文提供了强大的语义(Chen et al。,2015),因此我们还比较了sememe分解与字符分解(Sememe2Char)来获得最佳模型(即具有聚集的字符嵌入和字符预测辅助任务)。从表1中,我们观察到所有任务的性能明显下降,这表明将单词分解为义元要有效得多。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值