文献日志:EMNLP2020-自适应性语言普适依存分析器
基本信息(Basic Information)
原论文:UDapter: Language Adaptation for Truly Universal Dependency Parsing
作者:Ahmet Üstün, Arianna Bisazza, Gosse Bouma, Gertjan van Noord
发表会议:EMNLP2020
所属任务:NLP → \rightarrow → Dependency Parsing → \rightarrow → Multilingual Dependency Parsing
目标(Aim)
研究者们的目标是设计一个可以跨语言,普适性地分析语句依存关系的模型。依存分析的目标语言具体分为训练语料相当丰富,同时又拥有大量已经标注的句法树的语种(High-resource, In-training),以及拥有很少,甚至没有训练语料和已标注句法树的语种(Low-resource, Zero-Resource)两种类型。
问题(Problem)
跨语言来做依存分析带来的最大的问题就是各个语种在类型学上的差异(Typologically Diversity)。一方面,多语言的神经网络模型可以在Low-resource的语种上表现优于单语言模型。然而,这些模型往往在In-training的语种上表现不如单语言模型。
与其它多模型学习模型类似,研究者们要处理的主要问题是在多语言语料带来的正迁移(Positive Transfer)和负牵连(Negative Interference)两个效果中中取得平衡(Trade-off)。
直感(Intuition)
研究者们认为一个依据语种和任务进行自适应化词嵌入的模型可以有效地提高其在多语言任务上的表现,模型的自适应化模块可以依据当前语言的特征来优化当前的词嵌入,并最终提高顶层分析器的表现。
同时研究者们在论文中提出语言的类型学特征(Typological Feature)是一个为自适应模块提供特征的优秀信息源,并在实验中将其应用于实现自适应化。
相关工作(Related Work)
多语言神经网络(Multilingual Neural Network)
有一条线是多语言种神经网络翻译(NMT),有一些研究者提供引入多语言模块提高模型在Low-resource的语种上的表现。
另一条线是为多语言神经网络提供语境词嵌入(Contextual Embedding),比如2019年提出的基于Transformer模型的Multilingual BERT(mBERT)词嵌入。
跨语言依存分析(Cross-Lingual Dependency Parsing)
在自然语言处理领域,有许多方法被提出来描述语言间的特征。除了本文作者们使用的类型学特征,还包括纯基于POS的依存分析,也有将句法嵌入和跨语言词汇聚类作为特征加入训练的方法。另外,mBERT本身也可以被视为一种跨语言的词汇特征。
语言嵌入与类型学(Language Embeddings and Typology)
语言嵌入受到多语言的神经网络翻译,句法分析和语言模型等自然语言处理领域的关注。尽管基于类型学的语言嵌入被证明是行之有效的,但是类型学的特征往往需要研究者进行手动的选取来发挥作用。
有过往的研究者发现基于类型学的词嵌入可能反而不如随机初始化的词嵌入。作者们在本文中反驳了这一观点,提出基于合适的自适应化模型,类型学特征对不论In-training的还是Low-resource的语种上的依存分析都能提高其性能表现。
模型与方法(Model & Method)
Biaffine Attention Parser
UDapter顶层模型使用的是经典的Biaffine Attention Parser。
h i ( h e a d ) = M L P ( h e a d ) ( r i ) {h_i}^{(head)} = MLP^{(head)}(r_i) hi(head)=MLP(head)(ri) h i ( t a i l ) = M L P ( t a i l ) ( r i ) {h_i}^{(tail)} = MLP^{(tail)}(r_i) h