文献日志：EMNLP2020-自适应性语言普适分析器

最新推荐文章于 2024-01-19 13:36:24 发布

Stareru

最新推荐文章于 2024-01-19 13:36:24 发布

阅读量464

点赞数 1

文章标签：自然语言处理人工智能深度学习神经网络机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43664891/article/details/115056702

版权

UDapter是EMNLP2020上的一篇论文，介绍了一个能够自适应不同语言句法分析的模型，尤其适用于资源匮乏的语言。通过结合Transformer、Adapter模块和类型学特征，该模型在高资源和低资源语言上均表现优越，刷新了多项SOTA记录。

摘要由CSDN通过智能技术生成

基本信息（Basic Information）

原论文：UDapter: Language Adaptation for Truly Universal Dependency Parsing

作者：Ahmet Üstün, Arianna Bisazza, Gosse Bouma, Gertjan van Noord

发表会议：EMNLP2020

所属任务：NLP $\rightarrow$ Dependency Parsing $\rightarrow$ Multilingual Dependency Parsing

目标（Aim）

研究者们的目标是设计一个可以跨语言，普适性地分析语句依存关系的模型。依存分析的目标语言具体分为训练语料相当丰富，同时又拥有大量已经标注的句法树的语种（High-resource, In-training），以及拥有很少，甚至没有训练语料和已标注句法树的语种（Low-resource, Zero-Resource）两种类型。

问题（Problem）

跨语言来做依存分析带来的最大的问题就是各个语种在类型学上的差异（Typologically Diversity）。一方面，多语言的神经网络模型可以在Low-resource的语种上表现优于单语言模型。然而，这些模型往往在In-training的语种上表现不如单语言模型。

与其它多模型学习模型类似，研究者们要处理的主要问题是在多语言语料带来的正迁移（Positive Transfer）和负牵连（Negative Interference）两个效果中中取得平衡（Trade-off）。

直感（Intuition）

研究者们认为一个依据语种和任务进行自适应化词嵌入的模型可以有效地提高其在多语言任务上的表现，模型的自适应化模块可以依据当前语言的特征来优化当前的词嵌入，并最终提高顶层分析器的表现。

同时研究者们在论文中提出语言的类型学特征（Typological Feature）是一个为自适应模块提供特征的优秀信息源，并在实验中将其应用于实现自适应化。

相关工作（Related Work）

多语言神经网络（Multilingual Neural Network）

有一条线是多语言种神经网络翻译（NMT），有一些研究者提供引入多语言模块提高模型在Low-resource的语种上的表现。

另一条线是为多语言神经网络提供语境词嵌入（Contextual Embedding），比如2019年提出的基于Transformer模型的Multilingual BERT(mBERT)词嵌入。

跨语言依存分析（Cross-Lingual Dependency Parsing）

在自然语言处理领域，有许多方法被提出来描述语言间的特征。除了本文作者们使用的类型学特征，还包括纯基于POS的依存分析，也有将句法嵌入和跨语言词汇聚类作为特征加入训练的方法。另外，mBERT本身也可以被视为一种跨语言的词汇特征。

语言嵌入与类型学（Language Embeddings and Typology）

语言嵌入受到多语言的神经网络翻译，句法分析和语言模型等自然语言处理领域的关注。尽管基于类型学的语言嵌入被证明是行之有效的，但是类型学的特征往往需要研究者进行手动的选取来发挥作用。

有过往的研究者发现基于类型学的词嵌入可能反而不如随机初始化的词嵌入。作者们在本文中反驳了这一观点，提出基于合适的自适应化模型，类型学特征对不论In-training的还是Low-resource的语种上的依存分析都能提高其性能表现。

模型与方法（Model & Method）

UDapter整体架构

图1：UDapter整体架构

Biaffine Attention Parser

UDapter顶层模型使用的是经典的Biaffine Attention Parser。

${h_i}^{(head)} = MLP^{(head)}(r_i)$ ${h_i}^{(tail)} = MLP^{(tail)}(r_i)$

最低0.47元/天解锁文章

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。