论文阅读：Domain Information Enhanced Dependency Parser

最新推荐文章于 2023-07-11 16:45:26 发布

白衣少年不留白

最新推荐文章于 2023-07-11 16:45:26 发布

阅读量346

点赞数

分类专栏：论文阅读文章标签：深度学习机器学习 nlp

本文链接：https://blog.csdn.net/woshuaizuishuai/article/details/124528044

版权

本文探讨了跨域依赖句法分析的挑战，如性能下降和自训练方法不足。作者提出结合集成自训练和对抗训练增强双仿射模型，以提取领域特定和无关信息。在NLPCC2019共享任务中，该方法取得了最佳性能。

摘要由CSDN通过智能技术生成

摘要：

依赖解析已经成为自然语言处理(NLP)领域的一项重要任务。监督方法近年来取得了很大的成功。然而，当测试域与训练域不同时，这些模型可能会遭受显著的性能损失。在本文中，作者采用双仿射解析器作为基准。为了探究跨域依赖句法分析中特定于域的信息和独立于域的信息，作者分别应用了集成自训练方法和对抗学习。最后，作者结合了两种策略来增强基准模型（双仿射模型），最终作者的系统在NLPCC2019的跨域依赖解析共享任务中排名第一。
NLPCC 2019 跨域依赖解

一篇宣传文章

一、简介：

最近这些年的依存句法分析都是有监督的训练。介绍了一下依存句法分析的分类，最后引出双仿射分类。

1.1、作者要讨论的问题：

1.1.1、跨域分析性能下降

监督方法在跨域依赖解析方面存在不足。当这些监督模型用新闻领域训练数据（CTB数据集）训练后，再用它们来预测新的领域测试数据(如网络小说、生产评论等)，其性能急剧下降。

1.1.2、半监督自训练方法不足：

自训练方法严重依赖高质量的额外训练数据[。一些用于获取额外训练数据的不适当方法甚至会对跨域依赖项解析产生负面影响。

1.2、作者提出的解决方法：

1.2.1、集成模型

集成模型是获得高质量自动树的一种简单而有效的方法。前人结合了自训练和集成模型，提出了一种集成式的跨域引文分类自训练方法。受到此启发，作者使用集成模型来预测未标记数据，得到1-best的自动树。然后对自动树进行随机抽样，以获得高质量的附加训练数据。最后，原始解析器可以通过使用额外的训练数据进行多次再训练迭代来学习目标领域特定的信息。

1.2.2、对抗训练

与域无关的信息是跨域任务的另一种有效资源。领域对抗训练可以通过对抗性领域分类器提取领域无关信息。作者应用对抗性学习来增强基准。

1.2.3、总体方案

作者研究了两种用于跨域依赖分析的域信息。首先，作者重新实现Bi-Affine解析器作为基线。然后，作者对双仿射解析器进行了增强，增加了目标领域特定信息和领域无关信息，两者互补。一方面，作者采用集成式自训练方法从未标记的目标域数据中提取领域特定信息;另一方面，作者使用对抗性学习扩展我们的基线，以提取与领域无关的信息。

二、相关工作

2.1 依存分析

依赖关系分析主要有两种算法:基于图的算法和基于转换的算法。
基于图的解析器计算所有弧和标签的分数，并搜索得分最高的依赖树作为输出。基于转换的解析器将依赖树预测转换为一系列动作预测。这两种解析器都是通过早期使用手工设计的特性来关注统计模型。
近年来，神经特征在依存句法分析中得到了广泛的研究。在这些神经依赖分析器中，Bi-Affine分析器的性能达到了最先进的水平。因此，我们将Bi-Affine解析器重新实现为基线，这在依赖项解析中很流行。

2.2 领域自适应

许多研究已经证明，自训练方法对于依赖性分析是有用的。大多数方法集中于复杂的附加训练数据样本方法来实现这一目标。集成是一种简单而有效的依赖解析方法，可以提高性能。Ensemble-style self-training on citation classification提出了一种集成式自训练方法，可为自训练提供高质量的附加训练数据。受Ensemble-style self-training on citation classification.的启发，我们使用集成风格的自训练扩展了Bi-Affine解析器。
对抗训练已经被提出用于跨域适应，为依存句法分析带来了显著的性能。我们的对抗性域分类器主要借鉴于2014年提出的GRL。

三、作者的模型：

3.1、双仿射模型：

双仿射模型主要由5个部分构成，分别是：

embedding layers：
给出一个句子，我们按照 $\{\bold{w_1,w_2,...,w_n} \}$ 格式输入词和每个词对应的词性标注（POS）标签 $\{\bold{t_1,t_2,...,t_n} \}$

最低0.47元/天解锁文章

白衣少年不留白

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
论文阅读：Domain Information Enhanced Dependency Parser

文章目录摘要：依赖解析已经成为自然语言处理(NLP)领域的一项重要任务。监督方法近年来取得了很大的成功。然而，当测试域与训练域不同时，这些模型可能会遭受显著的性能损失。在本文中，作者采用双仿射解析器作为基准。为了探究跨域依赖句法分析中特定于域的信息和独立于域的信息，作者分别应用了集成自训练方法和对抗学习。最后，作者结合了两种策略来增强基准模型（双仿射模型），最终作者的系统在NLPCC2019的跨域依赖解析共享任务中排名第一。简介：...
复制链接

扫一扫

专栏目录