Automatic Construction of Sememe Knowledge Bases From Machine Readable Dictionaries

机器可读词典自动构建义原知识库

https://github.com/koc-lab/mrd2skb

摘要

Abstract—Sememes are the minimum semantic units of natural languages. Words annotated with sememes are organized into Sememe Knowledge Bases (SKBs). SKBs are successfully applied to various high-level language processing tasks as external knowledge bases. However, existing SKBs are manually or semi-manually constructed by linguistic experts over long periods, inhibiting their widespread utilization, updating, and expansion. To automatically construct an SKB from Machine-Readable Dictionaries (MRDs), which are readily available, we propose MRD2SKB as an automatic SKB generation approach. Well-established MRDs exist, and their construction is much simpler than SKBs. Therefore, the proposed MRD2SKB allows for fast, flexible, and extendable generation of SKBs. Building upon matrix factorization and topic modeling, we proposed several variants of MRD2SKB and constructed SKBs fully automatically. Both quantitative and qualitative results of extensive experiments are presented to demonstrate that the performances of the proposed automatically created SKBs are on par with manually and semi-manually prepared SKBs

摘要:义原是自然语言的最小语义单位。用义原注释的单词被组织成义原知识库(SKB)。 SKB 作为外部知识库成功应用于各种高级语言处理任务。然而,现有的SKB是由语言专家长期手工或半手工构建的,限制了其广泛使用、更新和扩展。为了从容易获得的机器可读字典(MRD)自动构建 SKB,我们提出 MRD2SKB 作为自动 SKB 生成方法。成熟的 MRD 是存在的,而且它们的构建比 SKB 简单得多。因此,所提出的 MRD2SKB 允许快速、灵活且可扩展的 SKB 生成。基于矩阵分解和主题建模,我们提出了 MRD2SKB 的几种变体,并全自动构建了 SKB。大量实验的定量和定性结果表明,所提出的自动创建的 SKB 的性能与手动和半手动准备的 SKB 相当.

introduction

WORDS是自然语言中可以独立存在的最小元素,但它们并不是最小的不可分割的语义单元。被称为“义原”的语义单位是词义的最小语义单位[1]。举个简单的例子,学校这个词可以被认为是教育和建筑含义的组合,而医院这个词可以被认为是医学的组合和建筑。在这些例子中,教育、医学和建筑被视为义原,学校和医院等词由这些义原的组合注释。为了各种目的而构建更复杂和层次化的义原关系,其中最好的例子是知网 [2].

义原被证明在各种自然语言处理 (NLP) 任务中非常有用,例如单词相似度计算 [3]、单词表示学习 [4]、情感分析 [5]、定义生成 [6]、[7]、词汇简化 [ 8]、词典扩展[9]和文本分类[10]。与将语言知识纳入循环神经网络(RNN)[11]、[12]、[13]、[14]的工作一致,最近的一些工作也将义原信息纳入神经网络模型,例如 RNN [15] 和变压器[16]。语言建模等基本 NLP 任务也被证明可以利用义原知识库 (SKB) 来提高性能 [10]、[17]。最近,义原也被用来增强讽刺检测[18]。

给定一组适当的预定义义原,每个单词的每种含义都应该可以表示为适当义原的组合[1]。然而,这组有限的义原是隐含在语言中的。此外,构建适当的预定义义原集并使用该预定义义原集用适当的义原注释单词也是具有挑战性的任务。因此,研究人员花费了大量的时间首先确定这个包含义原集,然后用这些义原注释各个单词以构建义原知识库(SKB)[19],[20],[21],[ 22]、[23]、[24]、[25]、[26]、[27]、[28]。在引入自动化方法之前,这些费力的任务多年来一直由具有语言知识的专家手动完成[2]、[29]。虽然专家组的参与在 NLP 领域很常见 [30],但这种方法有一定的注意事项。在文本对齐等 NLP 任务中手动创建数据集远非直截了当 [31],经过所有这些广泛的努力,生成的数据集通常规模较小且特定于领域。众包是数据集创建的另一种方法。然而,它的成本高昂,并且教育众包工作者生成高质量的数据通常很困难,特别是对于复杂的任务[30]。此外,由于SKB的构建大部分是由语言专家手动完成的,因此它们的更新和扩展具有挑战性。

鉴于上述考虑,自动化或半自动化知识库(KB)和数据集生成方法已成为各种 NLP 任务的组成部分也就不足为奇了 [32]、[33]、[34]、[35]、 [36]。特定于应用程序的知识库和字典的自动构建引起了相当大的研究兴趣[37]。自动知识库构建方法已被提出用于特定应用,例如为学术文档 [38]、[39] 生成知识库、支持推理系统 [40]、生物医学文献 [41] 和安全关键的航空电子系统[42]。此外,还提出了自动字典生成的具体应用,例如构建基于社交媒体的命名实体字典[43]、生成用于政治事件编码的字典[44]、从较小的字典构建大型字典[ 45],多语言词典的生成[46],以及爱沙尼亚语搭配词典的构建[47]。

义原注释也已实现不同程度的自动化。给定手动构建的义原集,使用这些预定义的义原自动注释给定单词,称为词汇义原预测,存在[19],[20],[21],[22],[23],[24] ,[25],[26],[27],[28]。为了自动化构建义原集,在一项开创性工作中提出了一种基于受控定义词汇(CDV)的半自动 SKB 构建方法 [48]。然而,据我们所知,从普通 MRD 全自动构建义原集的任务尚未解决。

我们建议 MRD2SKB 自动构建一组预定义的义原以及相应的义原标签,称为义原知识库(SKB),它使用相同词汇的机器可读字典(MRD)最好地表示词汇。由于成熟的 MRD 很容易获得,因此使用它们来生成 SKB 可自动减少基于语言专业知识的繁琐手动工作的瓶颈。因此,所提出的MRD2SKB方法促进了SKB在高级任务中的应用,并可以加速与义原相关的语言处理的研究。我们提出的方法的另一个理想的特性是,用义原对单个单词进行注释(自动义原预测的任务)也作为副产品出现。

所提出的 MRD2SKB 可以粗略地描述为根据给定的 MRD 构建术语文档矩阵,并以列缩减的形式对该矩阵执行适当的降维,而不牺牲语义内容。从 MRD 构建术语-文档矩阵是通过第 III-A 节中描述的预处理方法完成的。然后,我们提出两种主要方法来降低术语-文档矩阵的维数,并从所得的稠密矩阵自动导出 SKB。第一种方法利用定制的基于克罗内克乘积的矩阵约简,其详细信息在第 III-B 节中描述。第二种方法是使用主题建模方法,例如非负矩阵分解(NMF)、潜在语义分析(LSA)和潜在狄利克雷分配(LDA),其详细信息在第III-C节中给出。手稿的其余部分组织如下。我们在第二节中介绍了有关 SKB 和之前工作的更多信息。我们提议的 MRD2SKB 的详细信息在第三节中给出。我们在第四节中介绍了我们的方法的实验结果和评估。手稿在第五节中结束。

SEMEME KNOWLEDGE BASES (SKBS)

SKB 是专门构建的知识库 (KB),其中包含用预定义集中的义原注释的单词。作为类比,可以考虑预定义的义原集作为自然语言的元素周期表,即不可分割的意义构建块。 SKB 尝试通过这些义原的加权和分层组合来最低限度地定义所有词汇。文献中最著名的SKB是知网[2],多年来由语言专家手动创建。图 1 显示了来自 HowNet 的示例条目。

SKB 用于提高许多基于机器学习的 NLP 模型中的模型性能,例如改进 RNN [15]、增强 Transformer [16]、语言建模 [17]、中文定义建模 [6]、量化单词语义相似度 [49]、词义消歧(WSG)[50]、注释信息结构[51]、词汇融合识别[3]、无监督神经方面提取[52]、建模语义组合性[53]和反向字典建模[54]。 SKB 还可以为语义组合性的理论含义提供基础 [55],这对于语言处理至关重要。

SKB 的构建非常费力,需要先进的语言专业知识。用新词的义原注释来扩展已经建立的SKB的方法称为词汇义原预测,并通过各种方法进行了研究[19],[22],[23],[24],[25],[26], [27]、[28],其中一些利用字典[20]、[21]。为了生成 SKB,[48] 通过利用手动制作的字典(受控定义词汇(CDV))提出了 EDSKB,该字典包含精心挑选的单词列表,可以在更广泛的字典中构建所有定义作为其初始义原列表。然后,EDSKB 对一般字典定义进行预处理和标记,并删除不在所选义原集中的标记。 [48]还引入了依赖解析[56]以进一步减少每个术语的注释义原数量,并使用此过滤的SKB作为替代方案。虽然 EDSKB 可以从字典构建 SKB,但它仍然依赖于人工构建的 CDV 作为初始义原集,限制了其可用性,并使预定义义原集的自动构建成为一个悬而未决的问题。因此,需要一种能够构建初始义原集和相应义原标记的方法。理论上,这种方法可以选择最能代表该语言的一组最佳初始义原。此外,它可以应用于更大的开放词典,而无需手动准备CDV。受此启发,我们将在下一节中提出实现此目的的 MRD2SKB。

三.自动生成语义知识库

在本节中,我们将提供所提出的 MRD2SKB 的详细信息,这是一种从**任何机器可读字典(MRD)**构造 SKB 的全自动计算方法。 MRD 是一个数据库,其中包含单词、它们的定义以及可能的其他相关信息,采用机器可读的格式 [57]。字典的构建对于任何自然语言来说几乎都是必要的,因为人类每天也需要它们来学习和研究语言。因此,人们正在付出相当大的努力来构建 MRD,其中许多也在线发布,例如 WordNet [58] 和 Wiktionary [59]。此外,自动词典[60]和自动反向词典[61]构建都是在NLP领域进行研究的,并且词典被用于各种NLP任务,例如语言模型增强[62]。这些词典的信息内容和词条数各不相同,因此应根据应用需求来选择 MRD。

构建字典比列出义原列表要容易得多,因为义原是限制性的,而单词定义可以利用整个词汇表。我们假设一本综合词典包含涵盖语言的整个语义空间所需的所有单词。因此,几乎所有义原都应该已经在字典本身中。为了提取这些义原,我们建议对从预处理的 MRD 获得的文档术语矩阵应用二维降维方法,并将生成的文档术语矩阵用作 SKB。

我们首先将 MRD 建模为文档术语矩阵。文档术语矩阵是描述文档集合中出现的术语频率的矩阵,其中行对应于集合中的文档,列对应于术语。这些条目表示特定术语在特定文档中的出现频率。该矩阵的转置称为术语文档矩阵,其中行和列对应关系相应地交换。在本文中,我们将使用文档术语矩阵格式。 MRD 可以被视为包含术语的文档的集合,其中文档是 MRD 中存在的定义,并且有权使用代表术语的定义单词。请注意,由于一词多义,一个单词(术语)可以有多种含义,因此可以有多个定义文档。在我们的例子中,我们将每个意义定义视为一个单独的文档。我们通过 Lesk 算法 [63] 执行词义消歧 (WSD),将定义文档中的每个术语标记为 MRD 中包含的特定含义。然后我们用数学方式表示我们的 MRD 如下:

五、Experiments and results

在我们的实验中,我们使用了从 WordNet [79] 和 Wiktionary [59] 的定义中提取的两个 MRD。MRD 使用 SpaCy [64] 进行预处理。将词形还原、停用词去除和二元语法构建步骤应用于 MRD,以从 MRD2SKB 获取术语文档矩阵。然后,得到的更密集的词义原矩阵被视为 SKB,我们将它们放入某些已经能够利用 SKB 的 NLP 任务中。
当我们在本节的表格中报告结果时,我们还将按以下顺序在方括号中提供我们提出的 MRD2SKB_Kro 模型变体中使用的超参数:

其中mrd是使用的MRD描述符(wn:WordNet,wk:Wiktionary),N是要确定的义原数量,μ是语义关系因子,k是二元义原注释阈值。对于 MRD2SKB_Top 方法,我们使用以下符号:

其中 tmm 是所使用的主题建模方法(NMF、LSA、pLSA、LDA),并且 mrd 和 N 相同。在下面的小节中,我们介绍了我们的实验的定量和定性结果以及我们提出的方法的超参数分析。在随后的表格中,粗体

分析

和我要做的好像不太符合

其实有一个问题
他是从定义里面找到义原
但是这样子很多单词的义原都不一样了
如何找到最相近的义原呢?

我觉得义原应该是定的,这样子对于相近的词语才能找到最相近的术语。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

向上Claire

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值