06-Sememe Knowledge Representation_semem语言学-CSDN博客

本文链接：https://blog.csdn.net/zzk0126/article/details/132731341

6 Sememe Knowledge Representation

语言知识图（例如，WordNet和HowNet）描述了形式语言和结构语言中的语言知识，它们可以很容易地融入到现代自然语言处理系统中。在本章中，我们将重点关注关于HowNet的研究。我们首先简要介绍了HowNet和半音素的背景和基本概念。接下来，我们介绍半素表示学习的动机和现有的方法。在本章的最后，我们回顾了半音素表示的重要应用。

6.1 Introduction

在自然语言处理（NLP）领域中，单词通常是最小的研究对象，因为它们被认为是人类语言中能够独立存在的最小的有意义的单元。然而，单词的意思可以进一步分为更小的部分。例如，人的意义可以被认为是人、男性和成人的意义的结合，而男孩的意义是由人、男性和儿童的意义组成的。在语言学中，意义的最小不可分割单位，即语义单位，被定义为语素[8]。一些语言学家认为，所有单词的意思都可以由一组有限的封闭语义组成。

然而，语素是隐式的，因此，很难直观地定义语素集，并确定一个单词可以有哪些语素。因此，一些研究者花了数十年的时间从各种词典和语言知识库（KBs）中筛选语素，并用这些选定的语素对单词进行注释，构建基于语素的语言知识库。WordNet和HowNet [17]是这类kb中最著名的两个。在本节中，我们将重点关注HowNet中语言知识的表示。

6.1.1 Linguistic Knowledge Graphs

6.1.1.1 WordNet

WordNet根据意义将英语名词、动词、形容词和副词分组为同义词（即认知同义词集），这代表了一个独特的概念。每个同步集都有一个简短的描述，在大多数情况下，甚至有一些简短的句子作为例子来说明在这个同步集中的单词的使用。概念-语义关系和词汇关系将同步集和单词联系起来。单词之间的主要关系是同义词，表示单词具有相似的含义，在某些情况下可以被其他词取代，而词集之间的主要关系是超名/下义词（即ISA关系），表示更一般的词集和更具体的词集之间的关系。动词词也有层次结构，反义是描述意思相反的形容词之间的关系。综上所述，所有WordNets的117,000个同步集都通过少量的概念关系相互连接。

6.1.1.2 HowNet

HowNet还为半语素构建了一个分类法。HowNet的所有半音素都可以分为以下类型之一：事物、部分、属性、时间、空间、属性值和事件。此外，为了更精确地描述单词的语义，HowNet将被称为“动态角色”的语素之间的关系合并到单词的语素注释中。

考虑到多义词，HowNet区分了语素注释中每个词的不同含义。每一种感觉也可以用中文和中文来表达英语图6.1显示了一个单词的半音素注释的实例。从图中可以看出，苹果一词有四种意义，包括苹果（电脑）、苹果（电话）、苹果（水果）和苹果)（树），每个意义都是“半素树”的根节点，其中每一对父子半素节点都是多关系的。此外，HowNet还为每个感觉注释了POS标签，并添加了情绪类别和一些使用示例。

6.2 Sememe Knowledge Representation

这些研究表明，词义消除歧义对WRL至关重要，HowNet中词义的半素注释可以为这些任务[63]提供必要的语义正则化。为了探索其可行性，我们引入了半符号编码的Word表示学习（SE-WRL）模型，该模型可以同时检测词义和学习表示。更具体地说，该框架将每个词义视为其语义的组合，并根据其上下文迭代地执行词义消歧，并通过扩展Word2vec [43]中的跳格来学习词义、词义和单词的表示。在此框架下，提出了一种基于注意力的方法，根据上下文自动选择合适的词义。充分利用符号中，我们介绍了SE-WRL的三种不同的学习和注意策略SSA、SAC、SAT和SAT，将在下面的段落中描述。

6.2.1 Simple Sememe Aggregation Model

简单半素聚合模型（SSA）是一种基于Skip-gram模型的简单思想。对于每个单词，SSA将该单词的所有意义上的所有信素考虑在一起，并使用其所有信素嵌入的平均值来表示目标单词。正式来说，我们有

$\mathbf{w}=\frac{1}{m}\sum_{s_i^{(w)}\in S^{(w)}x_j^{(s_i)}\in X_i^{(w)}}\mathbf{x}_j^{(s_i)},$

该模型遵循的假设是，一个词的语义意义是由语义单位，即语素组成的。与传统的跳过图模型相比，由于半素由多个词共享，该模型可以利用半素信息对词之间潜在的语义关联进行编码。在这种情况下，共享相同半音素的相似词可能最终会得到相似的表示。

6.2.2 Sememe Attention over Context Model

SSA模型用聚合的半素嵌入代替目标词嵌入，将半素信息编码到单词表示学习中。然而，SSA模型中的每个单词在不同的上下文中仍然只有一个表示，这不能处理大多数单词的多义性。很直观，我们应该根据特定的上下文为目标词构建不同的嵌入，在HowNet中支持词义注释。

为了解决这个问题，提出了半上下文关注模型（SAC）。SAC利用注意方案，根据目标词自动为上下文词选择合适的感官。也就是说，SAC对上下文词进行词义消歧，以更好地学习目标词的表示。SAC模型的结构如图6.2所示。

更具体地说，SAC利用了目标词w的原始词嵌入，并使用半音素嵌入来表示上下文词wc，而不是原始的上下文词嵌入。假设一个词通常在一个句子中显示了一些特定的含义。这里采用目标词嵌入作为注意点来选择最合适的意义来组成上下文词的嵌入。上下文词嵌入wc可以形式化如下：

$\mathbf{w}_c=\sum_{j=1}^{|S^{(w_c)}|}\mathrm{Att}(s_j^{(w_c)})\mathbf{s}_j^{(w_c)},$

$\operatorname{Att}(s_j^{(w_c)})=\frac{\exp(\mathbf{w}\cdot\mathbf{\hat{s}}_j^{(w_c)})}{\sum_{k=1}^{|S^{(w_c)}|}\exp(\mathbf{w}\cdot\mathbf{\hat{s}}_k^{(w_c)})}.$

注意策略假设上下文词义嵌入与目标词w越相关，在构建上下文词嵌入时就越应该考虑这种意义。与有利于注意的方案，每个上下文词可以表示为其意义上的特定分布。这可以被看作是软的WSD，它有助于学习更好的单词表示。

####6.2.3 Sememe Attention over Target Model

上下文注意模型可以根据目标词灵活地为上下文词选择合适的意义和半素。该过程也可以通过以上下文词为注意词，为目标词选择合适的感官。因此，我们提出了半素注意超过目标模型（SAT），如图6.3所示。

与SAC模型不同，SAT学习上下文词的原始词嵌入和目标词的半素嵌入。然后SAT应用上下文词对目标词w的多种意义进行注意，构建w的嵌入，形式化如下：

$\mathbf{w}=\sum_{j=1}^{|S^{(w)}|}\mathbf{Att}(s_j^{(w)})\mathbf{s}_j^{(w)},$

而基于上下文的注意力的定义如下：

$\operatorname{Att}(s_j^{(w)})=\frac{\exp(\mathbf{w}_c^{\prime}\cdot\mathbf{\hat{s}}_j^{(w)})}{\sum_{k=1}^{|S^{(w)}|}\exp(\mathbf{w}_c^{\prime}\cdot\mathbf{\hat{s}}_k^{(w)})},$

回想一下，SAC只使用一个目标词作为注意来选择上下文词的意义，而SAT同时使用几个上下文词作为注意来选择目标词的适当意义。因此，SAT有望进行更可靠的WSD，并产生更准确的单词表示，这在实验中得到了探索。

6.3 Applications

在上一节中，我们将介绍HowNet和半音素表示。事实上，像HowNet这样的语言知识图包含了丰富的信息，可以有效地帮助下游的应用程序。因此，在本节中，我们将介绍语素表示的主要应用，包括基于语素的单词表示、语言知识图的构建和语言建模。

6.3.1 Sememe-Guided Word Representation

词素导向词表示是通过引入源语言中基于语素的语言kb的信息来改进用于语素预测的词嵌入。Qi等人，[56]提出了两种半音素引导的词表示方法。

6.3.1.1 Relation-Based Word Representation

一种简单而直观的方法是让具有相似语素注释的单词倾向于具有相似的单词嵌入，这被称为基于单词关系的方法。首先，一个同义词列表是由基于语素的语言KBs构建的，其中共享一定数量语素的词被视为同义词。接下来，同义词被迫有更紧密的单词嵌入。

形式上，让wi是wi的原始词嵌入，ˆwi是它调整后的词嵌入。并设Syn（wi）表示单词wi的同义词集。则将损失函数定义为

$\mathscr{L}_{sememe}=\sum_{w_i\in V}\bigg[\alpha_i\|\mathbf{w}_i-\hat{\mathbf{w}}_i\|^2+\sum_{w_j\in\mathrm{Syn}(w_i)}\beta_{ij}\|\mathbf{\hat{w}}_i-\hat{\mathbf{w}}_j\|^2\bigg],$

其中，α和β控制了这两项的相对强度。应该注意的是，强迫相似的单词有紧密的单词嵌入的想法类似于最先进的改造方法[19]。然而，重构方法不能在这里应用，因为像HowNet这样的基于符号的语言kb不能直接提供其需要的同义词列表。

6.3.1.2 Sememe Embedding-Based Word Representation

基于词关系的方法虽然简单而有效，但由于它忽略了语义与词之间的复杂关系以及不同语素之间的关系，因此不能充分利用基于语义的语言kb的信息。为了解决这一局限性，提出了基于半素嵌入的方法，即联合学习半素嵌入和单词嵌入。

在这种方法中，半语素也用分布式向量表示，并将它们放在与单词相同的语义空间中。SPSE [66]通过分解词-半素矩阵和半半素矩阵来学习半素嵌入，该方法利用半素嵌入作为正则化器来学习更好的词嵌入。与SPSE不同，[56]中描述的模型不使用预先训练好的单词嵌入。相反，它同时学习单词嵌入和半素嵌入。更具体地说，可以从HowNet中提取一个单词半素矩阵M，其中Mi j = 1表示单词wi用半素xj注释，否则表示Mi j = 0。因此，通过因式分解M，损失函数可以定义为

$\mathscr{L}_{sememe}=\sum_{w_i\in V,x_j\in X}(\mathbf{w}_i\cdot\mathbf{x}_j+b_s+b'_j-\mathbf{M}_{ij})^2,$

该方法在统一的语义空间中获得词和语素嵌入。半素嵌入包含所有关于单词和半素之间关系的信息，并将这些信息注入到单词嵌入中。因此，我们期望单词嵌入更适合用于半音素的预测。

6.3.2 Sememe-Guided Semantic Compositionality Modeling

语义组合性（SC）是一种语言现象，即语法复杂单元的意义是复杂单元的组成部分及其组合规则[50]的意义的函数。一些语言学家认为SC是语义学上的[51]的基本真理。在自然语言处理领域，SC在语言建模、[47]、情感分析、[42,61]、语法解析、[59]等许多任务中都被证明是有效的。

参考文献[55]提出了一种新的基于语义语素的语义组合建模方法。他们认为半符号有利于SC建模。为了验证这一点，他们首先设计了一个简单的SC度（SCD）测量实验，发现由简单的基于半素的公式计算的MWEs的SCD与人类判断高度相关。这一结果表明，半语素可以很好地描述信息信息及其组成部分的意义，并捕捉双方之间的语义关系。此外，他们还提出了两种包含半信素的学习SC嵌入模型，即具有聚合半信素（SCAS）模型的语义组合性和具有相互半信素注意（SCMSA）模型的语义组合性。当学习MWE的嵌入时，SCAS模型将MWE的组成及其半素的嵌入连接起来，而SCMSA模型考虑一个组成的半素和其他组成之间的相互注意。最后，他们整合了组合规则，即在等式中的R（6.10），进入两种模型。他们的模型在MWE相似度计算任务和半音素预测任务上取得了显著的性能

在本节中，我们将重点关注[55]所进行的工作。我们将首先引入基于半符号的SC度（SCD）计算公式，然后扩展它们的半符号合并的SC模型。

6.3.2.1 Sememe-Based SCD Computation Formulae

虽然SC广泛存在于MWEs中，但并不是每个MWE都是完全语义组成的。事实上，不同的管理组织表现出不同程度的SC。参考[55]认为，半聚糖可以方便地测量SCD。为此，基于一个单词的所有半音素都能准确地描述这个单词的含义的假设，他们直观地设计了一组与SCD原理相一致的SCD计算公式。计算公式见表6.2。它们定义了4个scd，分别用数字3、2、1和0表示，其中数字越大意味着较高的scd越高。Sp、Sw1和Sw2分别表示MWE的第一和第二组成部分的半音素集。

6.3.2.3 Sememe-Incorporated SC Models

在本节中，我们首先详细介绍两个基本的半素合并SC模型，即具有聚合半素的语义组合性（SCAS）和具有相互半素注意的语义组合性（SCMSA）。SCAS模型简单地连接了MWE的成分及其半素的嵌入，而SCMSA模型则考虑了一个成分的半素和其他成分之间的相互注意。然后，我们描述了如何将组合规则集成到这两个基本模型中。

(1) SCAS模型我们引入的第一个模型是SCAS模型，如图6.4所示。SCAS模型的想法很简单，也就是说，也很简单连接一个组成部分的词嵌入及其半语素嵌入的集合。正式来说，我们有

$\mathbf{w}_1^{\prime}=\sum_{x_i\in X_{w_1}}\mathbf{x_i},\quad\mathbf{w}_2^{\prime}=\sum_{x_j\in X_{w_2}}\mathbf{x_j},$

$\mathbf{p}=\tanh(\mathbf{W}_c[\mathbf{w}_1+\mathbf{w}_2;\mathbf{w}_1^{\prime}+\mathbf{w}_2^{\prime}]+\mathbf{b}_c),$

(2) SCMSA Model

SCAS模型简单地使用一个成分的所有半聚体嵌入的总和作为外部信息。但是，一个组成的含义可能随另一个组成而不同，因此，当一个组成与不同的组成结合时，一个组成的半素应该有不同的权重（在案例研究中有一个例子）。

相应地，我们引入了SCMSA模型（图6.5），该模型采用相互注意机制，动态地赋予半音素权值。正式来说，我们有

$\begin{aligned} &\mathbf{e}_1&& =\mathrm{tanh}(\mathbf{W}_{a}\mathbf{w}_{1}+\mathbf{b}_{a}), \\ &a_{2,i}&& =\frac{\exp\left(\mathbf{s}_i\cdot\mathbf{e}_1\right)}{\sum_{x_j\in X_{w_2}}\exp\left(\mathbf{x}_j\cdot\mathbf{e}_1\right)}, \\ &\mathbf{w}_{2}^{\prime}&& =\sum_{x_i\in X_{w_2}}a_{2,i}\mathbf{x}_i, \end{aligned}$

但是，有许多不同的组合规则，有些规则有稀疏的实例，不足以训练相应的组合矩阵使用d×2d参数。此外，我们认为除了组合规则特定的组合性信息外，组合矩阵应该包含共同的组合性信息。因此，它们让组合矩阵Wc为包含组合规则信息的低秩矩阵和包含公共组合性信息的矩阵的和：

$\begin{aligned}\mathbf{W}_c&=\mathbf{U}_1^r\mathbf{U}_2^r+\mathbf{W}_c^c,&(6.17)\\\text{where }\mathbf{U}_1^r&\in\mathbb{R}^{d\times d_r},\mathbf{U}_2^r\in\mathbb{R}^{d_r\times2d},\text{ and }d_r\in\mathbb{N}_+\text{ is a hyperparameter and may vary}\\\text{with the combination rule, and }\mathbf{W}_c^c&\in\mathbb{R}^{d\times2d}.\end{aligned}$

6.3.3 Sememe-Guided Language Modeling

语言建模（LM）的目的是衡量一个单词序列的概率，反映其流畅性和作为一个在人类语言中可行的句子的可能性。语言建模是广泛的自然语言中的一个重要组成部分处理（NLP）任务，如机器翻译[9,10]、语音识别[34]、信息检索[5,24,45,54]和文档摘要[2,57]。

一个概率语言模型计算下一个单词的上下文单词的条件概率，这通常是从大规模的文本语料库中学习到的。以最简单的语言模型为例，n-gram根据文本语料库[31]上的最大似然来估计条件概率。近年来，递归神经网络（RNNs）作为最先进的语言建模方法，将上下文表示为一个低维隐藏状态来预测下一个单词（图6.6）。

(1)首先，SDLM根据上下文估计半聚体的分布。(2)SDLM将这些半聚体作为专家，采用专家方法的稀疏乘积来选择最可能的感官。(3)最后，SDLM通过边缘化感官的分布来计算单词的分布。

SDLM串联由三个模块组成：符号预测器、感觉预测器和Word预测器（图6.6）。半素预测器首先将上下文向量作为输入，并为每个半素分配一个权重。然后将每个半音素视为一个专家，并对意义预测器中的一组意义上的概率分布进行预测。最后，在word预测器中得到每个单词的概率。

半信素预测器以上下文向量g∈RH1作为输入，并为每个半信素分配一个权重。假设给定上下文w1，w2，…，wt−1，单词wt包含信素xk（k∈{1,2，…，K}）的事件是独立的，因为信素是最小的语义单位，并且在任何两个不同的语素之间不存在语义重叠。为简单起见，上标t将被忽略。半素预测器被设计为具有s型激活函数的线性解码器。因此，将下一个单词包含半音素xk的概率表示为

$p_k=P(x_k|\mathbf{g})=\text{Sigmoid}(\mathbf{g}\cdot\mathbf{v}_k+b_k),$

感觉预测器和Word预测器。感觉预测器的架构是由专家的产品（PoE）[25]驱动的。每个半素都被认为是专家，只对与之相关的感官进行预测。设S（xk）表示包含第k个专家符号xk的感官集合。与传统的神经语言模型直接使用上下文向量g∈RH1和输出嵌入w∈RH2来生成每个单词的分数不同，感觉预测器使用φ(k)（g，w）来计算专家xk给出的分数。并选择一个由矩阵Uk∈RH1×H2参数化的双线性函数作为φ(k)（·，·）的直接实现：

$\phi^{(k)}(\mathbf{g},\mathbf{w})=\mathbf{g}^{\top}\mathbf{U}_{k}\mathbf{w}.$

6.3.4 Sememe Prediction

HowNet的手工构建实际上是耗时和劳动密集型的，例如，HowNet已经由几位语言专家建立了10多年。然而，随着交流和技术的发展，新词和短语的出现，现有词的语义也在动态发展。在这种情况下，持续的手动注释和更新正变得更加不堪重负。此外，由于语素本体和当专家协同注释词汇语义时，保持注释的一致性也具有挑战性。针对解决人工标注的不灵活性和不一致问题，提出了自动词汇语素预测任务，有望有助于专家标注，减少人工工作量。请注意，为了简单起见，本部分介绍的大多数作品都没有考虑词半素的复杂层次，而是简单地将每个单词的所有带注释的词素分组为用于学习和预测的半素集。

语素预测的基本思想是，那些语义相似的词可能具有重叠的语素。因此，语素预测的关键挑战是如何表示单词和语素的语义意义，以建模它们之间的语义相关性。在这部分中，我们将重点介绍由Xie等人的[66]完成的半音素预测词。在他们的工作中，他们提出使用分布式表示学习[26]来建模单词和语义的语义。分布式表示学习的目标是将对象编码到一个低维的语义空间中，这显示出了其强大的人类语言语义建模能力，例如，单词嵌入[43]在自然语言处理的各种任务中得到了广泛的研究和应用。

6.4 Summary

重点介绍由Xie等人的[66]完成的半音素预测词。在他们的工作中，他们提出使用分布式表示学习[26]来建模单词和语义的语义。分布式表示学习的目标是将对象编码到一个低维的语义空间中，这显示出了其强大的人类语言语义建模能力，例如，单词嵌入[43]在自然语言处理的各种任务中得到了广泛的研究和应用。

6.4 Summary

在本章中，我们首先介绍了最著名的语素知识库HowNet，它使用了大约2,000个预定义的语素来注释超过100,000个中文和英语单词和短语。与WordNet等其他语言知识库不同，HowNet基于最小语义单位（语素），并捕获语素和单词之间的组合关系。为了学习半素知识的表示，我们详细阐述了三个模型，即简单半素聚集模型（SSA）、半素注意超过上下文模型（SAC）和半素注意超过目标模型（SAT）。这些模型不仅学习符号的表示，而且有助于改进单词的表示。接下来，我们描述了语素知识的一些应用，包括单词表示法、语义组合和语言建模。我们还详细介绍了如何自动预测单语和跨语言无注释单词的半音素。