07-World Knowledge Representation

最新推荐文章于 2024-08-06 12:31:53 发布

只鸥周

最新推荐文章于 2024-08-06 12:31:53 发布

阅读量67

点赞数

分类专栏： NLP表示学习文章标签：人工智能深度学习自然语言处理

本文链接：https://blog.csdn.net/zzk0126/article/details/132731363

版权

NLP表示学习专栏收录该内容

11 篇文章 0 订阅

订阅专栏

7 World Knowledge Representation

世界知识表示旨在在低维语义空间中表示知识图中的实体和关系，已广泛应用于大型知识驱动任务中。在本章中，我们首先介绍了知识图的概念。接下来，我们将介绍其动机，并概述了现有的知识图表示方法。此外，我们将讨论几种旨在处理知识图表示的当前挑战的高级方法。我们还回顾了知识图表示的现实世界中的应用，如语言建模、问题回答、信息检索和推荐系统。

7.1 Introduction

为了将知识编码到现实应用中，知识图表示表示分布式表示知识图中的实体和关系，并应用于各种现实世界的人工智能领域，包括问题回答、信息检索和对话系统。也就是说，知识图表示学习作为知识图和知识驱动任务之间的桥梁起着至关重要的作用。

在本节中，我们将介绍知识图的概念，几个典型的知识图，知识图的表示学习，以及几个典型的知识驱动任务。

7.1.1 World Knowledge Graphs

目前在信息检索和问题回答的应用中有几种广泛的应用。在本小节中，我们将介绍一些著名的KGs，如免费基础、DBpedia、Yago和WordNet。事实上，在垂直搜索的特定知识领域中，也有许多相对较小的kg。

Freebase是世界上最流行的知识图之一。这是一个大型的由社区管理的数据库，由知名人士、地点和事物组成，

DBpedia是一项众包社区活动，旨在从维基百科中提取结构化内容，并使这些信息可以在网络上访问。它是由柏林自由大学、莱比锡大学和OpenLink软件公司的研究人员发起的，

YAGO是另一个伟大本体论的简称，是由萨尔布鲁克普朗克计算机科学研究所开发的高质量的KG，最初于2008年发布。YAGO中的知识自动从维基百科、WordNet和地理名称中提取，其准确性经过人工评估，证明其准确率为95%。YAGO之所以特殊，不仅是因为每个事实的置信值取决于人工评估，还因为YAGO锚定在空间和时间上，这可以为其部分实体提供空间维度或时间维度。

7.2 Knowledge Graph Representation

然而，随着KG规模的增加，我们面临着两个主要的挑战：数据稀疏性和计算效率低下。数据稀疏性是社交网络分析或兴趣挖掘等许多领域的一个普遍问题。这是因为在一个大的图中有太多的节点（例如，用户、产品或实体），而这些节点之间的边（例如，关系）太少，因为在现实世界中，一个节点的关系的数量是有限的。随着知识图规模的增加，计算效率是我们需要克服的另一个挑战。

为了解决这些问题，我们将表示法学习引入到知识表示法中。KGs中的表征学习旨在将实体和关系投射到一个低维的连续向量空间中，从而得到它们的分布式表征，其表现已经在单词表征和社会表征中得到了证实。与传统的单热表示相比，分布式表示的维数更少，从而降低了计算复杂度。此外，分布式表示可以通过低维嵌入计算出的一定距离来明确地显示实体之间的相似性，而单热表示中的所有嵌入都是正交的，这使得很难区分实体之间的潜在关系。

基于上述优点，知识图表示学习在知识应用中蓬勃发展，显著提高了kg在知识完成、知识融合和推理等任务上的能力。它被认为是知识构建、知识图和知识驱动应用之间的桥梁。到目前为止，已经提出了大量使用分布式表示建模知识图的方法，学习知识表示广泛应用于问题回答、信息检索和对话系统等各种信息驱动任务中。

综上所述，知识图表示学习（KRL）的目标是构建实体和关系的分布式知识表示，将知识投影到低维语义向量空间中。近年来，知识图表示学习取得了重大进步，大量的KRL方法提出构建知识表示，其中基于翻译的方法在许多公斤任务中取得了最先进的性能，在有效性和效率上都有正确的平衡。

在本节中，我们将首先描述我们将在KRL中使用的符号。然后，我们将介绍TransE，这是基于翻译的方法的基本版本。接下来，我们将详细探讨TransE的各种扩展方法。最后，我们将简要介绍一下在知识图建模中使用的其他表示学习方法。

7.2.1 Notations

首先，我们将介绍本节其余部分中使用的一般符号。我们使用G =（E，R，T）来表示整个KG，其中E = {e1，e2，…，e|E|}代表实体集，R = {r1，r2，…，r|R|}代表关系集，T代表三重集。|E|和|R|是它们整体集合中对应的实体和关系数。如上所述，我们以三重事实h，r，t，的形式表示知识，其中h∈E表示头部实体，t∈E表示尾部实体，r∈R表示h和t之间的关系。

7.2.2 TransE

TransE [7]是一个基于翻译的模型，用于学习实体和关系的低维嵌入。它将实体和关系投射到相同的语义嵌入空间中，然后将关系视为嵌入空间中的平移。首先，我们将从该方法的动机开始，然后讨论在TransE下如何训练知识表示的细节。最后，我们将探讨TransE的优缺点，以便更深入地了解。

#####7.2.2.1 Motivation

基于翻译的知识图表示学习方法背后主要有三个动机。其主要动机是，将实体之间的关系视为转换操作是很自然的。通过分布式表示，实体被投影到一个低维的向量空间中。直观上，我们同意一个合理的投影应该将具有相似语义含义的实体映射到同一字段。

TransE的次要动机源于Word2vec [49]在单词表示方面的突破。Word2vec提出了两个简单的模型，Skip-gram和CBOW，从大规模语料库中学习单词嵌入，显著提高了单词相似性和类比的性能。Word2vec学习到的单词嵌入有一些有趣的现象：如果两个词对共享相同的语义或语法关系，那么它们在每个单词对中的减法嵌入将是相似的。例如，我们有

w*(king)* − w*(man)* ≈ w*(queen)* − w*(woman),*

这表明王与人之间的潜在语义关系，与王后与女人之间的关系相似，被成功地嵌入到单词表征中。这种近似关系不仅可以与语义关系有关，也可以与句法关系有关。我们有

w*(bigger)* − w*(big)* ≈ w*(smaller)* − w*(small)*

在单词表示中发现的现象强烈暗示，可能存在一种显式的方法来将实体之间的关系表示为向量空间中的翻译操作。

最后一个动机来自于对计算复杂性的考虑。一方面，模型复杂性的大幅增加将导致高计算成本和模糊的模型可解释性。此外，一个复杂的模型可能会导致过拟合。另一方面，关于模型复杂性的实验结果表明，在大多数KG应用程序中，在存在大量的多关系数据集和相对较多的关系的条件下，更简单的模型几乎与表现性更强的模型一样好。随着KG规模的增加，计算复杂度成为知识图表示的主要挑战。翻译的直观假设导致了在准确性和效率之间更好的权衡。

7.2.2.2 Methodology

如图7.3所示，TransE将实体和关系投射到相同的低维空间中。所有的嵌入都在Rd中取值，其中d是一个表示嵌入的维数的超参数。根据平移假设，对于T中的每三个h，r，t，我们希望嵌入的求和+是尾部嵌入+的最近邻。然后将TransE的评分函数定义如下：

更具体地说，为了学习这种实体和关系的嵌入，TransE形式化了一个基于边际的损失函数，以负抽样作为训练的目标。成对函数的定义如下：

$\mathscr{L}=\sum_{\langle h,r,t\rangle\in T}\sum_{\langle h^{\prime},r^{\prime},t^{\prime}\rangle\in T^{-}}\max(\gamma+\mathscr{E}(h,r,t))-\mathscr{E}(h^{\prime},r^{\prime},t^{\prime}),0),$

其中E（h，r，t）是正三倍（即T中的三倍）的能量函数的分数，而E（h，r，t）是负三重的能量函数的分数。能量函数E可以用L1或L2的距离来测量。γ > 0是边际的超参数，γ越大，表示正分数和相应的负分数之间的差距越大。T−是关于T的负三重集。

由于在知识图中没有显式的负三元组，所以我们定义T−如下

$T^-=\{\langle h^{\prime},r,t\rangle|h^{\prime}\in E\}\cup\{\langle h,r^{\prime},t\rangle|r^{\prime}\in R\}\cup\{\langle h,r,t^{\prime}\rangle|t^{\prime}\in E\},\quad\langle h,r,t\rangle\in T,$

这意味着负三重集T−由正三重h、r、t组成，头实体、关系或尾实体随机被KG中的任何其他实体或关系所取代。请注意，替换后生成的新三倍体如果已经在T中存在，则不会被视为阴性样本。

TransE采用小批随机梯度下降（SGD）进行优化，并对实体和关系进行随机初始化。知识完成是一个链接预测任务，目的是预测与给定的其余两个元素中的第三个元素（可以是实体或关系），旨在评估学习到的知识表示。

7.2.2.3 Disadvantages and Challenges

TransE是有效的，在链路预测方面的能力。然而，它仍有一些缺点和挑战有待进一步探索。

这些书在作者身上共享相同的信息，但在许多其他领域也有所不同，如主题、背景和书中的著名角色。然而，在TransE中的翻译假设下，每个实体在所有三元组中只有一个嵌入，这大大限制了TransE在知识图表示中的能力。在[7]中，作者根据他们的头和尾论点的基数，将所有的关系分为四类，1对1、1对多、多对1、多对多。如果大多数头有一条尾巴，则为1对1，如果一个头有多尾，则为多，如果一个尾巴有多头，则为多对1，如果有多个头，则为多对多。统计数据表明，1对多、多对1、多对多的关系占很大比例。TransE在1比1方面表现良好，但在处理一对多、多对1、多对多的关系时却存在问题。同样，TransE也可能难以处理自身关系。

其次，翻译操作直观、有效，只考虑简单的一步翻译，这可能会限制对kg建模的能力。以实体为节点，以关系为边，我们可以构造一个具有三重事实的巨大知识图。然而，TransE关注的是最小化能量函数E（h，r，t）=h+r−t，，它只利用知识图中的一步关系信息，而不考虑位于长距离路径中的潜在关系。例如，如果我们知道禁城，位于，北京和北京，首都，中国，，我们可以推断禁城位于中国。TransE可以进一步增强。

第三，为了考虑效率，TransE中的表示和不同函数过于简单。因此，TransE可能无法在知识图中建模那些复杂的实体和关系。对于如何平衡有效性和效率，避免过拟合和过拟合仍然存在挑战。

除了上述的缺点和挑战外，文本信息和层次类型/标签信息等多源信息也具有重要意义，我们将在下面进一步讨论。

7.2.3 Extensions of TransE

在TransE之后有很多扩展方法来解决上述挑战。具体来说，解决建模多、多、多对多关系和多对多关系的挑战，提出编码多步路径的长距离信息位于多步路径，CTransR，TransA，传输和KG2E进一步扩展传输的过度简化模型。我们将详细讨论这些扩展方法。

TransH、TransR/CTransR、KG2E

7.2.4 Other Models

基于翻译的方法，如TransE，简单而有效，其能力在知识图补全和三重分类等各种任务上得到了一致的验证，实现了最先进的性能。然而，也有其他一些表示学习方法在知识图表示上表现良好。在这部分中，我们将简要介绍一下这些方法作为灵感。

7.2.4.1 Structured Embeddings

结构化嵌入（SE）[8]是一种经典的[8]表示学习方法。在SE中，每个实体都被投影到一个d维的向量空间中。SE为每个关系r设计两个关系特定矩阵Mr，1，Mr，2∈Rd×d，在计算相似性时，用这些关系特定矩阵投影头和尾实体。SE的评分函数定义如下

$\mathscr{E}(h,r,t)=\|\mathbf{M}_{r,1}\mathbf{h}-\mathbf{M}_{r,2}\mathbf{t}\|_1,$

其中h和t都与这些投影矩阵转换为关系特定的向量空间。SE的假设是，根据损失函数，投影的头部和尾部嵌入应该尽可能相似。与基于翻译的方法不同，SE将实体建模为嵌入和关系作为投影矩阵。在训练中，SE考虑了训练集中的所有三元组，并最小化了总体损失函数。

7.2.4.2 Semantic Matching Energy

语义匹配能量（SME）[5,6]提出了一种更为复杂的表示学习方法。与SE不同的是，SME认为实体和关系都是低维向量。对于三重h，r，t，，和，用投影函数g组合得到一个新的嵌入lh，r，用t和，得到lt，r。接下来，对两个组合嵌入的lh，r和lt，r使用一个点向乘法函数来得到这个三重组合的分数。SME在第二步中提出了两种不同的投影函数，其中的线性形式为:

$\mathscr{E}(h,r,t)=(\mathbf{M}_1\mathbf{h}+\mathbf{M}_2\mathbf{r}+\mathbf{b}_1)^\top(\mathbf{M}_3\mathbf{t}+\mathbf{M}_4\mathbf{r}+\mathbf{b}_2),$

且双线性形式为：

$\mathscr{E}(h,r,t)=((\mathbf{M}_1\mathbf{h}\odot\mathbf{M}_2\mathbf{r})+\mathbf{b}_1)^\top((\mathbf{M}_3\mathbf{t}\odot\mathbf{M}_4\mathbf{r})+\mathbf{b}_2),$

其中，是元素级（阿达玛）乘积。m1、m2、m3、m4是投影函数中的权值矩阵，b1和b2是偏差。Bordes等人。[6]是基于SME的，它用三路张量代替矩阵改进了双线性形式。

7.2.4.3 Latent Factor Model

提出了一种用于大型多关系数据集建模的潜在因素模型（LFM）。LFM基于双线性结构，它将实体建模为嵌入，将关系建模为矩阵。它可以在不同关系之间共享稀疏潜在因素，显著降低模型和计算复杂度。LFM的评分函数定义如下:

$\mathscr{E}(h,r,t)=\mathbf{h}^\top\mathbf{M}_r\mathbf{t},$

其中，先生是关系r的代表。此外，[92]提出了距离模型，将Mr限制为对角矩阵。该增强后的模型不仅减少了LFM的参数数，从而降低了模型的计算复杂度，而且还获得了更好的性能。

7.2.4.4 RESCAL

为了捕获所有三元组的固有结构，提出了一个名为RESCAL的张量分解模型。假设−→X={X1，…，Xk}，对于每个切片Xn，我们有以下的秩-r因式分解：

$\mathbf{X}_n\approx\mathbf{A}\mathbf{R}_n\mathbf{A}^\top,$

其中，A∈Rd×r表示r维实体表示，Rn∈Rr×r表示第n个关系的r个潜在分量的相互作用。这个因子分解中的假设类似于LFM，而RESCAL也优化了不存在的三元组，其中−→Xijm=0，而不是只考虑正实例。

根据这个张量分解假设，RESCAL的损失函数定义如下：

$\mathscr{L}=\frac{1}{2}\left(\sum_n\|\mathbf{X}_n-\mathbf{A}\mathbf{R}_n\mathbf{A}^{\top}\|_F^2\right)+\frac{1}{2}\lambda\left(\|\mathbf{A}\|_F^2+\sum_n\|\mathbf{R}_n\|_F^2\right),$

其中第二项是一个正则化项，λ是一个超参数。

7.2.4.5 HOLE

RESCAL可以很好地处理多关系数据，但计算复杂度很高。为了利用有效性和效率，全息嵌入（HOLE）被提出作为RESCAL [53]的增强版本。

HOLE使用一种名为循环相关的操作来生成组合表示，这类似于那些联想记忆的全息模型。循环相关操作：两个实体h和t之间的Rd×Rd→Rd如下

$\mathbf{h}\star\mathbf{t}t_k=\sum_{i=0}^{d-1}h_it_{(k+i)mod~d}.$

图7.10a还演示了此操作的一个简单实例。一个三重h，r，t的概率被定义为

$P(\phi_r(h,t)=1)=\text{Sigmoid}(\mathbf{r}^\top(\mathbf{h}\star\mathbf{t})).$

考虑到循环相关带来了很多优点： (1)与乘法或卷积等其他操作不同，循环相关是不可交换的（即h t = t h），它能够在知识图中建模非对称关系。(2)与RESCAL中的张量积相比，循环相关的计算复杂度较低。此外，在快速傅里叶变换（FFT）的帮助下，循环相关性可以进一步加速.

7.3 Multisource Knowledge Graph Representation

我们生活在一个复杂的多元现实世界中，在这个世界中，我们不仅可以通过所有感官获取信息，从结构化的知识图，还可以从纯文本、类别、图像和视频中学习知识。这种跨模态信息被认为是多源信息。除了在以前的KRL方法中被广泛使用的结构化知识图外，我们还将介绍其他一些利用多源信息的KRL方法：

1.纯文本是我们每天传递、接收和分析的最常见的信息之一。我们还有大量的纯文本有待检测，其中包含了结构化知识图可能不包含位置的重要知识。实体描述是一种特殊的文本信息，它在几句句子或一个短段落内描述相应的实体。通常，实体描述是由一些知识图（即自由库）来维护的，或者可以从像维基百科这样的大型数据库中自动提取出来。

2.实体类型是构建知识表示的另一个重要的结构化信息。为了在我们先前的知识系统中学习新的对象，人类倾向于将这些对象系统化为现有的类别。实体类型通常用层次结构表示，它由不同的实体子类型的粒度组成。在现实世界中，实体通常有多种实体类型。大多数现有的著名知识图都有自己定制的实体类型的层次结构。

3.图像提供了直观的视觉信息来描述实体的样子，这被确认为是我们每天接收和处理的最重要的信息。位于图像中的潜在信息有很大帮助，特别是在处理具体实体时。例如，我们可以找出潜在的关系在樱桃和梅子之间（有两种植物都属于蔷薇科）从他们的外观。图像可以从网站上下载，还有大量的图像数据集，比如ImageNet。

多源信息学习提供了一种新的方法，不仅从结构化知识图的内部信息中学习知识表示，而且从纯文本、层次类型和图像的外部信息中学习知识表示。此外，对多源信息学习的探索有助于进一步理解人类在现实世界中的所有感官的认知。基于知识图学习到的跨模态表示也将提供不同类型信息之间的可能的关系。

7.3.1 Knowledge Graph Representation with Texts

文本信息是当今最常见和最广泛使用的信息之一。网上每天都有大量的纯文本生成，而且很容易被提取出来。词语是我们思想的压缩符号，可以提供实体之间的联系，这在KRL中具有重要的意义。

7.3.1.1 Knowledge Graph and Text Joint Embedding

Wang等人[76]试图通过将实体、关系和单词联合嵌入到同一低维连续向量空间中来利用文本信息。它们的联合模型包括知识模型、文本模型和对齐模型三个部分。更具体地说，知识模型是通过基于翻译的模型基于KGs中的三重事实来学习的，而文本模型是基于Skip-gram在大语料库中单词的一致性来学习的。对于对齐模型，提出了利用维基百科锚点和实体名的两种方法。维基百科的主要思想锚是取代词对（w，v）的词实体对（w，ev）根据维基页面，而实体名称对齐的主要思想是取代原来的实体三h，r，t。

7.3.1.2 Description-Embodied Knowledge Graph Representation

另一种利用文本信息的方法是直接从实体描述中构建知识表示，而不是仅仅考虑对齐。谢et al. [82]提出描述体现知识图表示学习（DKRL）提供了两种知识表示：第一个是基于结构表示高清和tS，可以直接表示实体广泛使用在以前的方法，第二是基于描述的表示高清和tD源自实体描述。能量函数来源于基于翻译的框架：

$\mathscr{E}(h,r,t)=\|\mathbf{h}_S+\mathbf{r}-\mathbf{t}_S\|+\|\mathbf{h}_S+\mathbf{r}-\mathbf{t}_D\|+\|\mathbf{h}_D+\mathbf{r}-\mathbf{t}_S\|+\|\mathbf{h}_D+\mathbf{r}-\mathbf{t}_D\|.$

基于描述的表示是通过CBOW或CNN编码器构建的，这些编码器将纯文本中丰富的文本信息编码为知识表示。DKRL的体系结构如图7.12所示。

与传统的基于翻译的方法相比，DKRL中的两种实体表示同时使用结构信息和文本信息进行构建，从而在知识图补全和类型分类方面获得更好的性能。此外，DKRL可以代表一个实体，即使它不在训练集中，只要有几句句子来描述这个实体。随着他们每天数以百万计的新实体的出现，DKRL就能够处理零射击学习。

7.3.2 Knowledge Graph Representation with Types

实体类型作为实体的一种类别信息，通常以层次结构进行排列，可以提供结构化信息，从而更好地理解KRL中的实体。

7.3.2.1 Type-Constraint Knowledge Graph Representation

Krompaß等人[36]将类型信息作为类型约束，并通过类型约束改进了现有的RESCAL和TransE等方法。很直观的是，在一个特定的关系中，头部或尾部的实体应该属于一些特定的类型。例如，关系wroite_books的主体实体应该是人（或者更准确地说是作者），而尾部实体应该是一本书。

Specifically, in RESCAL,the original factorization X, ~ AR,A is modified to

$\mathbf{X}^{\prime}_r\approx\mathbf{A}_{[head_r,:]}\mathbf{R}_r\mathbf{A}_{[tail_r,:]}^{\top},$

(7.51)

in which head,tail, are the set of entities fitting the type constraints of head or tail and $\mathbf{X}_{r}^{\prime}$ is a sparse adjacency matrix of shape |heady|x |tail-|. In the enhanced ver-sion, only the entities that fit type constraints will be considered during factorization

In TransE, type constraints are utilized in negative sampling. The margin-based

score functions of translation-based methods need negative instances,which are generated through randomly replacing head or tail entities with another entity in triples. With type constraints, the negative samples are chosen by

$h^{\prime}\in E_{[head_{r}]}\subseteq E\:,\quad t^{\prime}\in E_{[tail_{r}]}\subseteq E\:,$

(7.52)

where $E_{[head_{r}]}$ is the subset of entities following type constraints for head in relation r, and $E_{[t\:ail_{r}]}$ is that for tail.

7.3.2.2 Type-Embodied Knowledge Graph Representation

将类型信息作为约束条件来考虑是简单而有效的，但性能仍然有限。Xie等人[83]不仅仅将类型信息视为类型约束，而是提出了类型体现的知识图表示学习（TKRL），利用层次类型结构来指导投影矩阵的构造。受TransR的启发，每个实体在不同的场景中都应该有多个表示，TKRL的能量函数定义如下

$\mathscr{E}(h,r,t)=\|\mathbf{M}_{rh}\mathbf{h}+\mathbf{r}-\mathbf{M}_{rt}\mathbf{t}\|,$

where $\mathbf{M}_{C^{(i)}}$ stands for the projection matrix of the ith subtype of the hierarchical type c, $\boldsymbol{\beta}_{i}$ is the corresponding weight of the subtype. Figure7.13 demonstrates a simple illustration of TKRL. Taking RHE, for instance, given an entity William Shakespeare, it is first projected to a rather general sub-type space like human and then sequentially projected to a more precise subtype like author or English author. Moreover, TKRL also proposes an enhanced soft-type constraint to alle-viate the problems caused by type information incompleteness.

7.3.3 Knowledge Graph Representation with Images

图像可以提供相应实体前景的直观的视觉信息，从而从某些方面提供暗示实体的某些潜在属性的重要提示。例如，图7.14展示了装甲和装备的实体图像。左边显示了装甲装备，Armet，，令人惊讶的是，我们可以直接从图像中推断出这些知识。

#####7.3.3.1 Image-Embodied Knowledge Graph Representation

Xie等人[81]提出了图像体现知识图表示学习（IKRL），在构建知识表示时考虑了视觉信息。受[82]中多实体表示的启发，IKRL除了提出基于结构的表示外，还提出了基于图像的表示hI和tI，并在基于翻译的框架内同时学习两种类型的实体表示。

$\mathscr{E}(h,r,t)=\|\mathbf{h}_S+\mathbf{r}-\mathbf{t}_S\|+\|\mathbf{h}_S+\mathbf{r}-\mathbf{t}_I\|+\|\mathbf{h}_I+\mathbf{r}-\mathbf{t}_S\|+\|\mathbf{h}_I+\mathbf{r}-\mathbf{t}_I\|.$

更具体地说，IKRL首先用神经网络构造所有实体图像的图像表示，然后通过投影矩阵将这些图像表示从图像空间投影到实体空间。由于大多数实体可能具有多个不同质量的图像，IKRL通过基于注意力的方法选择信息更丰富、更有区别的图像。IKRL的评价结果不仅证实了视觉信息对理解的意义

7.3.4 Knowledge Graph Representation with Logic Rules

Typical knowledge graphs store knowledge in the form oftriple facts with one relation linking twoentities. Mostexisting KRL methods only consider the information within triple facts separately, ignoring the possible interactions and correlations between dif-ferent triples. Logic rules, which are certain kinds of summaries deriving from human beings’ prior knowledge, could help us with knowledge inference and reasoning. For instance, if we know the triple fact that〈Beijing,iS_capital_of, China〉we can easily infer with high confidence that 〈Beiing, 1ocated_in, China)since we know the logic rule that the relation iS_Capital_of三1ocated in

Some works are focusing on introducing logic rules to knowledge acquisition and

inference, among which Markov Logic Networks are intuitively utilized to address this challenge [3,58,751]. The path-based TransE「38] stated above also implicitly considers the latent logic rules between different relations via relation paths

7.3.4.1 KALE

KALE是一种基于翻译的KRL方法，它与逻辑规则[24]联合学习知识表示。联合学习由三重建模和规则建模两部分组成。对于三重建模，KALE遵循翻译假设，对评分函数的微小改变如下

$\mathscr{E}(h,r,t)=1-\frac{1}{3\sqrt{d}}\|\mathbf{h}+\mathbf{r}-\mathbf{t}\|,$

其中，d表示知识嵌入的维度。E（h，r，t）在[0,1]中取值，便于联合学习。

对于新添加的规则建模，KALE使用了[25]中提出的t-范数模糊逻辑，该逻辑表示一个复杂公式的真值和其组成部分的真值。特别是，KALE关注两种典型的逻辑规则。第一个是∀，t：h，r1，t⇒，r2，t（例如，给定北京，是中国，的资本，我们可以推断北京，位于，中国）。KALE通过特定的基于t范数的逻辑连接词表示该逻辑规则f1的评分函数，如下：

$\mathscr{E}(f_1)=\mathscr{E}(h,r_1,t)\mathscr{E}(h,r_2,t)-\mathscr{E}(h,r_1,t)+1.$

第二个是∀，e，t：h，r1，e∧，r2，t⇒，r3，t（例如，鉴于清华位于北京）和北京位于中国，，我们可以推断清华位于中国)。而KALE将第二个评分功能定义为

$\mathscr{E}(f_2)=\mathscr{E}(h,r_1,e)\mathscr{E}(e,r_2,t)\mathscr{E}(h,r_3,t)-\mathscr{E}(h,r_1,e)\mathscr{E}(e,r_2,t)+1.$

联合训练包含了所有的正公式，包括三重事实和逻辑规则。请注意，为了考虑逻辑规则的质量，KALE使用预先训练好的TransE根据其真值对所有可能的逻辑规则进行排序，并手动过滤出排在最前面的一些规则。

7.4 Applications

近年来，知识驱动的人工智能，如质量保证系统和聊天机器人的蓬勃发展。人工智能代理能够准确、深入地了解用户需求，然后适当、灵活地给出响应和解决方案。如果没有某种形式的知识，这种工作是无法完成的。

为了将知识引入人工智能代理，研究人员首先从纯文本、图像和结构化知识库等异构信息中提取知识。然后，将这些各种异构信息与知识图等某些结构融合并存储。接下来，根据一些KRL方法将知识投影到低维语义空间。最后，这些学习到的知识表示被应用于信息检索和对话系统等各种知识应用中。图7.16演示了一个从头开始的知识驱动应用程序的简短管道

从图中，我们可以观察到，知识图表示学习是整个知识驱动应用程序管道中的关键组成部分。它弥合了存储知识和知识的知识图之间的差距使用知识的应用程序。与符号方法相比，分布式方法的知识表示能够解决数据的稀疏性，并对实体和关系之间的相似性进行建模。此外，基于嵌入的方法易于与深度学习方法一起使用，并且自然适合与异构信息的结合。

在本节中，我们将主要从两个方面介绍知识表示的可能应用。首先，我们将介绍知识表示在知识驱动的应用程序中的使用，然后我们将展示知识表示在知识提取和构建方面的能力。

7.4.1 Knowledge Graph Completion

知识图完成的目的是通过从纯文本、现有知识库和图像等异构源中提取知识来构建结构化的知识库。知识构建由关系提取和信息提取等几个子任务组成，是整个知识驱动框架的基本步骤。近年来，自动知识建设由于处理大量的现有和新信息非常耗时和劳动密集型而引起了人们的广泛关注。在下一节中，我们将介绍一些关于神经关系提取的探索，并集中讨论知识表示的组合。

7.4.1.1 Knowledge Representations for Relation Extraction

关系提取侧重于预测两个实体之间的正确关系，给定一个包含两个实体的简短纯文本。一般来说，所有要预测的关系都是预定义的，这与开放信息提取不同。实体通常用命名实体识别系统标记，或根据锚定文本提取，或通过距离监督[50]自动生成。

传统的关系提取和分类方法主要基于统计机器学习，这很大程度上依赖于提取特征的质量。Zeng等人[96]首先将CNN引入关系分类，取得了很大的改进。Lin等人[40]进一步改进了基于注意模型的神经关系提取模型。

Han等人[27,28]提出了一种新的知识获取的联合表示学习框架。其关键思想是，联合模型通过kg-文本对齐，在一个统一的语义空间中学习知识和文本表示。图7.17显示了KG-text联合模型的简要框架。在文本部分，将具有Mark Twain和佛罗里达两个实体的句子作为CNN编码器的输入，CNN的输出被认为是该句子诞生的潜在关系位置。而对于KG部分，实体和关系表示是通过基于翻译的方法来学习的。学习到的KG和文本部分的表示在训练过程中被对齐。这项工作是第一次尝试将知识表示从现有的知识表示编码到知识构建任务，并在知识完成和关系提取方面实现改进。

7.4.2 Knowledge-Guided Entity Typing

实体类型是检测纯文本中已命名实体（或实体提及）的语义类型的任务。例如，给定乔丹在NBA打了15个赛季，实体类型的目的是推断乔丹在这个句子中的是一个人，一个运动员，甚至是一个篮球运动员。实体类型对于命名实体消除歧义很重要，因为它可以缩小提到[10]的实体的候选范围。此外，实体类型还有利于大量的自然语言处理（NLP）任务，如关系提取[46]、问题回答[90]和知识库总体[9]。

传统的命名实体识别模型[69,73]通常将实体提及分类为一组粗糙的标签（例如，人、组织、位置和其他）。由于这些实体类型对于许多NLP任务来说过于粗粒度，因此[15,41,94,95]已经提出了一些工作来引入更大的细粒度类型集，这些类型通常是这些粗粒度类型的子类型。以前的细粒度实体类型方法通常使用NOS标记和解析等NLP工具派生特征，不可避免地会遭受错误传播的影响。Dong等人[18]首次尝试探索实体类型中的深度学习。该方法仅采用词向量作为特征，抛弃了复杂的特征工程。岛冈等人[63]进一步将注意力方案引入到细粒度实体类型的神经模型中。

神经模型在细粒度实体类型方面已经取得了最先进的性能。然而，这些方法面临着以下重要的挑战：

(1)实体上下文分离。现有的方法通常编码上下文词，而不利用实体和上下文之间的关键相关性。然而，直观地是，单词在上下文中的重要性对实体类型事物会受到我们所关心的实体提及的显著影响。例如，在1975年的一句话中，盖茨和保罗·艾伦共同创立了微软，微软成为了世界上最大的个人电脑软件公司，公司这个词在决定微软的类型时要比盖茨的类型重要得多。

(2)实体知识分离。现有的方法只考虑实体类型时实体提及的文本信息。事实上，知识图（KGs）为确定实体类型提供了丰富而有效的附加信息。例如，在1975年的句子中，盖茨。微软……即使我们没有KG中的微软的类型信息，类似于微软的实体（如IBM）也将提供补充信息。

为了解决实体-上下文分离和实体-知识分离的问题，我们提出了知识引导注意（KNET）神经实体分型问题。如图7.18所示，KNET主要由两部分组成。首先，KNET构建一个神经网络，包括一个长短期记忆（LSTM）和一个全连接层，以生成上下文和命名实体表示。其次，KNET引入知识关注，强调这些关键词，提高上下文表征的质量。这里我们详细介绍了对知识的关注。

知识图以三元组h、r、t，的形式提供了关于实体的丰富信息，其中h和t是实体，r是它们之间的关系。许多KRL的工作都致力于基于kg中的三重信息将实体和关系编码到实值语义向量空间中。KRL为我们提供了一种利用KG信息进行实体类型化的有效方法。

KNET采用最广泛使用的KRL方法TransE为每个实体e的实体嵌入e。在训练场景中，已知实体提及m表示嵌入e的KGs中相应的e，因此，KNET可以直接计算知识注意力如下

$\alpha_i^\mathrm{KA}=f\left(\mathbf{eW}_\mathrm{KA}\left[\begin{array}{c}\overrightarrow{\mathbf{h}_i}\\\mathbf{h}_i\end{array}\right]\right),$

其中，WKA为双线性参数矩阵，ai KA为第i个单词的注意权重。

测试中的知识关注。挑战在于，在测试场景中，我们不知道某个实体所提到的KG中相应的实体。一个解决方案是执行实体链接，但它会引入链接错误。此外，在许多情况下，kg可能不包含许多实体提及的相应实体。

为了解决这个挑战，我们在培训期间为kg中的实体构建了一个额外的基于文本的表示。具体地说，对于一个实体e及其上下文句子s，我们使用单向LSTM将其左右上下文编码为cl和cr，并进一步学习基于文本的表示ˆe如下：

$\hat{\mathbf{e}}=\tanh\left(\mathbf{W}\left[{\begin{array}{c}\mathbf{m}\\\mathbf{c}_l\\\mathbf{c}_r\end{array}}\right]\right),$

其中，W为参数矩阵，m为提及表示。请注意，这里使用的LSTM与上下文表示中的不同，以防止干扰。为了连接基于文本的表示和基于kg的表示，在训练场景中，我们通过在目标函数中添加一个额外的组件来同时学习ˆe：

$\mathscr{O}_\mathrm{KG}(\theta)=-\sum_e\|\mathbf{e}-\hat{\mathbf{e}}\|^2.$

这样，在测试场景中，我们就可以直接使用等式了7.61使用等式获得相应的实体表示并计算知识关注7.60.

7.4.3 Knowledge-Guided Information Retrieval

大规模知识图的出现推动了面向实体的搜索技术的发展，它利用知识图来改进搜索引擎。面向实体的搜索的最新进展包括使用实体注释[61,85]进行更好的文本表示，更丰富的排名特征[14]，查询和文档[45,84]之间基于实体的连接，以及通过知识图关系或嵌入[19,88]进行的软匹配查询和文档。这些方法从知识图中引入了实体和语义，并大大提高了基于特征的搜索系统的有效性。

信息检索的另一个前沿领域是神经排序模型（神经ir）的发展。深度学习技术已被用于学习查询和文档的分布式表示，这些表示捕获它们的相关性关系（基于表示的）[62]，或者直接从它们的单词级交互（基于交互的）[13,23,87]中建模查询-文档的相关性。神经红外方法，特别是基于交互的方法，当有大规模训练数据时，大大提高了排名精度。

面向实体的搜索和神经红外从两个不同的方面推动了搜索引擎的边界。面向实体的搜索结合了来自实体的人类知识和知识图语义。它在基于特征的排名系统上显示出了良好的结果。另一方面，神经红外利用分布式表示和神经网络来学习更复杂的排序模型，形成大规模的训练数据。实体-二重奏神经排序模型（EDRM），如图7.19所示，在基于交互的神经排序模型中加入了实体。EDRM首先使用知识图中的语义来学习实体的分布式表示：描述和类型。然后，它遵循最近最先进的面向实体的搜索框架，即单词-实体二重唱[86]，并使用单词袋和实体袋将文档与查询进行匹配。而不是手动功能，EDRM使用基于交互的神经模型[13]来将查询和文档与单词-实体二重唱表示相匹配。因此，EDRM结合了面向实体的搜索和基于交互的神经红外；它将知识图语义引入神经红外，并用神经网络增强了面向实体的搜索。

7.4.3.1 Interaction-Based Ranking Models

给定一个查询q和一个文档d，基于交互的模型首先建立q和d之间的字级转换矩阵。翻译矩阵使用单词相关性来描述单词对相似性，通过基于交互的模型中的单词嵌入相似性来捕获。

通常，基于交互的排序模型首先将q和d中的每个单词w映射到一个L维嵌入 $v_w$

$\mathbf{v}_w=\mathrm{Emb}_w(w).$

然后基于查询和文档嵌入构造交互矩阵M。矩阵中的每个元素Mi j，比较q中的第i个单词和d中的第j个单词，例如，使用单词嵌入的余弦相似性

$\mathbf{M}_{ij}=\cos(\mathbf{v}_{w_{i}^{q}},\mathbf{v}_{w_{j}^{d}}).$

通过描述查询和文档之间的术语级别匹配的翻译矩阵，下一步是从该矩阵中计算出最终的排名得分。在基于交互的神经排名模型中已经开发了许多方法，但一般来说，将在M上包括一个特征提取器，然后是一个或几个排名层，将特征结合到排名分数中。

7.4.3.2 Semantic Entity Representation

EDRM将知识图中关于一个实体的语义信息合并到其表示中。该表示包括三种嵌入：实体嵌入、描述嵌入和类型嵌入，均在L维中，并合并生成实体的语义表示。

实体嵌入使用一个L维嵌入层嵌入来得到e的实体嵌入e: $\mathbf{v}_e=\mathrm{Emb}_e(e).$

描述嵌入编码一个包含m个单词的实体描述，并解释该实体。EDRM首先使用单词嵌入层Embv将描述词v嵌入到v中。然后它将文本中的所有嵌入组合到嵌入矩阵v中。接下来，它利用卷积滤波器滑动文本，并将l长度n-gram组合为 $g_e^j$

$\mathbf{g}_{e}^{j}=\mathrm{ReLU}(\mathbf{W}_{\mathrm{CNN}}\cdot\mathbf{V}_{w}^{j:j+h}+\mathbf{b}_{\mathrm{CNN}}),$

其中，WCNN和bCNN是卷积滤波器的两个参数。

然后在卷积层后使用最大池化来生成描述嵌入的 $v_e^{des}$

$\mathbf{v}_e^{des}=\max(\mathbf{g}_e^1,...,\mathbf{g}_e^j,...,\mathbf{g}_e^m).$

然后，EDRM利用一种注意机制，将实体类型组合到类型嵌入的 $v_e^{type}$ 中： $\mathbf{v}_e^{type}=\sum_j^n\alpha_j\mathbf{v}_{f_j},$

其中，αj为注意力得分，计算结果为:

$\begin{aligned}\alpha_j&=\frac{\exp(y_j)}{\sum_l^n\exp(y_l)},&&(7.70)\\\\y_j&=\left(\sum_i\mathbf{W}_{bow}\mathbf{v}_{t_i}\right)\cdot\mathbf{v}_{f_j},&&(7.71)\end{aligned}$

其中 $y_j$ 是查询或文档表示和类型嵌入 $f_j$ 的点积。我们利用单词袋来进行查询或文档编码。 $W_{bow}$ 是一个参数矩阵。

组合。这三个嵌入由一个线性层组合起来，以生成实体的语义表示

$\mathbf{v}_e^{sem}=\mathbf{v}_e^{emb}+\mathbf{W}_e[\mathbf{v}_e^{des};\mathbf{v}_e^{type}]^\top+\mathbf{b}_e,$

in which $W_e$ is an L × 2L matrix and $b_e$ is an L-dimensional vector.

7.4.3.3 Neural Entity-Duet Framework

词-实体二重唱[86]是最近开发的一个面向实体的搜索框架。它利用单词袋和实体袋的二重唱表示来匹配问题q和文档d与手工制作的特性。这项工作将其引入到神经红外技术中。

他们首先用实体注释构造实体包 $q_e$ 和 $d_e$ ，以及针对q和d的词包 $q_w$ 和 $d_w$ 。二重唱采用了四路交互：查询单词到文档单词（ $q_w$ - $d_w$ ）、查询单词到文档实体（ $q_w$ - $d_e$ ）、查询实体到文档单词（qe-dw），以及查询实体到文档实体（qe-de）。

EDRM不使用翻译层，而是使用翻译层来计算一对查询文档术语：（vi wq或vi eq）和（v j wd或v j ed）之间的相似性。构造了交互矩阵M = {Mww、Mwe、Mew、Mee}。Mww、Mwe、Mew、Mee分别表示qw-dw、qw-de、dw、de的相互作用。其中的元素是对应项的余弦相似性:

$\begin{aligned}\mathbf{M}_{ww}^{ij}&=\cos(\mathbf{v}_{w^q}^i,\mathbf{v}_{w^d}^j);\mathbf{M}_{ee}^{ij}=\cos(\mathbf{v}_{e^q}^i,\mathbf{v}_{e^d}^j)\\\mathbf{M}_{ew}^{ij}&=\cos(\mathbf{v}_{e^q}^i,\mathbf{v}_{w^d}^j);\mathbf{M}_{we}^{ij}=\cos(\mathbf{v}_{w^q}^i,\mathbf{v}_{e^d}^j).\end{aligned}$

最终的排名功能(M)是四个交叉匹配（φ(M)）的串联体：

$\Phi(\mathbf{M})=[\phi(\mathbf{M}_{ww});\phi(\mathbf{M}_{we});\phi(\mathbf{M}_{ew});\phi(\mathbf{M}_{ee})],$

其中，φ可以是基于交互的神经排名模型中使用的任何函数。

实体-二重唱是一种在实体和单词空间中交叉匹配查询和文档的有效方法。在EDRM中，它将知识图的语义表示引入到神经-红外模型中。

EDRM提供的二重唱翻译矩阵可以插入任何标准的基于交互的神经排序模型，如K-NRM [87]和Conv-KNRM [13]。在足够的训练数据下，对整个模型进行反向传播端到端优化。在此过程中，与排序神经网络共同学习了知识图的语义、实体嵌入、描述嵌入、类型嵌入以及与实体的匹配的集成。

7.4.4 Knowledge-Guided Language Models

知识是语言建模的一个重要的外部信息。这是因为统计上的共现不能指示各种知识的生成，特别是对于那些具有低频率的命名实体。研究人员试图将外部知识纳入语言模型，以更好地在生成和表示方面的表现。

7.4.4.1 NKLM

语言模型旨在学习单词序列上的概率分布，这是一项经典的、必要的自然语言处理任务。近年来，序列到序列神经模型（seq2seq）被广泛发展，并广泛应用于序列生成任务，如机器翻译[68]和图像标题生成[72]。然而，大多数seq2seq模型在建模和使用背景知识时都有显著的局限性。

为了解决这个问题，Ahn等人[1]提出了一种神经知识语言模型（NKLM），该模型在使用RNN语言模型生成自然语言序列时考虑了知识图所提供的知识。关键思想是NKLM有两种生成单词的方法。第一种方法与传统的seq2seq模型相同，即根据softmax的概率生成“词汇词”，第二种方法是根据外部知识图生成“知识词”。

Specifically,the NKLM model takes LSTM as the framework of generating

“vocabulary word’. For external knowledge graph information, NKLM denotes the topic knowledge as Y三 {a1,…a|,x」},in which a; represents the entities (i.e.,named as“topic’in [1]) that appear in the same triple of a certain entity. Ateach step t,NKLM takes both “vocabulary word” $w_{t-1}^{\nu}$ and “knowledge word”w;-1 as well as the fact at-1 predicted at step t-l as the inputs of LSTM. Next, the hidden state of LSTM $h_{t}$ is combined with the knowledge context e to get the fact key $k_{t}$ via an MLP module. The knowledge context ek derives from the mean embeddings of all related facts of fact k. The fact key k, is then used to extract the most appropriate fact a, from the corresponding topic knowledge. And finally, the selected fact a, is combined with hidden state h, to predict(1) both “vocabulary word”wy and “knowledge word’ w,and(2) which word to generate at this step. The architecture of NKLM is shown in Fig. 7.20.

NKLM模型探索了一种新的神经模型，它将外部知识图中的符号知识信息与seq2seq语言模型相结合。然而，在生成自然语言时给出了知识的主题，这使得NKLM更不实用，对于更一般的自由演讲也更不可扩展。然而，我们仍然相信用这种方法将知识编码为语言模型是很有希望的。

7.4.4.2 ERNIE

像BERT [17]这样的预先训练过的语言模型具有很强的表示来自文本中的语言信息的能力。通过丰富的语言表示，预训练的模型在各种NLP应用程序上获得了最先进的结果。然而，现有的预训练语言模型很少考虑结合外部知识来提供相关的背景信息，以便更好地理解语言。例如，鉴于鲍勃·迪伦在《风与编年史》中写的一句话，不知道《风与编年史》分别是歌曲和书，很难认出鲍勃·迪伦的两个职业，即词曲作者和作家。

为了增强具有外部知识的语言表示模型，Zhang等人[100]提出了一种具有信息实体的增强型语言表示模型（ERNIE）。知识图（KGs）是重要的外部知识资源，他们认为KGs中的信息实体可以作为用知识增强语言表示的桥梁。厄尼考虑克服整合外部知识的两个主要挑战：结构化知识编码和异构信息融合。

为了提取和编码知识信息，ERNIE首先识别文本中的命名实体提及，然后将这些提及与KGs中对应的实体对齐。ERNIE没有直接使用KGs中基于图的事实，而是用TransE [7]等知识嵌入算法对KGs的图结构进行编码，然后将信息实体嵌入作为输入。基于文本和kg之间的对齐，ERNIE将知识模块中的实体表示集成到语义模块的底层层中。

与BERT类似，ERNIE采用了掩蔽语言模型和下一句话预测作为训练前的目标。此外，为了更好地融合文本和知识特征，ERNIE使用了一个新的预训练目标（去噪实体自动编码器），通过在输入文本中随机屏蔽一些已命名的实体对齐，并训练从kg中选择合适的实体来完成对齐。与现有的仅利用局部上下文来预测标记的预训练语言表示模型不同，这些目标需要ERNIE聚合上下文和知识事实来预测标记和实体，并产生一个知识渊博的语言表示模型。

图7.21是整个体系结构。左图显示ERNIE由两个编码器（T编码器和K编码器）组成，其中T编码器由几个经典的变压器层堆叠，K编码器由为知识集成而设计的新的聚合器层堆叠。右边的部分是聚合器层的细节。在聚合器层中，来自前一个聚合器的输入令牌嵌入和实体嵌入分别被输入到两个多头自注意中。然后，聚合器采用信息融合层对令牌和实体序列进行相互集成，并计算每个令牌和实体的输出嵌入。

厄尼探讨了如何将知识信息整合到语言表示模型中。实验结果表明，ERNIE具有对远距离监督数据的去噪能力和对有限数据的微调能力。

7.5 Summary

码器），通过在输入文本中随机屏蔽一些已命名的实体对齐，并训练从kg中选择合适的实体来完成对齐。与现有的仅利用局部上下文来预测标记的预训练语言表示模型不同，这些目标需要ERNIE聚合上下文和知识事实来预测标记和实体，并产生一个知识渊博的语言表示模型。

[外链图片转存中…(img-kplNGpjz-1694051599924)]

厄尼探讨了如何将知识信息整合到语言表示模型中。实验结果表明，ERNIE具有对远距离监督数据的去噪能力和对有限数据的微调能力。

7.5 Summary

在本章中，我们首先介绍了知识图的概念。知识图以三重事实的形式包含了实体和实体之间的关系，为人类学习和理解现实世界提供了一种有效的途径。接下来，我们介绍了知识图表示的动机，它被认为是一种对大量数据有用而方便的方法，在多个知识基任务中被广泛地探索和应用，并显著提高了性能。并描述了现有的知识图表示方法。此外，我们将讨论几种旨在处理知识图表示的当前挑战的高级方法。我们还回顾了知识图表示的现实世界中的应用，如语言建模、问题回答、信息检索和推荐系统。

只鸥周

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
07-World Knowledge Representation

7 World Knowledge Representation世界知识表示旨在在低维语义空间中表示知识图中的实体和关系，已广泛应用于大型知识驱动任务中。在本章中，我们首先介绍了知识图的概念。接下来，我们将介绍其动机，并概述了现有的知识图表示方法。此外，我们将讨论几种旨在处理知识图表示的当前挑战的高级方法。我们还回顾了知识图表示的现实世界中的应用，如语言建模、问题回答、信息检索和推荐系统。7.1 Introduction为了将知识编码到现实应用中，知识图表示表示分布式表示知识图中的实体和关系，并应用于
复制链接

扫一扫

专栏目录