Go for a Walk and Arrive at the Answer Reasoning Over Paths in Knowledge Bases using Reinforcement L

出去走走,找到答案:使用强化学习在知识库中进行路径推理

内容

摘要

知识库(知识库),无论是自动构建的还是手动构建的,通常都是不完整的——许多有效的事实可以通过综合现有信息从知识库中推断出来。知识库补全的一种流行方法是通过对连接一对实体的其他路径上找到的信息进行组合推理来推断新的关系。

考虑到kb的巨大规模和路径的指数数量,以前基于路径的模型只考虑了给定两个实体预测缺失关系的问题,或者评估所提议的三重的真值。

此外,这些方法传统上使用固定实体对之间的随机路径,或者最近学习的在它们之间选择路径。我们提出了一种新的算法MINERVA,它解决了更困难和更实际的任务,即回答已知关系的问题,但只有一个实体。由于随机漫步在目的地未知且从开始节点开始有许多路径的情况下是不切实际的,我们提出了一种神经强化学习方法,该方法学习如何在输入查询条件下导航图以找到预测路径。在对七个知识库数据集的综合评估中,我们发现MINERVA与许多当前最先进的方法具有竞争力。

提出了一种基于输入问题的强化学习(RL)有效搜索图中答案提供路径的方法,消除了对预先计算路径的任何需要。给定一个庞大的知识图谱,我们学习一个策略,在给定查询(entity1,relation,?)的情况下,该策略从entity1出发,在查询关系和整个路径历史的条件下,每一步选择一个标记的关系边,学习走到答案节点。这将查询-回答任务表述为一个强化学习(RL)问题,其目标是采取最佳决策序列(选择关系边)以最大化预期奖励(到达正确的答案节点)。我们将RL代理称为MINERVA,意思是“在实体网络中漫游以获得V个相似的答案”。

简介

我们的rl基配方具有许多理想的性能。首先,MINERVA具有采用可变长度路径的内置灵活性,这对于回答需要复杂推理链的更难的问题非常重要(Shen et al ., 2017)。其次,MINERVA不需要预训练,通过强化学习从头开始在知识图上进行训练;不需要其他监督或微调,这代表了RL在NLP中的先前应用的重大进步。第三,我们基于路径的方法计算效率很高,因为通过在查询实体周围的小邻域中搜索,它避免了像以前的工作那样对知识库中的所有实体进行排序。最后,我们的智能体发现的推理路径自动形成其预测的可解释来源。

本文的主要贡献有:(a)我们提出了智能体MINERVA,它通过在以输入查询为条件的知识图上行走来学习进行查询回答,当它到达答案节点时停止。智能体使用强化学习进行训练,特别是策略梯度(§2)。(b)我们在几个基准数据集上评估MINERVA,并与Neural Theorem proving (NTP) (rockaschel & Riedel, 2017)和Neural LP (Yang等人,2017)进行比较,后者在KBs中进行逻辑规则学习,以及最先进的基于嵌入的方法,如DistMult (Yang等人,2015)、ComplEx (Trouillon等人,2016)和ConvE (Dettmers等人,2018)。©我们还扩展MINERVA来处理部分结构化的自然语言查询,并在WikiMovies数据集上进行测试(§3.3)(Miller et al, 2016)。

我们还比较了DeepPath (Xiong et al ., 2017),它使用强化学习来选择实体对之间的路径。主要区别在于他们的RL代理的状态包括答案实体,因为它是为预测事实是否为真这一更简单的任务而设计的。因此,他们的方法不能直接应用于我们更具挑战性的查询回答任务,因为第二个实体是未知的,必须推断出来。尽管如此,MINERVA在他们的基准nell995数据集上优于DeepPath在他们的实验设置(§3.2.2)。

结论

探索了一种新的基于大型知识库的自动推理方法,我们使用知识库的知识图表示并训练智能体在输入查询条件下行走到答案节点。我们在多个基准知识库完成任务上取得了最先进的结果,并且我们还表明我们的模型是鲁棒的,可以学习长链推理。此外,它不需要预训练或初始监督。未来的研究方向包括应用更复杂的强化学习技术和直接处理文本查询和文档。

研究背景

自动推理,即计算系统根据观察到的证据做出新的推断的能力,一直是人工智能的一个长期目标。我们对语义丰富多样的大型知识库(KB)上的自动推理很感兴趣(Suchanek等人,2007;Bollacker等,2008;Carlson et al, 2010)。知识库是高度不完整的(Min et al, 2013),没有直接存储在知识库中的事实通常可以从知识库中推断出来,这为自动推理创造了令人兴奋的机会和挑战。例如,考虑图1中的小知识图。我们可以回答这个问题:“马拉拉与谁分享了她的诺贝尔和平奖?”,从以下的推理路径:马拉拉·伊·萨法扎伊→诺贝尔和平奖→2014年诺贝尔和平奖→冈仁波齐·萨蒂亚尔希。我们的目标是在KBs中自动学习这样的推理路径。我们将学习问题定义为查询式回答,也就是说,回答以下形式的问题(Malala Y ousafzai, SharesNobelPrizeWith, ?)

在这里插入图片描述

图1:知识库的一小部分表示为知识图。观察实边,虚线边是查询的一部分。注意每个查询关系(例如:SharesNobelPrizeWith, Nationality等)可以通过实体“Malala Y ousafzai”和相应答案之间的“逻辑”路径遍历图来回答。

从早期开始,自动推理方法的重点就是建立能够学习清晰的符号逻辑规则的系统(McCarthy, 1960;尼尔森,1991)。符号表示也与机器学习相结合,特别是在统计关系学习中(Muggleton et al ., 1992;Getoor & Taskar, 2007;Kok & Domingos, 2007;Lao等人,2011),但由于泛化性能差,这些方法在很大程度上被分布式向量表示所取代。使用张量分解或神经方法学习实体和关系的嵌入是一种流行的方法(Nickel等人,2011;Bordes等人,2013;Socher et al, 2013,除其他外),但这些方法无法捕获由KB路径表示的推理链。神经多跳模型(Neelakantan et al ., 2015;Guu等,2015;Toutanova等人,2016)通过对嵌入在向量空间中的知识库路径进行操作,在一定程度上解决了上述问题。然而,这些模型将一组路径作为输入,这些路径是通过独立于查询关系的随机行走收集的。此外,尼拉坎丹等人开发的模型(2015);Das等人(2017)使用相同的初始收集路径集来回答不同的查询类型集(例如已婚、国籍、工作等)。

相关工作

使用张量分解学习实体和关系的向量表示(Nickel等,2011;2012;Bordes等人,2013;Riedel et al, 2013;Nickel等,2014;Yang et al ., 2015)或神经方法(Socher et al ., 2013;Toutanova等,2015;V erga等人,2016)一直是一种使用知识库进行推理的流行方法。然而,这些方法不能捕获更复杂的推理模式,例如通过遵循KBs中的推理路径发现的那些模式。多跳链路预测方法(Lao et al ., 2011;Neelakantan等,2015;Guu等,2015;Toutanova等,2016;Das等人,2017)解决了上述问题,但它们操作的推理路径是通过执行独立于查询关系类型的随机行走来收集的。Lao等人(2011)根据路径必须在训练集中的一个目标实体处结束并且在最大长度范围内的限制,进一步从采样路径集中过滤路径。这些约束使它们依赖于查询,但它们本质上是启发式的。我们的方法消除了任何预先计算路径的必要,并学会了在输入查询关系的条件下有效地搜索图。

归纳逻辑规划(ILP) (Muggleton et al ., 1992)旨在从示例和背景知识中学习通用谓词规则。ILP的早期工作,如FOIL (Quinlan, 1990), PROGOL (Muggleton, 1995),要么是基于规则的,要么需要负面的例子,这通常很难在KBs中找到(通过设计,KBs存储真实事实)。统计关系学习方法(Getoor & Taskar, 2007;Kok & Domingos, 2007;Schoenmackers等人,2010)以及概率逻辑(Richardson & Domingos, 2006;Broecheler et al ., 2010;Wang等人,2013)结合了机器学习和逻辑,但这些方法对符号而不是向量进行操作,因此不具有基于嵌入的方法的泛化特性。

将推理看作是对自然语言空间的搜索,前人的研究很少。Nogueira和Cho(2016)提出了一个任务(WikiNav),其中图中的每个节点都是维基百科页面,边缘是指向其他维基页面的超链接。实体将由页面中的文本表示,因此代理需要在自然语言空间上进行推理,以便在图中导航。与WikiNav类似的是Wikispeedia (West et al, 2009),其中代理需要学习尽可能快地遍历到给定的目标实体节点(wiki页面)。Angeli和Manning(2014)提出了自然逻辑推理,他们将推理作为从查询到任何有效前提的搜索。在每个步骤中,动作都是MacCartney & Manning(2007)介绍的七种词汇关系之一。

Neural Theorem proofs (NTP) (rock¨aschel & Riedel, 2017)和Neural LP (Y ang et al ., 2017)是学习逻辑规则的方法,可以通过基于梯度的学习进行端到端训练。ntp是通过Prolog的反向链推理方法构建的。它对向量而不是符号进行操作,从而为每个证明路径提供成功分数。然而,由于任意两个向量之间都可以计算分数,因此在逆向链的替换步骤中,由于这种软匹配,计算图变得非常大。对于可跟踪性,它采用启发式方法,例如仅保留前k个得分证明路径,以权衡精确梯度的保证。此外,NTPs对大KBs的疗效尚未得到证实。神经LP引入了一个差分规则学习系统,使用TensorLog中定义的算子(Cohen, 2016)。它有一个基于LSTM的控制器,带有可微内存组件(Graves等人,2014;Sukhbaatar等人,2015),规则得分是通过注意力计算的。尽管可微分内存允许端到端训练,但它需要访问整个内存,这在计算上可能会很昂贵。能够硬选择内存的强化学习方法(Zaremba & Sutskever, 2015)在计算上很有吸引力。MINERVA使用类似的硬选择关系边在图上行走。更重要的是,MINERVA在各自的基准数据集上优于这两种方法。

DeepPath (Xiong et al ., 2017)使用基于强化学习的方法在知识库中查找路径。然而,它们的MDP状态要求事先知道目标实体,因此它们的寻路策略依赖于知道答案实体。MINERVA不需要目标实体的任何知识,而是学习在所有实体中找到答案实体。DeepPath还将其收集的路径馈送给路径排序算法(Lao et al, 2011),而MINERVA是一个经过训练可以进行查询回答的完整系统。DeepPath还为其实体和关系使用固定的预训练嵌入。最后,在比较MINERVA和DeepPath在NELL数据集上的实验设置时,我们的性能与它们相当或优于它们。MINERVA也类似于学习搜索结构化预测的方法(Collins & Roark, 2004;Daum´e III & Marcu, 2005;Daum ’ e III et al ., 2009;Ross et al ., 2011;Chang et al ., 2015)。这些方法基于模仿参考策略(oracle),在每一步都做出接近最优的决策。在我们的问题设置中,不清楚什么是好的参考策略。例如,两个实体之间的最短路径oracle是不理想的,因为提供路径的答案应该依赖于查询关系。

2任务和模型

我们在知识库中正式定义查询应答任务。设E表示实体的集合,R表示二元关系的集合。知识库是存储为三元组(e1,r,e2)的事实集合,其中e1,e2∈E,r∈r。从知识库中,可以构造一个知识图G,其中实体e1,e2表示为节点,关系r表示为它们之间的标记边。形式上,知识图是一个有向标记多图G = (V,E,R),其中V和E分别表示图的顶点和边。请注意,V = E、E蔓蔓性V × R ×V。此外,遵循之前的方法(Bordes等人,2013;Neelakantan等,2015;Xiong et al, 2017),我们将每条边的反比关系相加,即对于一条边(e1,r,e2)∈E,我们将这条边(e2,r−1,e1)相加到图中。(如果二元关系集R不包含逆关系R−1,则也将其添加到R中。)

由于KBs存在大量的缺失信息,信息抽取领域自然出现了两种任务——事实预测和查询回答。查询回答寻求回答形式为(e1,r,?)的问题,例如多伦多,locatedIn, ?,而事实预测涉及预测事实是否为真,例如(多伦多,locatedIn,加拿大)?。事实预测算法可以用于查询回答,但会带来很大的计算开销,因为必须评估所有候选答案实体,这使得对于具有数百万实体的大型知识库来说代价高昂。在这项工作中,我们提出了一个查询回答模型,该模型学习有效地遍历知识图以找到查询的正确答案,从而消除了对所有实体进行评估的需要。

查询回答自然地简化为一个有限视界顺序决策问题,如下所示:我们首先将环境表示为来自知识库(§2.1)的知识图G上的确定性部分观察马尔可夫决策过程。我们的RL代理得到一个形式为?e1q,rq,?的输入查询。从对应于G中的e1q的顶点开始,智能体沿着图中的路径停止在它预测为答案的节点(§2.2)。使用已知事实的训练集,我们通过强化(Williams, 1992)和控制变量(§2.3)更具体地使用策略梯度来训练智能体。让我们从描述环境开始。

2.1环境-状态,行动,转换和奖励

我们的环境是一个有限的视界,确定性的部分可观察的马尔可夫决策过程,它位于知识库派生的知识图G上。在这个图中,我们现在将指定一个确定性的部分观察到的马尔可夫决策过程,它是一个5元组(S,O, a,δ,R),我们在下面详细说明每一个。

状态。状态空间S由E × E × R × E中的所有有效组合组成。直观地说,我们想要一个状态来编码查询(e1q,rq)、答案(e2q)和探索位置et (RL代理的当前位置)。因此总的来说,状态S∈S表示为S = (et,e1q,rq,e2q),状态空间由所有有效组合组成。

观察。环境的完整状态没有被观察到。直觉上,智能体知道它当前的位置(et)和(e1q,rq),但不知道答案(e2q),答案仍然是隐藏的。形式上,观测函数O: S→E × E × R定义为O(S = (et,e1q,rq,e2q)) = (et,e1q,rq)。

行动。状态S = (et,e1q,rq,e2q)的可能动作AS集合由g中顶点et的所有出边组成。形式AS = {(et,r,v)∈E: S = (et,e1q,rq,e2q),r∈r,v∈v}∪{(S,∅,S)}。基本上,这意味着智能体在每个状态下都可以选择它想要取哪条出边,因为它知道边r和目标顶点v的标签。

在实现过程中,我们将计算图展开到固定数量的时间步长t。我们用一个称为“NO OP”的特殊动作来增加每个节点,该动作从一个节点到它自己。有些问题比其他问题更容易回答,需要的推理步骤也更少。这种设计决策允许代理在任意数量的时间步长内保持在节点上。当智能体在时间步长t < t上获得了正确答案,并且可以在剩下的时间步长中继续停留在“答案节点”上时,这一点尤其有用。或者,我们可以允许代理采取特殊的“STOP”动作,但我们发现当前的设置工作得足够好。如前所述,我们还添加了一个三元组的逆关系,即对于三元组(e1,r,e2),我们将三元组(e2,r - 1,e1)添加到图中。我们发现这很重要,因为这实际上允许我们的代理撤销一个潜在的错误决定。

过渡。通过将状态更新到与代理选择的边缘相关的新顶点,环境就会确定性地进化。问题和答案是一样的。形式上,过渡函数为δ: S × A→S,定义为δ(S,A) = (v,e1q,rq,e2q),其中S = (et,e1q,rq,e2q),A = (et,r,v))。

奖励。只有当当前位置在最后是正确答案时,我们才会获得+1的终端奖励,否则为0。具体来说,如果ST = (et,e1q,rq,e2q)是最终状态,那么如果et = e2q否则为0,我们将获得+1的奖励。,即R(ST) = I{et = e2q}。

2.2策略网络

为了解决上述有限视界确定性部分可观察马尔可夫决策过程,我们设计了一个随机非平稳历史依赖策略π = (d1,d2,…,dT−1),其中dT: Ht→P(ASt)和历史Ht = (Ht−1,At−1,Ot)正是观测和采取的行动的序列。我们将自己限制在长短期记忆网络(LSTM)参数化的策略中(Hochreiter & Schmidhuber, 1997)。

基于LSTM的agent将历史Ht编码为连续向量Ht∈R2d。我们还分别为二元关系和实体建立了嵌入矩阵r∈r | r |×d和e∈r | e |×d。根据LSTM动态更新Ht = (Ht−1,At−1,Ot)的历史嵌入:
h t = L S T M ( h t − 1 , [ a t − 1 ; o t ] ) ht = LSTM(ht−1,[at−1;ot]) ht=LSTM(ht1,[at1;ot])
其中at - 1∈Rd, ot∈Rd分别表示时刻t - 1的动作/关系和时刻t的观察/实体的向量表示,[;]表示向量拼接。为了说明,at - 1 = rAt - 1,即嵌入agent在时间t - 1时选择的边的标签对应的关系,如果ot = (et,e1q,rq),则ot = eet,即嵌入agent在时间t时所在顶点对应的实体。

基于历史嵌入ht,策略网络根据查询关系从所有可用操作(ASt)中做出选择操作的决策。回忆一下,每个可能的动作表示一条带有边缘关系标签l和目标顶点/实体d信息的出边。因此,对每个A∈ASt的嵌入为[rl;ed],对所有出边的嵌入进行叠加,我们得到矩阵At。将这些作为输入的网络参数化为具有ReLU非线性的两层前馈网络,该网络接受当前历史表示ht和查询关系rq的嵌入,并输出可能动作的概率分布,从中采样离散动作。换句话说,
d t = s o f t m a x ( A t ( W 2 R e L U ( W 1 [ h t ; o t ; r q ] ) ) ) , A t ∼ C a t e g o r i c a l ( d t ) . dt = softmax(At(W2ReLU(W1 [ht;ot;rq]))),\\ At ∼ Categorical(dt). dt=softmax(At(W2ReLU(W1[ht;ot;rq]))),AtCategorical(dt).
请注意,G中的节点没有固定的顺序,也没有固定的边数。矩阵At的大小为|ASt | × 2d,因此决策概率dt取决于大小为|ASt |的单纯形。此外,上述过程对顺序是不变的,其中边缘按所需方式呈现,并且属于设计为排列不变的神经网络的范围(Zaheer等人,2017)。最后,总结一下,LSTM的参数、权重W1、W2、相应的偏差(为简洁起见,上面没有显示)和嵌入矩阵构成策略网络的参数θ。

2.3训练

对于上面描述的策略网络(πθ),我们想找到使期望奖励最大化的参数θ:
J ( θ ) = E ( e 1 , r , e 2 ) ∼ D E A 1 , . . , A T − 1 ∼ π θ [ R ( S T ) ∣ S 1 = ( e 1 , e 1 , r , e 2 ) ] , J(θ) = E(e1,r,e2)∼DEA1,..,AT −1∼πθ[R(ST )|S1 = (e1,e1,r,e2)], J(θ)=E(e1,r,e2)DEA1,..,AT1πθ[R(ST)S1=(e1,e1,r,e2)],
其中,我们假设存在一个真实的底层分布(e1,r,e2) ~ d。为了解决这个优化问题,我们使用了强化(Williams, 1992),如下所示:

•第一个期望被替换为训练数据集的经验平均值。

•对于第二个期望,我们通过对每个训练示例运行多个滚动来进行近似。推出的数量是固定的,对于我们所有的实验,我们将这个数字设置为20。

•对于减少方差,一种常见的策略是使用加性控制变量基线(Hammersley, 2013;Fishman, 2013;Evans & Swartz, 2000)。我们使用累积折扣奖励的移动平均值作为基线。我们将移动平均线的权重调整为超参数。注意,在我们的实验中,我们发现使用学习基线的效果类似,但由于其简单性,我们最终决定使用累积折扣奖励作为基线。

•为了在训练时鼓励策略采样路径的多样性,我们在成本函数中添加了一个熵正则化项,该函数由常数(β)缩放。

  • 18
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值