Reinforcement Learning Based Meta-PathDiscovery in Large-Scale Heterogeneous Information Networks

该协会主办的AAAI年会(AAAI Conference on Artificial Intelligence)是国际顶级人工智能学术会议之一。

摘要

元路径以其灵活性和可解释性来捕获对象之间复杂的语义关系,是异构信息网络(HINs)中各种数据挖掘和网络分析任务的重要工具。到目前为止,大多数HIN分析仍然依赖于手工制作元路径,这需要丰富的领域知识,而在复杂、大规模和模式丰富的HIN中很难获得这些知识。在这项工作中,我们提出了一种新的框架,即强化学习元路径发现(MPDRL),以识别来自复杂和大规模HIN的信息元路径。为了获取对象之间的不同语义信息,我们在强化学习框架中提出了一种新的多跳推理策略,旨在推断出源实体与目标实体之间的下一个有希望的关系。此外,为了提高效率,我们开发了一种嵌入类型上下文表示的方法来扩展RL框架,以处理百万量级的HIN。由于多跳推理产生丰富的、长度不同的元路径,我们进一步执行元路径归纳步骤,使用最低共同祖先原则总结重要的元路径。在Yago和NELL两个大型HIN上的实验结果验证了我们的方法,并表明我们的算法不仅在链路预测任务中取得了优越的性能,而且还识别了可能被人类专家忽略的有用元路径。

1.介绍

现实世界结构化数据中的复杂交互,如社会网络、生物网络和知识图,可以建模为异构信息网络(HINs) (Sun和Han 2013),其中对象和边缘被注释为多种类型。由于HIN能够保留对象之间丰富而复杂的相互依赖关系,近年来引起了越来越多的研究关注。然而,HIN的异质性和复杂性也给对象之间的关系分析带来了巨大的挑战,特别是在大规模网络中。为了应对这些限制,元路径的概念被提出来捕获对象之间的语义关系(Sun et al. 2009;2011)。

 图1举例说明了两个对象之间的元路径,巴拉克·奥巴马和美国。为了理解个人和国家之间的关系,我们可以利用以下元路径:a)个人是国家的政治家,b)出生的人是地区的人是国家,c)毕业的人是大学的人是国家的人。虽然它们的长度不同,涉及的中间对象也不同,但这些元路径都有助于推断isCitizenOf(Person, Country)的语义关系。因此,很容易从图1中推断巴拉克·奥巴马是美国公民。由于元路径承载丰富的语义信息,它们被广泛应用于许多数据挖掘和网络分析任务(Shi et al. 2016)

现有的大多数元路径研究或元路径指导研究都规定预定义可枚举的元路径集,这在很大程度上取决于领域专家,并且是劳动密集型的,因为在hin中寻找有趣的元路径非常具有挑战性。一般来说,这可以被认为是一个搜索问题(Lao and Cohen 2010)。更具体地说,给定一个类型集T,一个关系集R,一个固定长度l,可能的元路径在大小为的搜索空间中。如此巨大的空间,随着|T |、|R|、l规模的增大,会导致组合爆炸。大多数现有的基于人类定义元路径的方法只能在模式简单的HIN上可行,例如DBLP。一旦HIN的模式较大且复杂,就无法预先定义足够的元路径,尤其是较长的元路径,从而导致许多HIN分析任务的性能下降。因此,开发合适的策略来发现有意义的元路径是必要的,这仍然是该领域的一个挑战。

以前的一些研究旨在自动发现元路径。图遍历方法,如宽度优先搜索(BFS) (Kong et al. 2012), A*算法(Zhu et al. 2018),已被用于在模式简单HIN中寻找最短路径。但他们很难应对一个复杂的大规模HIN。孟等人(2015)提出了一种贪心算法FSPG,迭代发现最相关的元路径。然而,FSPG是在一个完全离散的空间中运行的,这使得在HIN中评估和比较相似的物体和关系变得困难。

最近,多跳推理(Shen et al. 2018;Xiong, Hoang, and Wang 2017),已经成为一种很有前途的方法,用于推断知识图中连接两个对象的路径,也被认为是一种语义丰富的HIN。这种方法包括对最有希望的关系(边)进行采样,以扩展从源节点到目标节点的路径。然而,该方法有以下局限性:1)它不是端到端推理方法,它严重依赖于预先计算的实体嵌入,通常通过基于平移的嵌入方法(如TransE (Bordes et al. 2013))学习,因此推理状态可以在连续空间中表示,并用于强化学习(RL)代理。在推理之前采用嵌入学习方法不仅耗时,而且增加了内存消耗,阻碍了它处理百万级HIN的能力。2)这些算法只生成连接两个对象的裸路径,没有对链路预测等下游任务进行元路径归纳(汇总)。3)这些方法忽略了实体中不同的类型信息,但这是非常重要的,可以为hin中对象之间的关系提供丰富的解释。

基于上述观察结果,本文提出了一种新型的强化学习框架,用于从大规模hin中自动挖掘有趣的元路径,命名为基于强化学习的元路径发现(Metapath Discovery with reinforcement learning, MPDRL)。我们的目标是利用强化学习代理推断出从源对象到目标对象最有意义的路径,然后执行进一步的元路径归纳步骤,从大量生成的路径中总结出元路径。我们的方法有三个可取的特性。首先,我们的推理框架不需要预先训练和其他监督,也不需要对先验知识进行微调。其次,提出的方法具有内建的灵活性,可以考虑不同长度的可解释元路径,这对于推断远程元路径很重要。最后,代理可以通过它们的类型上下文识别不同的对象,允许系统在百万级hin上成功运行。我们的方法应用于两个具有复杂模式的hin, Yago和NELL,并通过代理的多跳推理产生了丰富的元路径。此外,链接预测的实验结果表明,我们的方法优于比较方法。

我们的贡献有三个方面:

  • 我们提出了一个基于rl的框架MPDRL,该框架可以在不需要人力的情况下挖掘大规模复杂异构信息网络中的元路径。
  • 我们在RL方法中提出了嵌入类型上下文表示的方法,并设计了一个策略网络来记忆或忘记历史状态,允许我们提出的算法轻松处理百万规模的HIN。
  • 我们基于提取的元路径在两个大规模和复杂的hin上进行链接预测任务,Yago和NELL。实验结果表明,该算法不仅能识别同义元路径,而且性能优于人工专家设计的元路径算法。

2.相关工作

2.1Meta-path指导方法

分析和执行HINs中的数据挖掘任务,Sun等(2009;2011年)提出了元路径的概念,用于捕获语义信息和表达两个对象的复杂相关性。随后,已经发表了大量论文,涉及HIN中许多数据挖掘任务中的元路径,如相似性度量(Sun et al. 2011;Wang et al. 2016),链接预测(Shi et al. 2014;Cao, Kong, and Philip 2014),表征学习(Dong, Chawla, and Swami 2017;Cao, Kong, and Philip 2014),等等。

2.2在HIN中发现元路径

许多元路径指导方法都有一个主要缺陷,即它们需要领域专家手工定义一系列元路径。Lao and Cohen(2010)提出了一种基于随机游走的方法,在固定长度l内发现并利用标记关系网络的元路径。然而,由于长度在不同的数据集之间存在差异,因此很难设置。孟等人(2015)最近的一项研究开发了一种名为FSPG的贪婪算法来发现最相关的元路径,进一步开发了一种贪婪树数据结构来迭代寻找元路径。Yang et al.(2018)指出寻径过程是一个组合问题。因此,他们提出了一种可以通过强化学习预定义元路径的相似性度量模型。但是,这种方法只对模式简单的HIN有效。Shi和Weninger(2014)讨论了大型复杂HIN中不同类型粒度级别的元路径发现,并提出了一个通用框架,利用经典知识发现技术的适应性从复杂HIN中挖掘元路径。

2.3图中的多跳推理

许多基于随机游走的多跳推理方法(Lao, Mitchell, and Cohen 2011)被提出用于在知识库中捕获更复杂的推理模式。但是,通过执行随机漫步收集的推理路径与对象的类型无关。最近,深度强化学习在许多人工智能问题中取得了巨大的成功(Mnih et al. 2015)。深度强化学习允许从基于图的数据中学习策略功能,用于多跳推理。Xiong等人(2017)研究了基于知识库的RL的多跳推理。但是,它也忽略了对象的类型。Das et al.(2018)和Shen et al.(2018)进一步研究了用于知识库完成的强化学习。

3.定义和注释

定义1(异构信息网络)

HIN是一个包含多种类型节点和边的信息网络,定义为图G = (V, E)。V表示一个对象集,它有一个类型映射函数:φ: V→T,其中T表示类型集。E表示一个带有关系映射函数的边缘集:其中n: E→R,其中R是一个关系集。节点表示对象v∈V,边描述两个对象之间的关系r∈R

 定义2(Meta-path)

从巴拉克·奥巴马是美国政治家的例子中,我们可以推导出元路径:人是政治家的-→国家。元路径可以度量对象之间的紧密程度,指导建模进行相似度计算。

4.方法

MPDRL概述我们提出的方法的示意图概述在图2中。MPDRL旨在通过对象之间的多跳推理从HIN中发现元路径;这个过程包括两个步骤。

MPDRL的概述。MPDRL由两个步骤组成:1)利用RL进行多跳推理,在HIN中生成路径实例;2)由路径实例进行元路径归纳。左边的灰框是我们政策网络的架构。

多跳推理与RL路径实例生成:RL代理进行多跳推理,生成各种路径实例。代理从源头对象开始,奥巴马和特朗普。然后观察当前状态,并决定通过策略网络移动到下一个有最大概率到达目标对象的对象。智能体在观察和运动之间交替进行,直到到达目标物体或最大长度,从而产生一个轨迹。一集的轨迹就是主题为citizenof的路径实例。推理过程可以形式化为马尔可夫决策过程(MDP),代理可以通过强化算法进行训练。

来自路径实例的元路径归纳:我们通过在类型有向无环图(DAG)中搜索最低公共祖先(least Common Ancestor, LCA)来进一步细化和总结这些路径实例,从而生成各种元路径。

4.1多跳推理与RL路径实例生成

Reinforcement learning architecture in HINs

强化学习遵循马尔可夫决策过程(Markov Decision Process, MDP)公式,该公式由HIN通过顺序探索和利用与环境的交互进行学习。在HIN中,我们用四元组(S, a, P, R)形式化RL,其元素将在下面详细阐述。

状态

其中添加了启动状态指示器“ST”,以指示代理的初始状态。终端状态为(vt−1,rt, vd, vd)。每个状态都掌握了代理在HIN中的位置。在执行一个操作后,代理将移动到下一个状态。

动作

 状态si = (vi, ri+1, vi+1, vd)的作用空间Asi是当前对象vi在HIN中的出边集合,其中Asi = {(r, v)|(vi, r, v)∈G, v /∈{v0, v1,···,vd}}。代理从源对象v0开始,使用策略网络来预测最有希望的路径,然后每一步扩展它的路径,直到到达目标对象vd

转移

奖励

给定一对(v0, vd),如果agent到达目标对象,即vi = vd,则将agent的轨迹标记为发现成功。每一跳的奖励定义如下:

其中γ >0为奖励因子,τi为轨迹的第i步。通过灵活的奖励因素控制长期和短期奖励反馈之间的权衡。如果γ < 1,代理可能会选择一个短的寻找路径。如果γ >为1,代理将选择较长的路径。

这里需要注意的是,积极奖励通常会受到稀疏性问题的影响,即只有到达正确的目标后才会获得奖励。为了解决这个奖励稀少的问题,我们增加了另一个操作选项,标记为“OP”,即。“OP”表示代理没有到达正确的对象,因此它会停止,并接受负奖励。这尤其有助于防止agent陷入中间状态,从而加快训练的收敛速度。

策略网络

由于复杂HIN中搜索空间大,我们设计了一个无模型策略网络π(s, a) = P (a|s;θ)基于深度学习在连续空间中建模RL agent,其中θ为神经网络参数。考虑到智能体需要进行顺序决策,我们引入历史向量来保存历史信息,以便更好地指导智能体。给定步长t时的轨迹τ,历史向量由最后历史ht−1和最后状态st−1决定

注意,式(2)是递归公式。为了编码历史向量,我们引入了一种类似于图2所示的GRU (Cho et al. 2014)的门控机制来控制历史信息的记忆或遗忘。

H的定义如下:

式中zt∈Rd为更新门,qt∈Rd为复位门,◦为Hadamard产品,ht为隐藏层,[;]表示连接操作,f为带激活函数的全连接层。基于类似于gru的循环细胞结构,根据智能体的运动动态更新历史向量。此外,不像经典的GRU细胞使用ht来预测y,我们发现?ht在HIN环境下工作得更好。因此,y的分布,即所有可能的动作,定义如下:

其中a∈R| a |表示所有动作的概率分布。因此,代理选择概率最大的操作,然后移动到下一个状态。

为对象表示类型上下文学习

由于HIN中对象的规模大、语义环境复杂,对状态下的每个对象进行建模是一项具有挑战性的工作。一种解决方案是使用训练前的嵌入或内容信息来表示对象和关系。然而,在获得预训练之前,HIN中的大多数嵌入学习方法仍然需要定义良好的元路径(Fu, Lee, and Lei 2017)。另一个问题是用有限维向量初始化对象和关系。但是,当对象数量为百万级时,它会大大增加所需的内存存储。

一般来说,一个对象与一个类型集相关联,例如:Obama:{Writer, President, Activist, Person}, Trump:{President, merchant, Person},而Obama是Trump的类型兄弟,因为他们有相同的类型President。类型信息不仅显式地表达了HIN中对象的上下文,而且还揭示了对象之间的内在相关性。因此,学习类型上下文允许代理有效地识别HIN中对象的上下文。最近的一些作品将类型信息放入知识图或信息网络中,从而在实验中取得了改进的结果(Xie, Liu, and Sun 2016)。基于这一观察,我们提出了一种简单但有效的方法来对处于状态的对象建模,这有助于我们的RL方法处理大规模HIN。对于具有类型集Tv⊂T的对象v, v的类型上下文表示定义如下

 其中ωi∈Rd是Tv中的第i类向量。总之,对象的位置是由其类型上下文决定的。

4.2来自路径实例的元路径归纳

在本节中,我们将讨论如何从路径实例生成元路径。该方法可以训练一个具有多跳推理能力的代理在对象对(v0, vd)之间自动选择路径实例。路径实例即轨迹的形式为。前面的作品假设HIN中的对象只有一种类型(Shi和Weninger 2014)。因此,元路径是通过简单替换生成的。然而,在大规模HIN中,一个对象通常有多种类型。因此,简单的替换会产生大量的低相关性元路径。

因此,要将类型分配给对象,就必须减少类型集。一般HIN中的类型结构是用有向无环图(DAG) 的形式组织起来的,其中T是包含整个类型的集合,E表示两种类型之间的有向联系。DAG的边缘被认为是从父母指向孩子的,例如,总裁类型是从属类型的人。图2中的步骤2显示了一个DAG类型的玩具示例。要将类型赋给与类型集Tv相关联的对象,我们选择GTv的最低公共祖先(LCA)。具体来说,我们在(Bender et al. 2005)中使用了一种朴素的LCA算法来寻找与根类型最接近的类型,从而获得密钥类型。

 

在朴素的LCA算法中,它首先以宽度优先的方式遍历DAG,并为每个节点分配深度,然后简单地遍历DAG,找到被查询节点的祖先,从中选择深度最大的节点。原始LCA的输入是一个DAG GTv,而输出是一个包含几个键类型的集合。最后,我们可以通过识别输出类型和关系中的所有有效组合来识别元路径。

4.3优化和训练

政策网络的目标函数是使长期累积奖励的期望最大化,

 

通过REINFORCE (Williams 1992),在行为主体与环境之间的相互作用所产生的一系列轨迹上积累的奖励

为了提高训练效率,我们将轨迹的最大长度限制为l。当agent到达l时,查找过程停止,并返回负奖励。我们使用ADAM Optimizer (Kingma and Ba 2014)对政策网络进行优化。参数θ每k集更新一次。

5.实验

5.1实验设置

为了验证MPDRL方法的效率和有效性,我们基于生成的元路径进行链接预测。链接预测为我们提供了一种可测量和客观的方法来评估我们发现的元路径(孟等人,2015)。

数据集

我们对两个在线hin以及知识库Yago和(Suchanek, Kasneci和Weikum 2007)和NELL (Mitchell et al. 2018)进行了实验,与模式简单的hin相比,它们包含更复杂的类型映射和关系映射。

Yago这是一个大规模的知识库,源自Wikidata、WordNet和GeoNames (Suchanek、Kasneci和Weikum 2007)。我们在这里使用Yago2的“核心事实”部分,它由1200万个事实、400万个实体、80万个类型和38个关系组成。

NELL是一个从超过10亿份文档的Web文本中提取的知识库。我们在这里使用NELL3的第1115个转储,它包含270万个事实、200万个实体、758种类型和833种关系。然后,我们使用关系泛化删除三元组,因为这个关系描述了已经包含的冗余对象类型信息。

基准

 

注意,基于嵌入的方法,如DeepWalk和Metapath2vec,输出对象向量。为了对一对对象进行链接预测,我们使用两个对象嵌入的Hadamard乘积作为SVM分类器的输入。在RL agent训练阶段,关键超参数设置如下:最大长度l固定为5,学习速率α为0.005,奖励因子γ为1.5,更新频率k为50。V向量d是100

5.2链接预测结果

每个数据集的三种关系,Yago中的{isCitizenOf, DiedIn, GraduatedFrom}和NELL中的{WorksF or, CompetesWith, PlaysAgainst}被评估为链接预测任务。对于特定的关系任务,例如isCitizenOf,我们希望从RL代理获得各种元路径。与此相关的事实已从HIN中删除。然后根据去除的事实构造一个包含正对和负对的样本集。正对是直接从被移除的事实中得到的。每个负对是通过将真目标对象vd替换为伪目标对象v?每对中的D (v0, vd)其中v?D和vd有相同的类型。最后,我们采用带L1正则化的线性回归模型(Lao and Cohen 2010),利用二元元路径特征进行链接预测,以预测一个测试对(vα, vβ)是否存在citizenof (vα, vβ)关系。对于二进制元路径特性,如果一个元路径Ω连接一对(vα, vβ),二进制元路径特性的值为1,否则该值为0。

受试者工作特征(ROC)曲线和曲线下面积(Area under The curve, AUC)如图3所示。如图所示,使用我们的方法生成的元路径训练的分类器在所有六种关系中都表现出了卓越的性能。尽管现有的基于嵌入的方法,如DeepWalk和Metapath2Vec,在HIN上的表示学习方面取得了显著的进展,但我们发现,一旦HIN变得复杂,异质性会导致性能下降,DeepWalk证明了这一点。此外,有限的手工制作元路径也阻碍了Metapath2Vec的性能。此外,当两个对象通过较长的路径连接时,如GraduatedFrom的情况,这样的模型更糟糕。FSPG和AutoPath考虑了自己产生的各种元路径,因此性能优于PCRW和PCRW,说明越有效的元路径性能越好。此外,我们的RL代理实现的卓越性能表明,它能够生成许多有效的元路径。

 5.3Meta-paths分析

对于每个关系,经过训练的L1正则化线性回归,也称为Lasso回归,可以进行子集选择,并返回元路径的系数。这些系数表示元路径的权重。因此,我们在表2和表3中展示了RL代理生成的5个最相关的元路径。结果表明,我们的RL代理能够在HIN中找到各种元路径。以isCitizenOf关系为例,这五个元路径都明显表明了“Person”对象和“Country”对象之间的强相关性,表明我们的方法可以自动找到各种元路径,而不需要任何手工制作过程。

通过我们的方法发现有趣的元路径

现有的手工制作方法可能无法诱导像Person influence -→Person Worksat -→University这样的元路径,而这是一个人毕业于大学的有力指标。此外,我们的RL代理还发现了长长度的元路径,如NELL中的CompetesWith的第五个元路径。有趣的是,我们还发现我们的方法能够找到下义关系。以CompetesWith为例,元路径Company HasOffice−→City中出现的关系HasOffice是总部的下属关系。

5.4有效性

图4:RL模型分析:a)事件与成功率。原始数据用浅色点标记。这些曲线是通过对相应的原始数据进行平均滤波得到的。虚线表示模型没有类型上下文学习(TCL)模块。b)平均路径长度与奖励因子。

如前所述,大的搜索空间是在复杂HIN中进行推理的主要挑战。我们通过设计一个强化学习框架来解决这个问题。为了证明该方法的有效性,我们给出了不同训练集后十集内agent的平均推理成功率和平均奖励。如图4a所示,在γ = 1.5下,我们可以观察到WorksF或的平均推理成功率在300集之后趋于饱和,isCitizenof在500集之后趋于饱和。这些结果表明,我们的RL agent可以从给定的一对(v0, vd)中学习推理路径。即使代理以前没有见过对象,它仍然找到一个有希望的路径。

类型的背景下学习:

此外,为了便于理解类型上下文如何规范我们的框架,我们从框架中删除了类型上下文表示模块。因此,对象嵌入由可训练嵌入层初始化。如绿色和黄色曲线所示,不进行类型上下文学习的推理成功率提高较慢,说明训练过程收敛性较差。因此,性能差距揭示了类型上下文学习是我们的方法优越性的关键因素。类型上下文表示法学习HIN中的类型信息,意味着通过共享类型表示法可以快速有效地学习对象表示法。

奖励系数γ:

为了分析奖励因子γ如何影响我们的RL代理的性质,我们记录了平均推理路径长度与奖励因子在推理过程中。如图4b所示,随着奖励因子的增加,平均推理路径长度也增加,说明γ灵活地控制了RL agent的探索偏好。此外,虽然较大的奖励因子可以使agent找到更长的路径,但我们也发现当奖励因子< 0.8时,训练变得非常缓慢,这是由于低奖励反馈造成的梯度消失

6.总结

在本文中,我们提出了一个RL框架,该框架可以在大规模异构信息网络中自动挖掘有趣的元路径,无需任何人工监督。更具体地说,我们利用类型上下文表示学习将强化学习扩展到百万级hin。与以往在离散空间中操作的寻径模型不同,我们的方法允许agent在连续空间中进行多跳推理,从而控制所找到的元路径的分布,从而显著减小大搜索空间的大小。这些有效的元路径也可以用于下游HIN分析任务。我们在两个HIN(Yago和NELL)上进行了元路径挖掘,在六个主题上产生了合理的元路径。这些元路径进一步用于执行链接预测任务,以评估我们的模型。实验结果表明,这些元路径训练的分类器性能普遍优于其他基线。

 

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

小蜗子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值