(RESCAL)A Three-Way Model for Collective Learning on Multi-Relational Data

Abstract

关系学习在许多应用领域变得越来越重要。在这里,我们提出了一种新的基于三支张量分解的关系学习方法。我们表明,与其他张量方法不同,我们的方法能够通过模型的潜在成分进行集体学习,并提供了一个有效的算法来计算因式分解。我们通过在一个新的数据集和一个常用于实体解析的数据集上的实验,证实了我们关于模型集体学习能力的理论思考。此外,我们在公共的基准数据集上显示,如果与当前最先进的关系学习解决方案相比,我们的方法取得了更好或相当的结果,同时它的计算速度显著加快。

Introduction

随着关系数据和网络数据在社交网络建模、语义网、生物信息学和人工智能等不同领域的相关性不断增强,关系学习领域的重要性日益增加。本文关注张量在关系学习中的应用。张量及其分解被广泛应用于心理学或化学计量学等领域,最近也被应用于数据挖掘和机器学习问题,如社交网络中的时间效应建模。在关系学习中,张量刚刚兴起,被用作更常见的方法如图形模型的替代。在这个域中使用张量的目的很多。从建模的角度来看,张量提供了简单性,因为任意阶的多重关系都可以直接表示为高阶张量。此外,没有关于问题结构的先验知识需要知道或需要从数据中推断,然而有些模型这是必要的,例如对于图形模型,如贝叶斯网络或马尔可夫逻辑网络( MLN )。从学习的角度使用张量分解的一个原因是,关系域通常是高维和稀疏的,在这种情况下,分解方法已经显示出很好的效果。

关系数据的一个重要性质是多个相互关联的节点之间可以产生相关性。这些相关性可以通过在学习任务中包含相关实体的属性、关系或类来捕获。然而,众所周知的张量分解方法,如CANDECOMP /平行因子分析算法( CP ) (哈什曼& Lundy , 1994年)或Tucker (塔克, 1966),不能充分模拟这种集体学习效应。DEDICOM分解(哈什曼, 1978年)能够检测这种类型的相关性,但遗憾的是,它给模型施加了一般情况下不适合关系学习的约束,从而导致次优结果。在本文中,我们提出了基于张量分解的关系学习方法RESCAL,该方法与DEDICOM相关,但没有表现出相同的约束。通过这样做,我们可以得到更高质量的模型,并在运行时有显著的改进。我们将提出一个计算因子分解的有效算法,并在一个新的集体学习数据集和关系学习基准数据集上评估我们的方法。我们将表明,与更常用的张量模型(如CP )相比,使用我们的模型可以实现显著的改进。此外,我们还将表明,如果在这些数据集上与当前最先进的关系学习方法相比,我们的方法给出了更好或类似的结果,而只需要一小部分时间来计算。

Modelling and Notation

本文对关系域的建模方法如下。为了表示二元关系数据,我们使用语义网的RDF形式,其中关系被建模为(主语、谓语、宾语)形式的三元组,其中谓词要么建模两个实体之间的关系,要么建模一个实体和一个属性值之间的关系。为了将二元关系数据建模为张量,我们使用了一个三支张量X,其中两个模式由领域的级联实体相同地组成,而第三个模式包含关系。图1提供了这种建模方法的说明。张量项Xijk = 1表示存在关系(第i个实体,第k个谓词,第j个实体)。否则,对于不存在且未知的关系设置为0。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图 1图1:关系数据的张量模型。E1 · · · En表示实体,R1 · · · Rm表示领域内的关系

在本文的后面我们将使用下面的符号:张量由书法字母X表示,而Xk指的是张量X的第k个正面切片。X ( n )表示张量X在模式n下的展开。A⋅B表示矩阵A和B的Kronecker积,Ik表示大小为k的单位矩阵,vec ( X )是矩阵X的向量化。向量用粗体小写字母表示,如a。进一步,假设数据被给定为一个n × n × m的张量X,其中n为实体个数,m为关系个数。

Related Work

关于统计关系学习的文献浩如烟海,因此我们只对其进行一个简单的综述。关系学习的一种常用方法是使用图模型,如贝叶斯网络或马尔科夫逻辑网络( Friedman et al . , 1999 ;理查德森&多明戈斯, 2006)。此外,IHRM ( Xu et al . , 2006)和IRM( KempEt al,2006 )是关系学习的非参数贝叶斯方法,而( Singh & Gordon , 2008)使用集体矩阵分解进行关系学习。( Getoor & Taskar , 2007)提出了进一步的方法,并对关系学习领域进行了详细的介绍。张量分解已被广泛应用于心理学和化学计量学等领域。张量分解及其应用的广泛综述可以在( Kolda & Bader , 2009)中找到。最近,( Sutskever et al , 2009)引入了贝叶斯聚类张量分解( Bayesian Clustered Tensor Factorization,BCTF ),并将其应用于关系数据。( Sun et al . , 2006)给出了动态和流式张量分析方法。这些方法被用于分析网络流量和书目数据。( Franz et al , 2009)使用CP对以RDF三元组形式给出的关系数据进行排序。

Methods and Theoretical Aspects

关系学习关注的是多个实体通过多种关系相互连接的领域。因此,关联不仅可以直接发生在实体或关系之间,还可以跨越这些不同实体和关系的相互关联。根据现有的学习任务,我们知道,当学习算法能够可靠地检测这些关系学习特定的相关性时,它可能会有很大的好处。例如,考虑预测美国总统的党派身份的任务。在没有任何额外信息的情况下,当总统的副总统的政党已知时,这可以相当准确地做到,因为两个人都是同一政党的成员。为支持分类任务而包含连接实体的属性、类或关系等信息通常被称为集合分类。然而,这个过程不仅可以用于分类问题,还可以用于实体解析、链接预测或任何其他关系数据上的学习任务。我们将把利用相关实体提供的信息的机制称为集体学习,而不管手边的学习任务是什么。

A Model for Multi-Relational Data

为了对多关系数据进行集体学习,我们提出了RESCAL方法,该方法使用了考虑关系数据内在结构的张量分解模型。更准确地说,我们采用如下rank - r分解,其中每个切片Xk被分解为

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

其中,A是一个n × r矩阵,包含领域中实体的潜在成分表示,Rk是一个非对称的r × r矩阵,用于建模第k个谓语中的潜在组件之间的相互作用

因子矩阵A和Rk可以通过求解正则化最小化问题来计算

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值