Graph Representation Learning翻译版

本文介绍了图作为一种普遍存在的数据结构,用于描述复杂系统,如社交网络、生物交互和电信网络。图机器学习是分析这些数据的关键,涉及节点分类、关系预测、聚类和社区检测以及图分类等任务。节点分类用于识别如社交网络中的机器人,关系预测则预测图中缺失的边,而社区检测揭示网络中的结构模块。图机器学习正逐步释放大规模图数据的潜力。
摘要由CSDN通过智能技术生成

章节1

引言

图是一种普遍存在的数据结构,也是一种描述复杂系统的通用语言。在最一般的视图中,图只是对象(即节点)的集合,以及这些节点对之间的一组交互作用(即边)。例如,要将社交网络编码为图,我们可以使用节点来表示个体,并使用边来表示两个个体是朋友(图1.1)。在生物领域,我们可以使用图中的节点来表示蛋白质,并使用边来表示各种生物相互作用,如蛋白质之间的动力学相互作用。
在这里插入图片描述

图1.1 著名的Zachary Karate 俱乐部网络代表了韦恩·扎卡里在1970年至1972年期间研究的一个空手道俱乐部成员之间的友谊关系。如果两个人在俱乐部外社交,那么就会有一个边把他们联系起来。在扎卡里的研究中,俱乐部分成了两个派系,以节点0和33为中心,扎卡里能够根据图形结构正确地预测哪些节点将进入每个派系【扎卡里,1977年】
图形式主义的力量在于它关注点之间的关系(而不是单个点的性质)。举几个例子,同样的图形形式可以用来表示社交网络、药物和蛋白质之间的相互作用、在分子里面原子之间的相互作用。或者电信网络中终端之间的连接。
然而,图不仅仅是提供了一个优雅的理论框架。它们提供了一个数学基础,我们可以建立基础来分析、理解和学习现实世界的复杂系统。在过去的25年里,研究人员获得的图结构数据的数量和质量急剧增加。随着大型社交网络平台的出现、模拟交互组、食物网络的大量科学举措、分子图结构数据库和数十亿个相互连接的网络支持设备的出现,并不缺乏有意义的图数据可供研究人员分析,挑战在于如何释放这些数据的潜力。
这本书是关于我们如何使用机器学习来解决这个挑战的。当然,机器学习并不是分析图数据[ 独立于机器学习的网络分析领域是整个教科书的主题,这里不需要详细介绍[纽曼,2018]]的唯一可能的方法。然而,考虑到我们试图分析的图数据集不断增长的规模和复杂性,很明显,机器学习将在提高我们建模、分析和理解图数据的能力方面发挥重要作用。

1.1什么是图?

在我们讨论图上的机器学习之前,有必要对我们所说的“图数据”的确切含义做出一些更正式的描述。形式上,图G=(V,E)由一组节点V和一组这些节点之间的边E定义。我们表示一条边从节点u∈V到节点v∈V, 作为(u,v)∈E。在许多情况下,我们将只关心简单的图,每对节点之间最多有一条边,节点和自身之间没有边,边都是无方向的,即(u,v)∈E↔(v,u)∈E
图的一种方便的表示方法是通过邻接矩阵A∈R|V|×|V|。 为了用邻接矩阵表示图,我们对图中的节点进行排序,使每个节点在邻接矩阵中索引特定的行和列。然后,我们可以将边的存在表示为这个矩阵中的条目:如果(u,v)∈E, A[u,v]=1。否则,A[u,v]=0。 如果图只包含无向边,则A将是对称矩阵,但如果图是有向的(即边缘方向重要),则A不一定是对称的。有些图也可以有加权的边,其中邻接矩阵中的条目是任意的实值,而不是{0,1}。例如,蛋白质-蛋白质相互作用图中的加权边缘可能表明两种蛋白质之间的关联强度。

1.1.1多关系图

除了区分无向边、有向边和加权边之外,我们还将考虑具有不同类型边的图。例如,在代表药物-药物相互作用的图上,我们可能需要不同的边对应于您服用一对药物时同时可能发生的不同副作用。在这些情况下,我们可以扩展边符号,以包括一个边或关系类型τ,例如,(u、τ、v)∈E。我们可以为每个边类型定义一个邻接矩阵Aτ。我们称此图为多关系图,整个图可以用邻接张量A∈R|V|×|R|×|V|来概括,其中R是关系集。多关系图的两个重要子集通常被称为异构图和多路图。
异构图。在异构图中,异构图的节点也包含类型,这意味着我们可以将节点集划分为不相交集=V1∪V2∪…∪,其中Vi∩Vj=∅,∀i ≠ j。异构图中的边缘通常根据节点类型满足约束,最常见的是某些边只连接某些类型的节点,即(u,τi,v)∈E→u∈Vj,v∈Vk的约束。例如,在异构生物医学图中,可能有一种代表蛋白质的节点,一种代表药物,一种代表疾病。代表“治疗”的边只会发生在药物节点和疾病节点之间。 同样,表示“多药副作用”的边只会发生在两个药物节点之间。多方图是异构图的一个众所周知的特例,其中边只能连接具有不同类型的节点,即(u,τi,v)∈E→u∈Vj,v∈Vk∧j=k。
多路图。在多路图中,我们假设图可以在一组k层中分解。假设每个节点都属于每个层,每个层对应于一个唯一的关系,表示该层的层内边类型。我们还假设层间边类型可以存在,它们将同一节点跨层连接起来。多路图最好通过例子来理解。 例如,在多路交通网络中,每个节点可能代表一个城市,每个层可能代表不同的交通方式(例如,空中旅行或火车旅行)。层内边将代表由不同运输方式连接的城市,而层间边则代表在特定城市内切换运输方式的可能性。

1.1.2特征信息

最后,在许多情况下,我们也有与图形相关的属性或特征信息(例如,与社交网络中的用户关联的配置文件图片)。大多数情况下,这些都是节点级属性,我们使用实值矩阵X∈R|V|×m表示,其中我们假设节点的排序与邻接矩阵中的排序一致。在异构图中,我们通常假设每个不同类型的节点都有自己不同类型的属性。 在罕见的情况下,除了离散的边类型外,我们还将考虑具有实值边特征的图,在某些情况下,我们甚至将实值特征与整个图相关联。
图或者网络? 我们在这本文章使用了“图”一词,但您将看到许多其他资源使用“网络”一词来描述相同类型的数据。在某些地方,我们将使用这两个术语(例如,用于社会或生物网络)。那么哪个术语是正确的呢? 在许多方面,这种术语差异是一种历史和文化差异:“图”一词似乎在机器学习社区中更为普遍,但“网络”在数据挖掘和(不出所料)网络科学社区中受欢迎。我们在本书中使用了这两个术语,但我们也区分了这些术语的用法。我们使用术语图来描述作为本书重点的抽象数据结构,但我们也将经常使用术语网络来描述这个数据结构的特定的、真实的实例化(例如,社交网络)。这一术语上的区别符合它们目前对这些术语的流行用法。网络分析通常涉及真实数据的性质,而图论则涉及数学图抽象的理论性质。

1.2图机器学习

机器学习在本质上是一种由问题驱动的学科。我们寻求建立模型,可以从数据中学习,以解决特定的任务,机器学习模型通常根据他们寻求解决的任务类型进行分类:这是一个监督任务,目标是预测给定输入数据点的目标输出?这是一项无监督的任务,目标是推断数据中的模式,如点集群?使用图机器学习也是相同的,但当涉及到图时,通常的监督和无监督类别并不一定是信息最丰富或最有用的。在本节中,我们简要概述了图数据上最重要和研究充分的机器学习任务。正如我们将看到的,“监督”问题在图数据中很流行,但图上的机器学习问题往往模糊了传统机器学习类别之间的界限。

1.2.1节点分类

假设我们得到了一个拥有数百万用户的大型社交网络数据集,但我们知道这些用户中有相当多的实际上是机器人。识别这些机器人可能有很多原因:一家公司可能不想向机器人做广告,或者机器人实际上可能违反了社交网络的服务条款。手动检查每个用户,以确定他们是否是一个机器人将是令人望而却步的昂贵,所以理想情况下,我们希望有一个模型,只给少量的手动标签样本,可以将用户分类为一个机器人(或不)。
这是节点分类的一个经典例子,其中的目标是预测与所有节点u∈V相关的标签Yu。这可能是一种类型、类别或属性。当我们只在节点Vtrain⊂V的训练集上得到真正的标签时。节点分类可能是图形数据上最流行的机器学习任务。特别是近年来,社交网络之外的节点分类的例子包括将蛋白质在交互体中的功能分类[Hamilton等人,2017b]和基于超链接或引文图的文档主题分类[Kipf和Welling,2016a]。通常,我们假设我们只对单个图中非常小的节点子集有标签信息(例如,从一组手动标记的示例中对社交网络中的BOT进行分类)。然而,也有一些节点分类的实例,涉及许多标记节点和/或需要对断开连接的图进行推广(例如,对不同物种间组织中蛋白质的功能进行分类)。
乍一看,节点分类似乎是标准监督分类的直接变化,但实际上存在重要的差异。 最重要的区别是图中的节点不是独立的、相同分布的(i.i.d。 )。通常,当我们构建有监督的机器学习模型时,我们假设每个数据点在统计上与所有其他数据点独立;否则,我们可能需要建模所有输入点之间的依赖关系。 我们还假设数据点是相同分布的;否则,我们无法保证我们的模型将推广到新的数据点。节点分类完全破坏了这个i.i.d假设,而不是建模一组i.i.d。数据点,我们是建模一组相互连接的节点集。
事实上,许多最成功的节点分类方法背后的关键见解是明确地利用节点之间的连接。一个特别流行的观点是利用同质性,这就是节点与图中的邻居共享属性的趋势[McP等人,2001]。例如,人们倾向于与具有相同兴趣或人口统计的其他人建立友谊。基于同质性的概念,我们可以建立机器学习模型,试图在图中向相邻节点分配类似的标签[周等人,2004年]。
除了同质性之外,还有一些概念,如结构等价性[Donnat等人,2018年],这是一种认为具有相似局部邻域结构的节点将具有相似的标签的想法,以及异质的概念,它假定节点将优先连接到具有不同标签的节点。当我们建立节点分类模型时,我们希望利用这些概念并对节点之间的关系进行建模,而不是简单地将节点视为独立的数据点。
监督还是半监督? 由于节点分类的非典型性,研究人员经常将其称为半监督[Yang等人,2016]。使用这个术语是因为当我们在训练节点类模型时,我们通常可以访问完整的图,包括所有未标记的(例如,测试)节点。我们唯一缺少的是测试节点的标签。然而,我们仍然可以使用关于节点测试的信息(例如图中的邻居知识)来改进我们的模型。这不同于通常的监督设置,即在训练过程中完全未观察到未标记的数据点。用于在传输过程中组合标记和未标记数据的模型的通用术语是半监督学习,因此可以理解,这个术语经常用于引用节点分类任务。 然而,必须指出,半监督学习的标准公式仍然需要i.i.d假设,不适用于节点分类。 图上的机器学习任务不容易适合我们的标准类别!

1.2.2 关系预测

节点分类有助于根据节点与图中其他节点的关系推断节点的信息。 但是我们缺少这种关系信息的案例呢? 如果我们只知道在给定的细胞中存在的一些蛋白质相互作用,但我们想对我们缺少的相互作用做出一个很好的猜测呢? 我们能用机器学习来推断图中节点之间的边吗?
这个任务有许多名称,如链路预测、图完成和关系推断,这取决于特定的应用程序域。 我们将在这里简单地称之为关系预测。 与节点分类一起,它是具有图形数据的更受欢迎的机器学习任务之一,具有无数的实际应用:在社交平台上向用户推荐内容[Ying等人,2018a],预测药物副作用[Zitnik等人,2018],或在关系数据库中推断新事实[Bordes等人,2013]-所有这些任务都可以看作是关系预测的特例。
关系预测的标准设置是,我们给出一组节点V和这些节点之间不完整的边集训练Etrain⊂E。我们的目标是使用这些部分信息来推断缺失的边E/Etrain。这个任务的复杂性在很大程度上取决于我们正在检查的图形数据的类型。例如,在简单的图表中,例如只编码“友谊”关系的社交网络,根据两个节点共享多少邻居可以获得强大的性能,有简单的启发式方法[L¨u和周,2011]。另一方面,在更复杂的多关系图数据集,如编码数百种不同生物相互作用的生物医学知识图,关系预测可能需要复杂的推理和推理策略[Nickel等人,2016年]。与节点分类一样,关系预测模糊了传统机器学习类别的边界——通常被称为监督和无监督——,它需要特定于图领域的归纳偏差。另外,像节点分类,还有关系预测的许多变体,包括通过单个固定图进行预测的设置[L¨和周,2011],以及必须通过多个不相交图预测关系的设置[特鲁等人,2020]。

1.2.3聚类和社区检测

节点分类和关系预测都需要推断关于图数据的缺失信息,并且在很多方面,这两个任务是监督学习的图的类似物。另一方面,社区检测是无监督聚类的图模拟。
假设我们可以访问谷歌学者中的所有引文信息,然后我们制作一个协作图,如果两名研究人员合著了一篇论文,就可以将他们联系起来。如果我们要检查这个网络,我们是否会期望找到一个密集的“毛球”,在那里每个人都同样有可能与其他人合作? 更有可能的是,该图将被划分为不同的节点集群,按研究领域、机构或其他人口因素组合在一起。换句话说,我们希望这个网络像许多真实网络一样,显示一个社区结构,其中节点更有可能与属于同一社区的节点形成边缘。
这是社区检测任务背后的一般直觉。社区检测的挑战是只给出输入图G=(V,E)来推断潜在的社区结构。社区检测的许多实际应用包括揭示遗传交互网络中的功能模块[Agrawal等人,2018年]和揭示金融交易网络中欺诈用户群体[Pandit等人,2007年]。

1.2.4图分类、回归和聚类

图数据上流行的机器学习应用的最后一类涉及整个图的分类、回归或聚类问题。 例如,给定一个表示分子结构的图,我们可能希望建立一个回归模型,可以预测分子的毒性或溶解度[Gilmer等人,2017年]。或者,我们可能需要建立一个分类模型,通过分析基于图的语法和数据流表示来检测计算机程序是否恶意[Li等人,2019]。在这些图分类或回归应用中,我们试图通过图数据来学习,但我们没有对单个图形的单个组件(即节点或边缘)进行预测,而是给出了一个多个不同图形的数据集,我们的目标是对每个图形进行独立的预测。 在图聚类的相关任务中,目标是学习图对之间相似性的无监督度量。
在图上的所有机器学习任务中,图回归和分类可能是标准监督学习中最简单的类比。每个图形都是一个与标签相关联的i.i.d数据点,其目标是使用标记的训练点集从数据点学习映射标签。以类似的方式,图聚类是图数据的无监督聚类的直接扩展。 然而,这些图级任务中的挑战是如何定义有用的特征,这些特征考虑到每个数据点内的关系结构。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 表示学习是一种机器学习技术,旨在将形数据转换为低维向量表示,以便于计算机进行处理和分析。这种技术可以应用于各种领域,如社交网络分析、生物信息学、推荐系统等。通过表示学习,可以更好地理解和分析形数据,从而提高数据处理和应用的效率。 ### 回答2: 表示学习是一种机器学习的方法,用于学习和提取结构中的有用信息和特征。表示学习的目标是将中的节点和边转化为向量表达,从而实现对结构的分析和预测。 表示学习可以应用于各种各样的领域,如社交网络分析、生物信息学、推荐系统等。通过学习节点的向量表达,我们可以对节点进行聚类、分类、推荐等任务。同时,表示学习还可以揭示结构中的隐藏关系和模式,帮助我们理解和挖掘中的信息。 表示学习有多种方法和技术。其中一种常用的方法是基于的随机游走。通过模拟随机游走的过程,我们可以收集节点的邻居信息,并根据节点的邻居关系来学习节点的向量表达。还有一种常用的方法是基于卷积网络。这种方法利用结构的局部连接性来学习节点的向量表达,通过多层卷积网络可以逐步提取节点的更高级别的特征。 表示学习在挖掘和数据分析领域具有广泛的应用和研究价值。它可以帮助我们理解和解释复杂的结构,从而更好地处理和分析数据。同时,表示学习还能够应对大规模和高维度的数据,提高计算效率和准确性。未来,我们可以进一步研究和发展表示学习的方法和技术,以应对数据分析的挑战。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值