Graph Representation Learning-Chapter1
本书主要内容是关于我们如何使用机器学习来应对这一挑战——释放图数据的潜力。
下面是第一章的主要内容。
Introduction
图的一般定义:一个图仅仅是对象(即节点)的集合,以及这些对象对之间的一组交互(即边)。
图形式主义的力量既在于它关注点之间的关系(而不是个别点的性质),也在于它的一般性。通常被用来表示社交网络、药物与蛋白质的相互作用、分子中原子间的相互作用或者电信网络中终端之间的连接。
What is a graph?
图的正式定义: 我们用 G = ( V , E ) G = (V, E) G=(V,E) 来定义一个图,其中 V V V 代表节点的集合, E E E 代表这些节点之间的边的集合,将一条从节点 u ∈ V u \in V u∈V 到节点 v ∈ V v \in V v∈V 的边表示为 ( u , v ) ∈ E (u,v) \in E (u,v)∈E。
简单图:每对节点间至多有一条无向边,即 ( u , v ) ∈ E ↔ ( v , u ) ∈ E (u,v)\in E \leftrightarrow (v,u)\in E (u,v)∈E↔(v,u)∈E,且不存在环(一个顶点到它自身的边)。
邻接矩阵 A A A(adjacency matrix):一种表示图的方法,每个节点在邻接矩阵中索引特定的行和列, A ∈ R ∣ V ∣ × ∣ V ∣ A \in \R^{|V| \times |V|} A∈R∣V∣×∣V∣, A [ u , v ] = 1 , i f ( u , v ) ∈ E , e l s e A [ u , v ] = 0 A[u,v]=1,\space if \space (u,v) \in E, \space else \space A[u,v] = 0 A[u,v]=1, if (u,v)∈E, else A[u,v]=0。
由邻接矩阵的定义,我们容易知道简单图的邻接矩阵是对称的。此外,邻接矩阵的值并不是固定的1或0,对于有权图来说,邻接矩阵的值可以是任意的。
Multi-relational Graphs
节点间存在多种关系的图被称为多关系图(Multi-relational Graphs)。
在这种情况下,我们可以将边表示法扩展到包含一个边或关系类型 t t t,例如 ( u , t , v ) ∈ E (u,t,v)\in E (u,t,v)∈E,我们可以为每种关系类型定义一个邻接矩阵,整个图可以用一个张量表示 A t ∈ R ∣ V ∣ × ∣ R ∣ × ∣ V ∣ A_t \in \R^{|V|\times |R| \times |V|} At∈R∣V∣×∣R∣×∣V∣,其中R是关系的集合。
多关系图的两个重要子集通常被称为异质图(Heterogeneous graphs)和多重图(Multiplex graphs)。
Heterogeneous graphs. 在异构图中,节点也充满了类型,这意味着我们可以将节点集合划分为互不相交的集合 V = V 1 ∪ V 2 ∪ … ∪ V k V = V_1\cup V_2∪ \ldots ∪V_k V=V1∪V2∪…∪Vk,其中 V i ∩ V j = ∞ , i ≠ j V_i∩V_j =∞,i \not= j Vi∩Vj=∞,i=j。异质图中的边一般根据节点类型满足约束条件,最常见的是某些边只连接某些类型的节点,即 ( u , t i , v ) ∈ E → u ∈ V j , v ∈ V k ( u , t_i , v)∈E→u∈V_j,v∈V_k (u,ti,v)∈E→u∈Vj,v∈Vk。多部图(Multipartite graphs)是一种典型的异构图。
Multiplex graphs. 在多重图中,我们假设图可以分解为k层的集合。假设每个节点属于每一层,每一层对应唯一的关系,代表该层的层内边类型。我们还假设层间边类型可以存在,它们跨层连接同一节点。例如,在多元交通网络中,每个节点可能代表一个城市,每一层可能代表不同的交通方式(例如,航空旅行或火车旅行),层内边表示由不同交通方式连接的城市,而层间边表示特定城市内部交通方式转换的可能性。
tips : 本书使用术语图来描述重点关注的抽象数据结构,但也会经常使用术语网络来描述这种数据结构(例如,社交网络)的具体的、真实的实例化。
Feature Information
我们通常用一个实值矩阵 X ∈ R ∣ V ∣ × m X∈\R^{| V | × m} X∈R∣V∣×m 来表示节点级属性或特征信息。
在异质图中,我们一般假设每个不同类型的节点都有自己不同类型的属性。在极少数情况下,除了离散的边类型外,我们还会考虑具有实值边特征的图,在某些情况下我们甚至将实值特征与整个图联系起来。
Machine learning on graphs
图上的机器学习问题往往模糊了传统机器学习类别(有监督任务和无监督任务,另,在训练过程中将有标记数据和无标记数据结合起来的模型的总称是半监督学习)之间的界限。本节将简要概述图数据上最重要和研究最深入的机器学习任务。
Node classification
目标:在仅给出少量(或不给)有标签节点的情况下将节点正确分类。换句话说,我们需要在仅给定测试集节点 V t r a i n ⊂ V V_{train} ⊂ V Vtrain⊂V 的真实标签时,预测与所有节点 u ∈ V u ∈ V u∈V 关联的标签 y u y_u yu ,可以是类型、类别或属性。
节点分类和标准有监督分类的最重要区别是图中的节点并不是独立同分布的(ndependent and identically distributed,i.i.d.),事实上,许多最成功的节点分类方法背后的关键见解是显式地利用节点之间的连接。例如,利用图的同质性(homophily,邻居共享属性)、结构等价性(structural equivalence,相同邻域结构)和异质性(heterophily,优先连接具有不同标签的节点,如社交网络中的男女标签)。
Relation prediction
目标:给定顶点集 V V V 和这些顶点间不完全的边 E t r a i n ⊂ E E_{train} ⊂ E Etrain⊂E,我们的目标是利用潜在信息去推断这些缺失边 E ∖ E t r a i n E \setminus E_{train} E∖Etrain。
分类:链接预测、图补全、关系推理…… or 在单个固定图上进行预测的设置、其中关系必须在多个不相交的图中被预测的设置
实际应用:在社交平台中向用户推荐内容、预测药物副作用、在关系数据库中推断新的事实……
Clustering and community detection
社交发现的挑战是去在仅有输入图 G = ( V , E ) G = (V, E) G=(V,E) 的情况下推断潜在的社交结构。
实际应用:基因互作网络中功能模块的挖掘、揭露金融交易网络中的欺诈用户群体
Graph classification, regression, and clustering
图数据上流行的机器学习应用的最后一类涉及整个图上的分类、回归或聚类问题。问题输入是多个图,我们将每个图看作一个数据点。图的分类和回归问题符合传统监督学习数据的独立同分布特点,图的聚类问题也和无监督学习相契合。然而,在这些图级别的任务中,面临的挑战是如何定义考虑到每个数据点内部关系结构的有用特征。
Reference: Hamilton W L. Graph representation learning[M]. Morgan & Claypool Publishers, 2020.