论文题目:Network Schema Preserving Heterogeneous Information Network Embedding
许多现有的HIN嵌入方法采用元路径引导的随机游走来保持不同类型节点之间的语义和结构相关性(得到embedding)。然而,元路径的选择仍然是一个开放的问题,它要么依赖于领域知识,要么从标签信息中学习。
在NSHE中,首先提出一种网络模式采样方法来生成子图(即模式实例)(图c和d中显示了一个例子,从中我们可以看到模式实例描述了这四个节点的高阶结构信息,以及两个节点的一阶结构信息(即成对结构)。此外,模式实例还包含丰富的语义,即模式实例(如图1(d)所示)自然地描述了整体信息,如作者、术语和论文地点,以及它们之间的关系。),然后构建多任务学习任务来保持每个模式实例的异构结构。除了保留成对结构信息,NSHE还能够保留高阶结构(即网络模式)。
- 多任务学习:多个任务同时训练而使得多个任务相互影响。这种影响是很隐晦的影响,一般是影响在共享参数上。多个任务共享一个结构,这个结构里面的参数在优化的时候会被所有任务影响。
与元路径不同,网络模式是HIN的独特结构,因此我们不需要领域知识来做出选择。网络模式的这些好处促使我们研究保留HIN嵌入的网络模式。
如何有效保存网络架构结构?网络模式结构通常包含所有类型的节点。广泛使用的随机行走(有/无元路径)策略不能保证访问所有类型的节点和链路,因此不适用于保留网络模式。此外,网络模式结构中各种类型的节点数量通常非常不同,从而导致偏差问题。
我们需要:一种既能保持网络模式结构,又能考虑节点和链路异构性的方法。
文章提出了一个新的模型NSHE。基于异构图卷积网络生成的节点嵌入,NSHE通过从HIN中采样的节点对和模式实例优化嵌入。
特别是在网络模式保持组件中,文章提出了一种网络模式采样方法,该方法生成自然保持模式结构的子图(即模式实例)。此外,对于每个模式实例,构建了一个多任务学习模型来预测实例中的每个节点与其他节点,从而应对异构性的挑战。
我们的主要贡献如下:
1.首次尝试为HIN嵌入保留网络模式结构,这不仅保留了HIN中的高阶结构,还缓解了元路径引导的HIN嵌入中的元路径选择困境。
2.我们提出了一个新的模式,其中提出了一些微妙的设计,如网络模式采样和多任务学习,以解决模式结构保持和异构性的挑战。
总框架:
- 首先,为了充分利用复杂的网络结构和异构节点特征,我们提出通过异构节点聚合来学习节点嵌入。、
- 其次,我们同时保留成对结构和模式结构。虽然直接执行随机游走不能生成所需的模式结构,但我们建议对模式实例进行采样,并保持实例内部的相似性。
保持成对邻近
考虑到不同节点特征的异构性,对于每个具有特征向量fi和类型φ(vi)的节点,我们使用类型特定的映射矩阵Wφ(vi)将异构特征映射到一个公共空间: f’i= σ(Wφ(vi)·fi+ bφ(vi)) 其中σ(·)表示激活函数,bφ(vi)代表φ(vi)类型的偏置向量。
将所有不同类型的节点映射到公共空间,我们将它们的映射特征表示为H = [f’]。然后,我们用一个L层图卷积网络生成节点嵌入为:
H(l+1)= σ(D1/2(A+I | V |)D1/2H(l)W(l)) 其中A为邻接矩阵,如果 (vi,vj) ∈ E则Ai,j= 1,否则Ai,j= 0。D是对角矩阵,其中Dii=求和jAij。I | V |是R|V |×|V |的单位矩阵。对于第一层,我们表示H(0)= H,并使用Llayer图卷积网络的输出作为节点嵌入,即Z = H(L),其中Z的第I行是节点vi的嵌入zvi。
保持与参数θ成对接近的目标可以描述为:
其中Nvi= {vj|(vi,vj)∈E,条件概率p(VJ | VI;θ)定义为softmax函数:
为了有效计算p(VJ | VI;θ),文章采用负采样并用OP等式的对数优化θ,因此成对损失LP可以通过以下公式计算:
,其中δ(x)= 1/(1+exp(x)),Pn(v)为噪声分布,Meis为负边沿采样速率。通过最小化Lp,NSHE保持两两邻近。
保持网络模式邻近
网络模式实例采样
网络模式接近性意味着网络模式结构中具有不同类型的所有节点应该是相似的。然而,网络模式结构中的节点通常是有偏差的,即某一类型的节点数量大于其他类型的节点数量。为了减轻这种偏差,我们建议对一个网络模式实例进行如下
定义:一个网络模式实例S是一个HIN的最小子图,它包含网络模式TG=(A,R)定义的所有节点类型和边类型(如果存在)。
根据这个定义,每个网络模式实例由模式定义的所有节点类型A和关系类型R组成,即每种类型一个节点。为了说明,图d显示了从给定的HIN中采样的两个实例。
- 采样过程如下:从一个有一个节点的集合S开始,我们不断给S增加一个新节点,直到|S| = |A|,其中新节点满足:
(1)它的类型与S中的节点类型不同;
(2)它与中的节点相连。
多任务学习中的模式保持
我们的目标是通过预测一个网络模式实例是否存在于一个HIN中来保持网络模式的邻近性。假设我们有一个网络模式实例S = {A1,P1,V1,T1}。
如上图所示,我们可以预测给定集合{P1,V1,T1}时A1是否存在,或者给定集合{A1,V1,T1}时P1是否存在等等。这两种预测是不同的,因为节点的异构性。所以文章设计一个多任务学习模型来处理模式中的异构性。
假设我们有模式实例S = {vi,vj,vk},如果我们的目标是预测vi是否存在给定{vj,vk},我们称vit为目标节点,{vj,vk}为上下文节点。因此,每个节点将有两个角色:一个作为目标节点,另一个作为上下文节点,以及两种嵌入:目标嵌入和上下文嵌入。为了充分考虑异构性,每个节点类型φ(vi)与一个编码器CEφ(vi)相关联,以学习上下文节点的上下文嵌入:
,其中每个CE代表一个完全连接的神经网络层。
对于目标节点vi,我们将其目标嵌入zvi与上下文嵌入连接起来,以获得嵌入目标节点vi的模式实例,表示为ZVi,如下所示:
,在获得嵌入zviS之后,我们预测S与目标节点vi的概率,表示为yviS,网络中是否存在:
.其中MLPφ(vi)是目标节点类型为φ(vi)的模式实例的分类器。
上面几个步骤在模型中可以表示为下图:
同样,当我们把vj和vk分别作为目标节点时,也可以按照上面介绍的步骤得到yvjS和yvkS。请注意,这里我们以具有三个节点的模式实例为例来解释我们的方法。然而,很容易将模型扩展到具有更多节点的模式实例,因为过程是相同的。
损失函数:
实验
节点分类
结果如表1所示:
从中我们得到以下观察结果:(1)一般来说,HIN嵌入方法的性能优于同构网络嵌入方法,证明了考虑异构性的好处。(2)虽然新健康教育没有利用任何先验知识,但它始终优于基线。实验证明了该方法在分类任务中的有效性。
节点聚类
利用K-均值模型来执行节点聚类,并将K-均值的聚类数设置为类的数量。表2显示了在NMI方面的性能。在大多数情况下,所提出的方法NSHE明显优于其他方法,这进一步证明了NSHE的有效性。
NSHE变体比较
提出NSHE的三个变体如下:
- NSHE-成对:仅考虑成对损失,即L = Lp。因此,NSHE-pairsay模型没有明确保留网络模式的高阶结构。
- NSHE-NS:仅利用网络模式的结构,即L = Ls。因此,NSHE-NS模型没有明确保留成对结构。
- NSHE-Homo:将异构网络模式实例视为同构。也就是说,NSHE-Homo对所有网络模式实例分类任务使用一个MLP分类器。
根据上图,很明显,NSHE在大多数情况下都优于变体。NSHE的性能优于NSHE-NS和NSHE-成对,说明一阶(即成对)和高阶(即网络模式)结构信息都需要保留。此外,一阶结构作为HIN最基本的表达方式,更为重要,因为NSHEPairwise一般比NSHE-NS表现更好。NSHE相对NSHE-Homo的更好性能证实了多任务学习在处理网络模式实例异构性方面的优势。
总结
现有的许多 HIN 嵌入方法都采用元路径引导的随机游走来保留不同类型节点之间的语义和结构相关性。然而,元路径的选择仍然是一个悬而未决的问题,它要么依赖于领域知识,要么是从标签信息中学习的。
网络模式全面包含了 HIN 的高阶结构以及丰富的语义。这篇文章首次对保留 HIN 嵌入的网络模式进行了研究,并提出了一种新的模型—— NSHE 模型。
- 在 NSHE 中,
1.首先 提出一种网络模式采样方法来生成子图(即模式实例),
2.然后 构建多任务学习任务来保留每个模式实例的异构结构。
3.除了保留成对结构信息之外,NSHE 还能够 保留高阶结构(即网络模式)。
在三个真实数据集上的广泛实验表明,提出的模型NSHE的性能明显优于最先进的方法。