百度图神经网络学习——day04:图神经网络算法(二)

一、图采样

在图神经网络中,使用的数据集可能是亿量级的数据,而由于GPU/CPU资源有限无法一次性全图送入计算资源,需要借鉴深度学习中的mini-batch思想。

传统的深度学习mini-batch训练每个batch的样本之间无依赖,多层样本计算量固定;而在图神经网络中,每个batch中的节点之间互相依赖,在计算多层时会导致计算量爆炸,因此引入了图采样的概念。

图采样算法:顾名思义,图采样算法就是在一张图中进行采样得到一个子图,这里的采样并不是随机采样,而是采取一些策略。典型的图采样算法包括GraphSAGE、PinSAGE等。

1.GraphSAGE

GraphSAGE的采样方式是邻居采样,邻居采样的意思是在某个节点的邻居节点中选择几个节点作为原节点的一阶邻居,之后对在新采样的节点的邻居中继续选择节点作为原节点的二阶节点,以此类推。

邻居采样的优点:

  • 极大减少计算量
  • 允许泛化到新连接关系,个人理解类似dropout的思想,能增强模型的泛化能力

2.PinSAGE

PinSAGE的采样方式是通过多次随机游走,按游走经过的频率选择邻居。以下面的图为例:
在这里插入图片描述
上图右侧为进行随机游走得到的节点序列,统计序列的频数可以发现节点5,10,11的频数为2,其余为1,当我们希望采样三个节点时,我们选取5,10,11作为0号节点的虚拟邻居。之后如果希望得到0号节点的二阶虚拟邻居则在已采样的节点继续进行随机游走即可。

这种采样方式的好处是我们能更快的聚合到远处节点的信息。

二、邻居聚合

在图采样之后,我们需要进行邻居聚合的操作。经典的邻居聚合函数包括取平均、取最大值、求和。

评估聚合表达能力的指标——单射(一对一映射),在上述三种经典聚合函数中,取平均倾向于学习分布,取最大值倾向于忽略重复值,这两个不属于单射,而求和能够保留邻居节点的完整信息,是单射。单射的好处是可以保证对聚合后的结果可区分。
在这里插入图片描述

1.GIN模型的聚合函数

Graph Isomorphic Net(GIN)的聚合部分是基于单射的。
在这里插入图片描述

如上图所示,GIN的聚合函数使用的是求和函数,它特殊的一点是在中心节点加了一个自连边(自环),之后对自连边进行加权。

这样做的好处是即使我们调换了中心节点和邻居节点,得到的聚合结果依旧是不同的。所以带权重的自连边能够保证中心节点和邻居节点可区分。

2.其他复杂的聚合函数

在这里插入图片描述

三、编程实现

1.GraphSage采样函数实现

import numpy as np

def traverse(item):
    """traverse
    """
    if isinstance(item, list) or isinstance(item, np.ndarray):
        for i in iter(item):
            for j in traverse(i):
                yield j
    else:
        yield item


def flat_node_and_edge(nodes):
    """flat_node_and_edge
    """
    nodes = list(set(traverse(nodes)))
    return nodes


def my_graphsage_sample(graph, batch_train_samples, samples):
    """
    输入:graph - 图结构 Graph
         batch_train_samples - 中心节点 list (batch_size,)
         samples - 采样时的最大邻节点数列表 list 
    输出:被采样节点下标的集合 
         对当前节点进行k阶采样后得到的子图 
    """
    
    start_nodes = batch_train_samples
    nodes = start_nodes
    edges = []
    for max_deg in samples:
        #################################
        # 请在这里补充每阶邻居采样的代码:此部分课堂实践内容已详细讲解,加油~
        # 提示:graph.sample_predecessor(该 API用于获取目标节点对应的源节点,具体用法到 pgl.Graph 结构中查看)
        pred_nodes = graph.sample_predecessor(nodes, max_deg)
        for dst_node, src_nodes in zip(start_nodes, pred_nodes):
            for node in src_nodes:
                edges.append((node, dst_node))
        #################################

        # 合并已采样节点并找出新的节点作为start_nodes
        last_nodes = nodes
        nodes = [nodes, pred_nodes]
        nodes = flat_node_and_edge(nodes)
        start_nodes = list(set(nodes) - set(last_nodes))
        if len(start_nodes) == 0:
            break

    subgraph = graph.subgraph(
         nodes=nodes,
         edges=edges,
         with_node_feat=False,
         with_edge_feat=False)
         
    return nodes, subgraph

2.GraphSage聚合函数实现

import paddle.fluid as fluid

def my_graphsage_maxpool(gw,
                      feature,
                      hidden_size,
                      act,
                      name,
                      inner_hidden_size=512):
    """
    输入:gw - GraphWrapper对象
         feature - 当前节点表示 (num_nodes, embed_dim)
         hidden_size - 新的节点表示维数 int
         act - 激活函数名 str
         name - 聚合函数名 str
         inner_hidden_size - 消息传递过程中邻居信息的维数 int
    输出:新的节点表示
    """
    
    ####################################
    # 请在这里实现MaxPool Aggregator

    def copy_send(src_feat, dst_feat, edge_feat):
         return src_feat["h"]
    def maxpool_recv(feat):
         return fluid.layers.sequence_pool(feat, pool_type="max")

    # 补充消息传递机制触发代码
    neigh_feature = fluid.layers.fc(feature, inner_hidden_size, act="relu")
    msg = gw.send(copy_send, nfeat_list=[("h", neigh_feature)])
    neigh_feature = gw.recv(msg, maxpool_recv)
    ####################################
    
    # 自身表示和邻居表示的结合
    self_feature = feature
    self_feature = fluid.layers.fc(self_feature,
                                   hidden_size,
                                   act=act,
                                   name=name + '_l')
    neigh_feature = fluid.layers.fc(neigh_feature,
                                    hidden_size,
                                    act=act,
                                    name=name + '_r')
    output = fluid.layers.concat([self_feature, neigh_feature], axis=1)
    output = fluid.layers.l2_normalize(output, axis=1)
    return output
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值