QA派｜GNN工业应用-PinSAGE

最新推荐文章于 2022-05-08 23:05:16 发布

chengsen.ren

最新推荐文章于 2022-05-08 23:05:16 发布

阅读量354

点赞数

分类专栏： GNN QA派文章标签：机器学习神经网络图计算人工智能大数据

本文链接：https://blog.csdn.net/weixin_46970982/article/details/108190834

版权

PinSAGE是基于图神经网络的推荐系统模型，应用于Pinterest平台，用于生成pins的高质量embedding。与GraphSAGE相比，PinSAGE采用了重要性采样、加权平均的聚合函数，并通过生产者-消费者模式优化了大规模图数据的处理。模型训练使用max-margin ranking loss，以有监督方式进行，并通过渐进式“hard”负采样提升模型性能。在推理阶段，PinSAGE利用MapReduce避免重复计算，实现高效推荐。

摘要由CSDN通过智能技术生成

QA派｜GNN工业应用-PinSAGE

文章目录

QA派｜GNN工业应用-PinSAGE

基本概念

pins是什么意思？

Pinterest是一个图片素材网站，pins是指图片，而boards则是图片收藏夹的意思。

Pinterest会根据用户的浏览历史来向用户推荐图片。

PinSAGE论文中的数据集有多大？

论文中涉及到的数据为20亿图片（pins），10亿画板（boards），180亿边（pins与boards连接关系）。

用于训练、评估的完整数据集大概有18TB，而完整的输出embedding有4TB。

PinSAGE使用的是什么图？

在论文中，pins集合（用I表示）和boards集合（用C表示）构成了二分图，即pins仅与boards相连接，pins或boards内部无连接。

同时，这二分图可以更加通用：

I 可以表示为样本集（a set of items），
C 可以表示为用户定义的上下文或集合(a set of user-defined contexts or collections)。

PinSAGE的任务是什么？

利用pin-board二分图的结构与节点特征，为pin生成高质量的embedding用于下游任务，比如pins推荐。

PinSAGE有特别区分pin节点和board节点吗？

没有。PinSAGE并没有明确区分pin节点和board节点。

只使用节点来作为一般指代。

和GraphSAGE相比，PinSAGE改进了什么？

采样：使用重要性采样替代GraphSAGE的均匀采样；
聚合函数：聚合函数考虑了边的权重；
生产者-消费者模式的minibatch构建：在CPU端采样节点和构建特征，构建计算图；在GPU端在这些子图上进行卷积运算；从而可以低延迟地随机游走构建子图，而不需要把整个图存在显存中。
高效的MapReduce推理：可以分布式地为百万以上的节点生成embedding，最大化地减少重复计算。

这里的计算图，指的是用于卷积运算的局部图（或者叫子图），通过采样来形成；与TensorFlow等框架的计算图不是一个概念。

PinSAGE使用多大的计算资源？

训练时，PinSAGE使用32核CPU、16张Tesla K80显卡、500GB内存；

推理时，MapReduce运行在378个d2.8xlarge Amazon AWS节点的Hadoop2集群。

PinSAGE和node2vec、DeepWalk这些有啥区别？

node2vec，DeepWalk是无监督训练；PinSAGE是有监督训练；
node2vec，DeepWalk不能利用节点特征；PinSAGE可以；
node2vec，DeepWalk这些模型的参数和节点数呈线性关系，很难应用在超大型的图上；

聚合函数

PinSAGE的单层聚合过程是怎样的？

和GraphSAGE一样，PinSAGE的核心就是一个局部卷积算子，用来学习如何聚合邻居节点信息。

如下图算法1所示，PinSAGE的聚合函数叫做CONVOLVE。

主要分为3部分：

聚合（第1行）：k-1层邻居节点的表征经过一层DNN，然后聚合（可以考虑边的权重）， $\gamma$ 是聚合函数符号，聚合函数可以是max/mean-pooling、加权求和、求平均；
更新（第2行）：拼接第k-1层目标节点的embedding，然后再经过另一层DNN，形成目标节点新的embedding；
归一化（第3行）：归一化目标节点新的embedding，使得训练更加稳定；而且归一化后，使用近似最近邻居搜索的效率更高。