图神经网络（AliGraph）在阿里巴巴的发展与应用

阿里云云栖号

于 2019-12-11 11:30:06 发布

阅读量1.3k

点赞数

文章标签：深度学习分布式 Server

本文链接：https://blog.csdn.net/yunqiinsight/article/details/103488418

版权

背景

为什么做GNN?

在大数据的背景下，利用高速计算机去发现数据中的规律似乎是最有效的手段。为了让机器计算的有目的性，需要将人的知识作为输入。我们先后经历了专家系统、经典机器学习、深度学习三个阶段，输入的知识由具体到抽象，由具体规则到特征再到模式，越来越宏观。相对来说，抽象的层次变高了，覆盖面变广了，但我们对底层的感知变弱了，模型的可解释程度变差了。事物发展往往遵循这样的规律，先有客观事实，再有原理支撑，之后是普遍推广。深度学习的应用已经让我们看到了非常可观的价值，但其背后的可解释性工作进展缓慢，也因为如此，当我们用深度学习去解决一些风控、安全等业务场景，那数字效果不足以支撑这项技术的应用，我们更需要知道结果后面的原因。

Graph是知识的载体，其间的实体联系蕴含了很强的因果关系。重要的是，这是一种直观的、人们能够读懂的结构。把Graph作为知识支撑，利用深度学习的泛化技术，看上去是一个可行的方向，在某些问题上，离我们的可解释性目标更近了一步。各种深度学习相关的顶会在近年来的paper分布上，图神经网络（GNN）一直处于蓬勃态势。GNN不一定是可解释性的全部，但对于集团内复杂的生态网数据，无论从技术储备还是业务效果上来说，都是一个非常值得投入的方向。
再者说，GNN是一种解决问题的思路，覆盖范围很广，不仅仅是为了学Graph而存在。目前基于行为历史的搜索推荐类算法，都可以纳入到GNN范式，而这类算法在集团内有着大规模应用。用Graph去组织历史数据，相比现有方式信息量只增不减，理论上模型效果会更好。

面向哪些用户>

相比CNN、RNN等成熟技术而言，GNN还处于探索阶段，Graph之于GNN，不如图像之于CNN、自然语言之于RNN来的理所当然。即便有Graph数据，如何使用GNN没有可遵循的固定模式，更没有沉淀下来的类似卷积一样的算子可直接调用。GNN的有效性需要更多的场景去验证，而每一个场景都需要开发者的深入理解，开发者有能力处理Graph数据和编写之上的深度学习模型。有了百花齐放的应用场景做铺垫，才有可能抽象出共性的GNN算子，再将这些相对成熟的能力赋给使用者，GNN才会真正的推广开来。出于这些考虑，比起开发一个成熟算法供用户使用，平台当前阶段会更侧重提供API给开发者，让开发者有能力贴近自己的场景去实现GNN。

另一方面，Graph大多是场景相关，一个电商场景的图和社交网络的图有本质不同，不仅仅是数据构成上，上层的模型计算也很大程度不一样。这是另外一点与图像和自然语言的区别，后两者在不同的场景间具有较好的可复用性，或是结果可复用（FineTune），或是计算模型复用。所以GNN的应用需要更贴近场景，由开发者定制化，平台需要尽可能降低开发成本，加快模型迭代频率。

什么样的产品？