Inference in Probabilistic Graphical Models by Graph Neural Networks 论文翻译

在这里插入图片描述

摘要

对于统计推理和精确决策的最基本的估计就是去计算任务相关变量的边缘概率或者最大可能性状态。概率图模型能够有效的表示这种复杂数据的结构,但是进行推理一般是很困难的。信息传递算法,比如置信传播,是一个自然而然的利用图结构,在相关变量之间传递可信程度的方法,但是这些算法在条件依赖的图包含环路的时候,就不那么好用了。我们在这里使用GNN图卷积神经网络,去学习用来解决推理问题的消息传递算法。我们首先会展示GNN结构,这个结构很好的匹配了推理任务。然后我们演示这个推理方法的高效性,这个推理方法在一组图的集合上训练GNN,并且在有环图中展现出比( belief propagation)置信传播算法更好的效果。我们的信息传播算法将训练集推广到更大的图和不同结构的图上。

1 介绍

概率图模型提供一个在有条件依赖的变量之间进行建模的统计框架,并且广泛的用来表示复杂的,真实世界的一些现象。给定一个图模型的分布p(x), 一个主要的目标就是在图中每一个节点n计算相关变量的边缘概率分布 pi(xi):给出一个损失函数,这些分布决定了最佳的估计。另一个主要任务是去计算最有可能的状态:
在这里插入图片描述
或者MAP(最大后验概率)推理。

对于一些有环图的复杂模型,各种类型的准确推理在计算上一般是很难解决的,因此推理大多都是建立在近似方法上。一个重要的计算近似边缘的方法就是置信传播(BP)算法,它交换邻居节点之间的统计信息。这个算法在树形图上进行精确推理,但是在有环图上,置信传播算法的更新方法可能会效率很低甚至成为封闭形式(closed-form 不知道怎么正确翻译)的解法。导致研究人员们在构件BP的变异或者推广。

在我们的工作中,我们介绍一种基于GNN的端到端训练的推理系统,这个系统使用rnn,允许节点之间进行复杂的转换。我们将要展示这个网络架构能够很好的适应消息传播推理算法,并且具有灵活性,甚至在封闭形式(closed-form)算法无效的情况下都能广泛适用。这些GNN有向量节点,在图模型中能够编码成变量的概率信息。GNN节点收发概率消息,这些消息是由信息源和他们之间的统计信息学到的非线性变换决定的。动态的GNN反映了遍布整个图模型的概率信息的流动,当模型达到稳定,一个非线性的解码器就可以估计边缘概率或者每个节点的状态。

为了演示概率图模型中这些推理GNN模型的值,我们创建了一个图集合,训练我们的网络去推理边缘分布或者最大后验概率,然后在训练集之外的图上测试推理模型的泛化情况。在有环图上,我们的结果比置信传播表现的好很多。

2 相关工作

一些研究是用神经网络去实现概率推理的某些形式。 (Heess et al.,
2013)提出了去训练一个神经网络,学习一个映射,这个映射为期望传播推理的每一个消息算子的需要做输入信息到输出信息的映射。(Lin et al., 2015)建议学习一个CNN 在消息传递的过程中来估计因素到变量的信息,平均场网络和structure2vec将平均场推理步骤分别建模为前馈网络和递归网络

其他相关工作是在推理机上:: (Ross
et al., 2011)训练了一系列手工设计的逻辑斯蒂回归,这个想法使用卷积层来做姿态估计。 (Deng et al., 2016)提出使用rnn对同一领域的应用做序列推理。

与我们提出的最相似的工作是基于GNN的模型。GNN本质上是rnn的拓展,让它能够对图结构的输入进行操作。中心思想是通过聚合传入的消息来迭代的更新每个GNN节点的隐藏状态。在这里,强大的神经网络模型对消息更新和节点更新函数都进行了建模。(Gilmer et al., 2017)最近提出了几种GNN变种的不错回顾,并且将他们整合成了一个新模型,称为message-passing neural networks 信息传递网络。GNN被用在概率推理, 事实上与信息传递算法有一个相似结构。由于一些原因,GNN具有更强悍的结构,能够获取兴趣变量之间统计相关性。

背景

3.1 概率图模型

概率图模型根据条件依赖关系,对分布进行分解,从而简化多个变量x之间的联合概率分布p(x)。因子图是对结构化概率分布的一种方便的普遍的表示方法。这些无向的二部图,边连接着变量节点i ∈ V,并且编码成xi, 对于因子节点α ∈ F, 直接把他们编码成的统计出的团变量之间的相互作用ψ α (x α )。(有些因子可能只会影响一个变量)概率分布是各个因子的归一化乘积:
在这里插入图片描述
在这里 Z是归一化因子, x α 是一个向量包含组件xi,xi是变量节点i通过边(i, α)连接的所有因子节点α。

我们的目标是在一个图结构上去计算边缘概率pi(xi)或者最大化后验概率状态 x ∗。对于一般的图,这些计算都需要指数级的大量资源,对除了目标节点之外的所有节点可能性求和(积分)或最大化:
在这里插入图片描述

置信传播通过构建变量与因子节点之间传播消息 µ i→α and µ α→i ,作用在这些因子图上:
在这里插入图片描述

Ni是i节点的邻居,即包含xi的因素。 N α 是 α 的邻居,即 被 ψ α (x α )组合的关系。关于信息等式的递归的基于图的结构很自然的引出一个想法:我们可以用GNN描述这些信息和他们的非线性更新,GNN的节点对应着信息,这些将在下个部分描述。

有趣的是,没有信息,置信传播也可以完全重组:BP操作相当于是在原来的图结构上的子图中继续重新参数化因子。这就建议我们可以构建一个不同的映射,映射在GNN和图模型之间,GNN节点对应着因子而不是信息。通过BP来完成的重新参数化,只能够适应单变量的潜在信息,因为BP更新对于多变量耦合的点位不会改变:推理算法瘦脸之后,估计一个因子 α的边缘联合概率称为 B α (x α ),如下:
在这里插入图片描述

观察到所有的信息仅仅依赖一个时刻的一个变量,并且唯一的依赖超过一个变量项是相互作用因子, ψ α (x α ) ,而且是不随时间变化的。因为BP不会改变这些相互影响,去模仿BP的操作,GNN只需要显式表示唯一的变量节点,同时,节点之间的非线性函数能够解释(必须依赖)他们的相互作用。我们的实验评对这两种架构都进行了评估,GNN构建了潜在状态,这些状态表示消息节点或者是唯一变量节点。

3.2 二元马尔科夫随机场

在我们的实验中,我们关注二元图模型,(Ising模型或者Boltzmann机),他们的变量是x ∈ {+1,−1} |V|(V维-1 1 的向量)。概率p(x)被单独的因子
在这里插入图片描述
决定,根绝向量b偏转各自的变量,通过成对因子在这里插入图片描述
耦合了不同的变量,这种耦合根据对称矩阵J。把这些因产生考虑在一起的概率分布:
在这里插入图片描述
在我们的实验中,每一个图模型的参数J和b都是随机指定的,并且把他们作为GNN推理的输入特征。我们允多种不同的图结构,复杂程度从树形图到全联通图。目标边缘是pi(xi), 最大化后验概率状态是通过在这里插入图片描述
对于我们使用小图的实验,目标的真实值是通过穷尽状态的枚举精确的计算出的。我们的目标是,用一种可以拓展到新图的方式,构建rnn,对他进行正则化操作,似的它动态收敛于这些目标pi(xi)和x*。

在二部图模型中置信传播更新uij 从i 到j 根据:
在这里插入图片描述
其中Ni是i节点的邻居集合,BP进行估计边缘概率:在这里插入图片描述
这个信息传递框架结构激活两个gnn架构中的一个,gnn框架我们将在下面使用。

4 模型

这一节 我们将描述gnn架构,并且展示网络怎样在离散无向图模型上对每个节点进行估计边缘概率和最大可能状态的问题。

4.1.1 图神经网络

图神经网络是带有向量值节点hi的rnn,状态是通过可训练的非线性函数递归更新的,这些状态在特定的图上,依赖邻居节点hj, h j : j ∈ N,这下函数的形式是规范的,被图的边共享,但是函数也依赖每边的每个特征。函数被一个神金网络参数化,权重是整个图共享的。甚至节点状态不会改变,只是用不同的图进行输入。

我们的工作建立在具体的gnn类型,即门控神经网络 GGNN,这个网络在每个节点都添加了门控循环单元来结合数据输入信息和过去的状态。

数学上,每个节点vi在gnn图G是关联着D维隐藏状态向量h (t)i∈ R D在时刻第t步,但是我们的结果没有依赖初始化值。在每一个成功的迭代步骤之后,每个节点都会传递消息给所有邻居节点。我们定义P维向量信息,从节点vi到vj,下一个t+1时刻,
在这里插入图片描述
其中M是个信息函数,在这里具体是多层感知器和Relu。注意到这个信息函数依赖每个边的特征eij。
然后我们聚合所有收集到的消息,给目标节点形成一个单独的信息:
在这里插入图片描述
其中Ni是节点vi的邻居节点。最后每个节点更新自己的隐藏层,基于当前隐藏状态和聚合信息在这里插入图片描述
U是一个节点更新函数,在这里我们的具体的使用另一个神经网,门控神经网络,参数共享给所有节点。7 8 9描述发送消息和更新节点状态,定义了在每一个时间步骤上。我们通过迭代这些公式评估GNN,为一个固定最终时刻步骤T包含最终所有状态向量hi(T),然后将给最终节点状态喂给读入函数R,R由另一个带有sigmoid激活函数的MLP提供。在这里插入图片描述

我们训练GNN使用监督方法,让他预测目标输出y,使用反向传播算法,最小化损失函数在这里插入图片描述

在这里插入图片描述

4.2 应用图神经网络在图模型上推理

接下来我们会在概率图模型上应用这个广义GNN框架去进行概率推理任务。我们调研到了图模型和Gnn之间的两种映射(图1),我们研究显示,这两种映射的表现相似,都比置信传播好很多。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值