Generative Causal Explanations for Graph Neural Networks
1 Introduction
该文献提出一种模型不可知算法Gem,适用于各种图学习任务中为任何的GNN提供可解释性。Gem是一种基于格兰杰因果关系带有损失函数的因果解释模型,其将为GNN作出的决策进行解释看作一种因果学习任务。Gem不仅不要求对GNN的内部结构即非嵌入,而且具有很好的泛化性。Gem是属于一个统一的加性特征归因方法。
2 Methodology
2.1 Granger causality
未来的事件不会对目前与过去产生因果影响,而过去的事件才可能对现在及未来产生影响。也就是说,如果我们试图探讨变量 x 是否对变量 y 有因果影响,那么只需要估计 x 的落後期是否会影响 y 的现在值,因为 x 的未来值不可能影响 y 的现在值。假如在控制了 y 变量的过去值以后,x 变量的过去值仍能对 y 变量有显著的解释能力,我们就可以称 x 能“Granger 影响” y。
2.2 Causal Objective
对GNN的决策做出解析,需要从图的边进行考虑。令为实例图,则
表示其模型误差,
表示在没有第 j 条边的影响下的模型误差。因此第 j 条边的因果贡献的公式(1)如下:
(1)
将提前训练的GNN表示为,则公式(2)和公式(3)用于获得预测值如下表示:
(2)
(3)
使用损失函数来度量模型误差,表示为,故公式(4)和公式(5)如下表示:
(4)
(5)
2.3 Graph Generative Model as an Explainer
文献源码应用三层GCN(附录中有描述)进行聚集邻域信息并学习节点特征,同时使用内积解码器生成一个邻接举证作为解释掩码。以此构造一个相应的解释子图。中的每个值表示该边对预测图的贡献,
表示节点特征,Z表示学习的节点特征,故该公式(6)和公式(7)可以表示如下:
(6)
(7)
2.4 Computational complexity analysis
Gem是通过去除边的方式进行预测其图的边的因果关系。
3 Experimental Studies
3.1 Datasets
3.1.1 Node classification with synthetic datasets
- BA-shapes。其中,节点根据其在房屋结构主题中的结构角色进行标记,包括“顶部节点”、“中间节点”、“底部节点”和“无节点”(不属于房屋的节点)。
- Tree-cycles。其中,节点被标记以表明它们是否属于一个循环,包括“循环节点”和“无节点”。
3.1.2 Graph classification with real-world datasets
- Mutag。包含4337个分子图,其中节点表示原子,边表示化学键。
- NCI1。由4110个实例组成,每个实例都是一种化合物,用于筛选抗非小细胞肺癌或卵巢癌细胞系的活性。
3.2 Experimental Settings
3.2.1 Baselines
- GNNExplainer
- PGExplainer
3.2.2 Parameter
GCN层,输出维度为32、32和16,学习度为0.1,使用K控制解释子图的大小
3.3 Evaluation metrics
- 对于BA-shapes数据集,则解释需要能够突出房屋图案进行解释
- 对于Tree-cycles数据集,则能够输出相关循环
- 对于Mutag和NCI1数据集,则生成的子图需要能使预测GNN保持精度,即
接近
3.4 Experimental Results
从表1中可以看出Gem的准确率是相当优秀的。表2中的后缀0表示使用数据集中都至少包含诱变基团中的一个,主要是满足PGExplainer训练的特殊性。
上图展示了三种解释模型在BA-shapes中对预测进行解释,红点为预测点,是房屋的中间节点,以K=6为解释可以看出有明显的房屋形状。其中GNNExplainer模型在K=6的表现较差,无法突出房屋形状。
上图展示了三种解释模型在Mutag中对预测的答案进行解释,其中第一二行为Gem可以基本识别出诱变基团,PGExplainer也是可以识别诱变基团,但是所解释的子团诱变概率小。第三行数据是不含诱变基团,第四行数据为低概率诱变,Gem的表现依旧优秀。
上图展示了三种解释模型在Mutag对预测答案进行对数差异比较,可以看出Gem相对于0是集中的,说明了解释子图的紧凑性。
上表为三种解释模型在解释实例的运行时间,其中各项数据是选取平均数。可以看出Gem的优秀计算性能。
4 Conclusion
一个新的框架来解释使用Granger因果关系第一原理的图形神经网络Gem。与现有工作相比,Gem有几个优点:它不依赖于模型,与任何图形神经网络模型兼容,无需对图形学习任务进行任何事先假设,可以生成紧凑的子图,从而在训练后很快产生预训练GNN的输出。文献作者发现因果解释性有助于解释和理解图形神经网络,且相信这将是未来研究的一个富有成果的途径,有助于更好地理解和设计图形神经网络。
5 Model
Gem模型结构图如下所示:
Gem相关伪代码:
for edge ej in Gc do
Calculate the causal contribution ∆(δ, ej)
end for
Remove edges with the least casual contribution and re-calculate the causal contribution of the generated subgraph.
E(c,sorted) ← sort the edges in ascending order based on the causal contributions.
Initialize Gs ← Gc
for edge ej in E(c,sorted) do
Calculate the model error of the subgraph, denoted as δGs\{ej}
Gs0 ← Gs\ {ej}
if Gs0 must be connected then
Gs0 ← largest component of Gs0
end if
if δGs0> δGs then
ej.weight ← δGs − δGs0
else
Gs ← Gs0
end if
end for
Distill the subgraph with top-kmost relevant edges.
Es ← edges of Gs
E(s,sorted) ← sort Es in ascending order by weight
for edge ej in E(s,sorted) do
if # of edge in Gs ≥ k then
Gs ← Gs\ {ej}
if Gs must be connected then
Gs ← largest component of Gs
end if
end if
end for
return Gs
6 Problem
- Gem采用屏蔽每条相关边来与实例图进行比较,那么在这个过程中观测到的贡献值是包含了相关性的,例如芳香基团的六条键共同作用,相互贡献。因此,Gem训练出的模型是无法明确的剔除相关性影响。
- Gem在屏蔽边的影响计算贡献时,是否能加入结构因果模型对边贡献进行优化,从而剔除相关性的影响。