问题定义.
- 假设已有一个用于执行图节点类别预测任务的图神经网络 N N N,在图 G = ( V , E ) G=(V,E) G=(V,E) 中节点 v i v_i vi 对应预测向量为 y i \bm y_i yi,其第 j j j 分量是节点 v i v_i vi 属于第 j j j 类的概率。
- 定义包含节点 v i v_i vi 的子图 G i ⊂ G G_i\subset G Gi⊂G 是对于预测结果 y i \bm y_i yi 的解释Explanation,解释必然存在优劣之分。
解释与优劣.
- 首先,如果仅仅着眼于解释方法得出的子图 G i G_i Gi(基于上述定义,下文中会混用子图与解释),我们期望预测模型 N N N 在 G i G_i Gi 上的预测结果 y i ′ \bm y_i' yi′ 能够与原预测结果 y i \bm y_i yi 尽可能接近。这是对解释 G i G_i Gi 提出的高模拟性Simulatability要求,个人理解这是充分性的体现,即子图 G i G_i Gi 中所包含的其余节点 v j ≠ v i v_j\neq v_i vj=vi 要切实地对预测 v i v_i vi 类别提供所需的信息。
- 衡量分布相似度的量化标准可以用于衡量模拟性,论文中采用如下定义的对称化 K L − D i v e r g e n c e \rm KL-Divergence KL−Divergence 来量化解释 G i G_i Gi 的模拟性: ν ( G i ) = − [ K L ( y i ∣ ∣ y i ′ ) + K L ( y i ′ ∣ ∣ y i ) ] (1) \nu(G_i)=-\Big[{\rm KL}(\bm y_i||\bm y_i')+{\rm KL}(\bm y_i'||\bm y_i)\Big]\tag{1} ν(Gi)=−[KL(yi∣∣yi′)+KL(yi′∣∣yi)](1)
- 但仅仅追求高模拟性会导致子图势
∣
G
i
∣
|G_i|
∣Gi∣ 无限制趋于增加,显然随着
G
i
→
G
G_i\rightarrow G
Gi→G,必然有
y
i
′
→
y
i
\bm y_i'\rightarrow\bm y_i
yi′→yi,
ν
(
G
i
)
\nu(G_i)
ν(Gi) 会越来越大。因此除模拟性之外,还需要追求反事实相关性 Counterfactual Relevance.
- 反事实相关性是很符合人类认知的,我们分析导致事情结果 Y Y Y 因何而出现的常见思路就是假设在这之前某件事 X X X 没有发生。具体地说,考试挂科作为结果 Y Y Y 出现,我们会设想,假如事件上课睡觉 X X X 没有发生,结果会不会有很大改变呢。因此衡量解释 G i G_i Gi 反事实相关性的做法是对 G i G_i Gi 进行扰动得到另一个解释 G ~ i \tilde G_i G~i,我们希望模型 N N N 在反事实对照组 ( G i , G ~ i ) (G_i,\tilde G_i) (Gi,G~i) 上的预测结果 y i ′ , y ~ i ′ \bm y_i',\tilde\bm y_i' yi′,y~i′ 能够尽量不同,即由于增加的扰动导致预测结果剧变。
- 个人认为可以将其视为必要性的体现,高反事实相关性意味着解释 G i G_i Gi 中的被移除的节点 v j ≠ v i v_j\neq v_i vj=vi 对 v i v_i vi 的类别提供重要信息,改变 v j v_j vj 节点就会导致预测结果不同。记反事实对照组 ( G i , G ~ i ) (G_i,\tilde G_i) (Gi,G~i) 之间的差集为 Δ \Delta Δ,那么定义反事实相关性如下: μ ( G i , G ~ i ) = ν ( G i ) − ν ( G ~ i ) ∣ Δ ∣ (2) \mu(G_i,\tilde G_i)=\cfrac{\nu(G_i)-\nu(\tilde G_i)}{|\Delta|}\tag{2} μ(Gi,G~i)=∣Δ∣ν(Gi)−ν(G~i)(2)
- 分母 ∣ Δ ∣ |\Delta| ∣Δ∣ 使得上述定义成为单位节点上的变化程度,不难看出, ν ( G i ) , μ ( G i , G ~ i ) \nu(G_i),\mu(G_i,\tilde G_i) ν(Gi),μ(Gi,G~i) 的值均是越大意味着解释 G i G_i Gi 的质量越高。前者意味着 G i G_i Gi 能够很好地还原预测结果,后者意味着 G i G_i Gi 中的每个节点都提供了重要信息,不是滥竽充数。
- 下图直观给出模拟性和反事实相关性两个衡量标准,其中出现的
(
4
)
,
(
5
)
(4),(5)
(4),(5) 分别对应上文
(
1
)
,
(
2
)
(1),(2)
(1),(2) 式。
算法流程.
- 基于模拟性、反事实相关性两种度量标准,定义针对解释的最优化问题如下:给定图神经网络模型 θ \theta θ 和图 G = ( V , E ) G=(V,E) G=(V,E),对于所有的 v i ∈ V v_i\in V vi∈V,希望得到解释(子图) G i ⊂ G G_i\subset G Gi⊂G 和一个反事实解释 G ~ i ⊂ G i \tilde G_i\subset G_i G~i⊂Gi 来最大化度量标准 ν ( G i ) , μ ( G i , G ~ i ) \nu(G_i),\mu(G_i,\tilde G_i) ν(Gi),μ(Gi,G~i),满足 v i ∈ G ~ i ⊂ G i , ∣ G i ∣ ≤ C v_i\in\tilde G_i\subset G_i,|G_i|\leq C vi∈G~i⊂Gi,∣Gi∣≤C,并且 G i G_i Gi 为无环图。
- 上述最优问题形式化表述如下: max G i , G ~ i F ( G i , G ~ i ) = [ ν ( G i ) , ∣ μ ( G i , G ~ i ) ∣ ] (3) \max_{G_i,\tilde G_i}\bm F(G_i,\tilde G_i)=\Big[\nu(G_i),|\mu(G_i,\tilde G_i)|\Big]\tag{3} Gi,G~imaxF(Gi,G~i)=[ν(Gi),∣μ(Gi,G~i)∣](3) S . t . v i ∈ G ~ i ⊂ G i , ∣ G i ∣ ≤ C , G i i s a c y c l i c . S.t.~v_i\in\tilde G_i\subset G_i,|G_i|\leq C,G_i~{\rm is~acyclic.} S.t. vi∈G~i⊂Gi,∣Gi∣≤C,Gi is acyclic.
- 注意 ( 3 ) (3) (3) 式中目标函数的特殊形式 —— 向量函数 F \bm F F,没有使用诸如 ν ( G i ) + λ ⋅ ∣ μ ( G i , G ~ i ) ∣ \nu(G_i)+\lambda\cdot|\mu(G_i,\tilde G_i)| ν(Gi)+λ⋅∣μ(Gi,G~i)∣ 的求和式。主要原因是我们希望最终搜索到的解释 G i G_i Gi 同时具有高模拟性和高反事实相关性,而非牺牲 A A A 去换取 B . B. B.
- 不难发现,模拟性和反事实相关性是存在矛盾的。
∣
G
i
∣
|G_i|
∣Gi∣ 越大会使得模拟性越好,但向其中加入相同扰动
Δ
\Delta
Δ 所造成的影响就会越小。因此最终得到的解释
G
i
G_i
Gi 必然需要在二者之间进行平衡,抛弃传统的梯度优化算法,文章中设计了如下图所示的优化流程:
- 第一步基于 D F S \rm DFS DFS 对解释空间 { G i ∣ v i ∈ G i } \{G_i|v_i\in G_i\} {Gi∣vi∈Gi} 进行枚举。鉴于 L L L 层 G N N \rm GNN GNN 模型不会使用超过 L L L 跳的邻域节点进行预测,因此 D F S \rm DFS DFS 的搜索范围也由 L L L 限制。
- 第二步图神经网络模型 θ \theta θ 会在 D F S \rm DFS DFS 得到的解释集合 { G i ∣ v i ∈ G i , ∣ G i ∣ ≤ C } \{G_i|v_i\in G_i,|G_i|\leq C\} {Gi∣vi∈Gi,∣Gi∣≤C} 对节点 v i v_i vi 进行预测,并计算相应的度量值 ν ( G i ) , μ ( G i , G ~ i ) . \nu(G_i),\mu(G_i,\tilde G_i). ν(Gi),μ(Gi,G~i).
- 第三步寻找出最优解释 G i ∗ G_i^* Gi∗,由于模拟性和反事实相关性之间存在的矛盾,难以找到一个解释 G i ∗ G_i^* Gi∗ 满足下面的最优条件: ∀ G i , ν ( G i ) < ν ( G i ∗ ) ∧ ∣ μ ( G i , G ~ i ) ∣ < ∣ μ ( G i ∗ , G ~ i ∗ ) ∣ (4.1) \forall~G_i,~\nu(G_i)<\nu(G_i^*)\wedge|\mu(G_i,\tilde G_i)|<|\mu(G_i^*,\tilde G_i^*)|\tag{4.1} ∀ Gi, ν(Gi)<ν(Gi∗)∧∣μ(Gi,G~i)∣<∣μ(Gi∗,G~i∗)∣(4.1)因此退而求其次,寻找解释空间中的帕累托最优解释 Pareto Optimal Explanation G i ∗ G_{i^*} Gi∗,它满足如下的帕累托最优条件: ! ∃ G i , ν ( G i ) < ν ( G i ∗ ) ∧ ∣ μ ( G i , G ~ i ) ∣ < ∣ μ ( G i ∗ , G ~ i ∗ ) ∣ (4.2) !\exist G_i,~\nu(G_i)<\nu(G_{i^*})\wedge|\mu(G_i,\tilde G_i)|<|\mu(G_{i^*},\tilde G_{i^*})|\tag{4.2} !∃Gi, ν(Gi)<ν(Gi∗)∧∣μ(Gi,G~i)∣<∣μ(Gi∗,G~i∗)∣(4.2) ( 4.2 ) (4.2) (4.2) 说明不存在一个解释 G i G_i Gi,能够在两个评价标准上都超过帕累托最优解释 G i ∗ . G_{i^*}. Gi∗.
- 显然上述定义下的帕累托最优解释并不唯一,单项指标极高的解释也有可能成为帕累托最优解释。因此定义了综合排名准则来确定最终解释。对于解释 G i G_i Gi 而言,我们记 r 1 r_1 r1 为它的模拟性指标排名, r 2 r_2 r2 为反事实相关性指标排名,二者相加得到解释 G i G_i Gi 的综合排名 R R R,最终选择 R R R 最小的解释。
- 数学上可以证明,综合排名法得出的解释
G
i
G_i
Gi 一定满足帕累托最优条件。
健壮性与合理性.
- 健壮性 Robustness要求当一些与 y i \bm y_i yi 生成机制无关的扰动被引入时,对 y i \bm y_i yi 的解释 G i G_i Gi 保持不变。
- 合理性 Sanity则是对应地要求,当 y i \bm y_i yi 生成机制发生变化时,解释 G i G_i Gi 也应当变化。
实验.
- 第一部分实验针对人类认知过程进行,由人类对各种算法的解释结果给出评估,用于证明模拟性和反事实相关性两种指标的重要与合理。
- 基于第一部分实验的结果,第二部分实验对各种解释方法进行量化评价。
人类受试实验.
- 心理学研究表明人类思考有两个部分,第一部分自动且迅速地进行,第二部分则需要投入更多的精力。作者则认为一个具有高模拟性的解释能够促使人类快速地使用第一部分 S y s t e m . 1 \rm System.1 System.1 来对解释进行分析,在产生一种认同感后,再通过反事实假设进行更加细致深入的思考。
- 基于上述研究和猜想,作者认为解释的模拟性和反事实相关性能够反映出它被人类认知所接受的程度,从而设计了如下的实验。
- 在 C o r a \rm Cora Cora 数据集中选取 5 5 5 个节点,对每个节点各生成两个解释子图,其中一个具有高模拟性,另一个则相反。至此我们拥有 10 10 10 个解释,对每个解释生成两个不同的反事实子图。
- 上述过程的示例如下图:
- 上图显示有四个预测结果 —— 原图预测 y i \bm y_i yi,解释预测 y i ′ \bm y_i' yi′ 以及两个反事实解释预测 y ~ i ′ . \tilde\bm y_i'. y~i′. 一般认为相较于解释子图,原图难以提供易于为人理解的解释;反事实解释则能够让受试者评估被移除部分 Δ \Delta Δ 是否作为原因影响着预测结果。
- 实验组织者对受试者提出 4 4 4 个问题,并将问题答案量化为 5 5 5 个等级,等级越高表示程度越高。
- 问题 1 1 1: 你认为 G i G_i Gi 的预测结果对于 G G G 的预测结果还原程度有多好;
- 问题 2 , 3 2,3 2,3:你认为两个 G ~ i \tilde G_i G~i 中被移除部分对于 G i G_i Gi 的预测结果影响程度有多大;
- 问题 4 4 4:如果以 G i G_i Gi 预测结果代替原图 G G G 的预测结果,你的接受程度有多高。
- 记问题
1
1
1 的结果为
r
a
r_a
ra,它表示受试者对于解释
G
i
G_i
Gi 的模拟性评估;记问题
2
,
3
2,3
2,3 的结果为
r
b
,
r
c
r_b,r_c
rb,rc,其物理意义显然;记问题
4
4
4 的结果为
r
d
r_d
rd,表示受试者对于解释
G
i
G_i
Gi 的总体接受程度。
10
10
10 位受试者对于
10
10
10 个解释子图做出了评估,统计制表后的结果如下所示:
量化评价实验.
- 基于梯度的方法 G r a d \rm Grad Grad 能够很敏锐地捕捉到反事实相关性,即哪些部分对于预测的影响是最大的,但显然无法很好地还原预测结果。
-
B
a
s
e
l
i
n
e
\rm Baseline
Baseline 方法简介如下:
- 最后进行了健壮性和合理性检查,方法是对图神经网络
N
N
N 的预测过程添加扰动,具体的方法有 —— 为图添加干扰边、扰动网络参数。用杰卡德距离
J
a
c
c
a
r
d
D
i
s
t
a
n
c
e
\rm Jaccard~Distance
Jaccard Distance 衡量扰动前后解释
G
i
1
,
G
i
2
G_i^1,G_i^2
Gi1,Gi2 的差异,实验结果如下: