Should Graph Convolution Trust Neighbors? A Simple Causal Inference Method(SIGIR’21)
现有的GCN改进方法都局限于对信息聚合等等方面的改进,但是很少有人关注到最终模型吐出的节点表征中,邻居信息和自身信息的占比情况。有Attention方法可以解决,但是在实际中可能效果表现不佳,因为attention通常fitting训练集,在现实中效果很难训练,尤其是在数据非常稀疏的情况下。
很多情况下邻居周围节点的信息并不适合聚合到自己,如上图的蓝色节点,并不应该把很多紫色节点的信息聚过来。文章称这种现象为“local structure discrepancy”。文章以此为出发点,设计了几个小组件,用来缓解这个问题。
Homophily Assumption
文章从因果图的角度出发,提出本文的模型。
图(a)、图(b)是原始GCN的做法,预测目标节点的分类时,同时利用目标节点自身的特征和邻居的特征来预测;图(c)只利用节点自身的特征预测,即如果目标节点没有邻居,那么预测值会是什么样。公式描述:
e = f ( x , N ( x ) ∣ θ ^ ) − f ( x , d o ( N = ∅ ) ∣ θ ^ ) = f ( x , N ( x ) ∣ θ ^ ) − f ( x , ∅ ∣ θ ^ ) = y ^ − y ^ s \begin{aligned} \boldsymbol{e} &=f(\boldsymbol{x}, \mathcal{N}(\boldsymbol{x}) \mid \hat{\theta})-f(\boldsymbol{x}, d \boldsymbol{o}(N=\emptyset) \mid \hat{\theta}) \\ &=f(\boldsymbol{x}, \mathcal{N}(\boldsymbol{x}) \mid \hat{\theta})-f(\boldsymbol{x}, \emptyset \mid \hat{\theta}) \\ &=\hat{\boldsymbol{y}}-\hat{\boldsymbol{y}}^{s} \end{aligned} e=f(x,N(x)∣θ^)−f(x,do(N=∅)∣θ^)=f(x,N(x)∣θ^)−f(x,∅∣θ^)=y^−y^s
如果 e e e的值非常大,这说明目标节点可能不满足homophily assumption!
Choice model
所以文章提出再用一个分类器作为“Choice model”。
令 z