这篇论文提出了一个名为 SUMMIT 的新型结构遗忘算法,旨在解决图神经网络 (GNN) 中知识遗忘和模型效用维护之间的平衡问题。
主要问题:
- 知识遗忘: 从训练好的 GNN 中删除特定边的信息。
- 模型效用维护: 在删除边信息后,确保 GNN 的性能不会显著下降。
SUMMIT 的解决方案:
- 遗忘目标:
- 梯度上升: 通过梯度上升方法,使删除的边对模型输出的影响最小化。
- 高阶遗忘增强: 通过增加删除边节点表示之间的距离,解决 GNN 过平滑问题导致的遗忘效果不佳。
- 一致性约束: 通过鼓励删除边节点对表示的随机性,减少攻击者通过节点表示进行成员推理攻击的可能性。
- 记忆目标:
- 理想遗忘驱动: 通过最小化未学习模型和原始模型生成的节点表示之间的分布差异,保留原始数据中的有用信息。
- 自适应双目标平衡器 (ATOB):
- 利用多目标优化算法,动态调整遗忘目标和记忆目标的权重,以找到两者之间的最佳平衡点。
实验结果:
- SUMMIT 在知识遗忘和模型效用维护方面均优于现有方法。
- SUMMIT 对成员推理攻击具有很好的抵抗力。
- SUMMIT 具有较高的效率,运行时间远低于从头开始重新训练模型。
SUMMIT 方法包含三个主要部分:遗忘目标、记忆目标和自适应双目标平衡器 (ATOB)。以下是每个部分的详细实施步骤:
1. 遗忘目标:
- 梯度上升:
- 使用已训练的 GNN 模型 和待删除的边集 Ed。
- 对删除边进行梯度上升,计算链接预测损失的梯度,并将参数更新为增加损失的方向。
- 目标函数:,其中 是未学习模型生成的节点表示,是链接预测的后验概率,是一个数值变换函数。
- 高阶遗忘增强:
- 计算删除边节点表示之间的距离,使用高斯嵌入来捕获节点表示的分布。
- 目标函数:,其中 是两个节点表示分布之间的 KL 散度,是一个单调递减的变换函数,sp(u,v) 是节点 u 和 v 之间的最短路径。
- 一致性约束:
- 鼓励删除边节点对表示的随机性,使其接近随机选择的节点对表示。
- 目标函数:,其中 是随机选择的节点对 jj 和 kk 的链接预测后验概率。
2. 记忆目标:
- 理想遗忘驱动:
- 最小化未学习模型和原始模型生成的节点表示之间的分布差异。
- 目标函数:,其中和 分别是原始模型和未学习模型生成的节点表示分布。
3. 自适应双目标平衡器 (ATOB):
- 将遗忘目标和记忆目标视为多任务学习问题,并使用多梯度下降算法 (MGDA) 进行优化。
- 动态调整遗忘目标和记忆目标的权重,以找到两者之间的最佳平衡点。
- 目标函数:,其中 是通过 MGDA 计算的可学习系数。
SUMMIT-HetG:
- 针对 heterogenous 图,对 SUMMIT 进行了扩展,使用了 DisMult 因子分解来重构读取函数,并增加了最小化 remaining triplets 的 DisMult 分数分布差异的项。
总结:
SUMMIT 通过遗忘目标和记忆目标的结合,以及 ATOB 的动态平衡,有效地实现了知识遗忘和模型效用维护之间的平衡,为图结构遗忘问题提供了一种有效且高效的解决方案。