Fast Machine Unlearning without Retraining through Selective Synaptic Dampening.
AAAI 2024: 12043-12051,Jack Foster, Stefan Schoepf, Alexandra Brintrup:
目录
Fast Machine Unlearning without Retraining through Selective Synaptic Dampening.
2、Selective Synaptic Dampening(SSD)
摘要:
机器学习模型的遗忘能力,对于遵守数据隐私法规以及删除有害、纵或过时的信息变得越来越重要。关键的挑战在于忘记特定信息,同时保护剩余数据的模型性能。虽然当前的 state-of-theart 方法表现良好,但它们通常需要对保留的数据进行一定程度的重新训练,以保护或恢复模型性能。这增加了计算开销,并要求训练数据保持可用和可访问性,这可能不可行。相比之下,其他方法采用无再训练范式,但是,这些方法的计算成本高得令人望而却步,并且性能无法与基于再训练的对应方法相提并论。我们提出了选择性突触阻尼 (SSD),这是一种新颖的无需再训练的机器遗忘学习方法,它快速、高性能且不需要长期存储训练数据。首先,SSD 使用训练和遗忘数据的 Fisher 信息矩阵来选择对遗忘集不重要的参数。其次,SSD通过抑制与遗忘集相对于更广泛的训练数据的相对重要性成正比的这些参数来诱导遗忘。我们在使用 ResNet18 和 Vision Transformer 的一系列实验中针对几种现有的遗忘学习方法评估了我们的方法。结果表明,SSD的性能与基于再训练的事后方法相比具有竞争力,证明了无再训练事后遗忘方法的可行性。
现状分析:
1、遗忘学习算法的两个性能:性能保持指的是保持模型的完整性,而遗忘学习效率指的是时效性和轻量级。
时效性:时间和资源成本
轻量级:在遗忘学习过程中需要做哪些准备,有多少开销
2、目前最先进的方法:再训练或者微调。
缺点:增加开销,且要求训练数据永久存储
文本贡献:
1 .我们提出了一种新颖的不需再训练选择性遗忘学习方法,该方法与现有的基于再训练的方法相比具有竞争力。
2 .我们认为遗忘学习是一个选择性任务,其中只有少量的参数应该被修改以保持模型的一致性。
3 . SSD只需要访问一次训练数据来计算FIM,并且可以在之后丢弃,与基于重训练的方法相比,减少了存储需求。
方法提出:
直觉:可能存在对Df特别重要而对Dr不重要的参数
进一步:深度神经网络记忆特定的训练样本,并且后面层的参数对特定的特征具有高度的专用性。这样的参数对于训练数据中的小样本集很可能是极其重要的,但对于更广泛的训练集来说可能一般并不重要。由于Dr通常较大且充满多样的样本,因此与Df相比,对Dr相似或更重要的参数可能对应于高度泛化的特征,对差分隐私或被遗忘权几乎没有威胁。
这里如果稍微通俗一点举个例子的话,可以尝试这么解释
区分图片是西瓜还是橘子
在模型抽象到最后几层,可能是如下特征
从图中可以观察到,靠后的层的特征对于判断图片的分类越是决定性的,也越抽象,也就是最后一个隐藏层的神经元的权重几乎决定了图片的分类。
而如果我们的分类任务变成了辨别是蔬菜还是水果,而我们想删除的小数据集是西瓜的,那么可以发现,有一些特征对于要删除的小数据集是很重要的,比如“绿色”“波浪条纹边界”“明确深浅边界”,但是对于广泛的训练集并不重要,比如其中的“波浪条纹边界”“明确深浅边界”
参考:原文链接:https://blog.csdn.net/x_fengmo/article/details/134079325
方法:
1、Fisher信息矩阵(FIM)
Fisher信息矩阵的参考资料:
(1)用于识别重要参数
(2)FIM可以使用一阶导数计算
2、Selective Synaptic Dampening(SSD)
(1)一种朴素的遗忘方法:(一种简单的剪枝方法)
过程:识别所有具有非零重要性值的参数的位置,并将它们设置为0,从而去除它们对模型输出的贡献。
缺点:Df和Dr这两个集合的重要参数有很大的重叠,可能导致Dr性能的灾难性下降
挑战:保持这种剪枝算法的遗忘能力,同时保护对保留集中重要的参数
(2)针对上述方法,对剪枝算法引入了两个重要的修正:
a. 更新选择标准:只选择对Df比Dr更重要的参数
超参数α允许控制选择的保护性程度,决定了参数如何被剪枝。
缺点:
这种要不清零,要不不清零的非0即1的方式,会让稍微超过阈值的和超过非常多的被一视同仁。同时,超参数α的确定也是个问题,太小无法保持模型预测的准确性,太大又无法达到遗忘的目的
(3)将剪枝步骤替换为阻尼步骤:
λ是控制保护水平的超参数,对参数不是清零,而是减小。
这里使用D而不是Dr ,是因为每进行一次遗忘就需要计算一次Dr ,但是如果只是计算D可以只计算一次,做到允许丢弃训练集(训练过程)[对应贡献3],同时一般Df 远远小于D,所以[ ] Dr 和[ ] D几乎相同。
实验设置
1、数据集:
CIFAR10、CIFAR20和CIFAR100
2、评价指标:
(1)遗忘和保留集合上的准确性:在保留模型整体性能的同时验证遗忘,用Df和Dr表示
(2)成员推断攻击(MIA):判断模型中是否仍然存在遗忘数据的信息
(3)执行时间(秒):评估时效性,用t表示
3、遗忘场景:
(1)单类遗忘
(2)子类遗忘
(3)随机观测遗忘
4、基线:
( a ) Baseline:在Dr∪Df上训练的未改变的模型
( b ) Finetune:在Dr上微调基线模型5个epoch,
( c ) Retraining:在Dr上从头开始重新训练模型,
( d ) Bad Teacher ,
( e )Amnesiac(遗忘者),
( f ) UNSIR ,( f )不是为随机观察遗忘而设计的,因此被排除在这一任务之外。
实验结果讨论
1、与Fisher Forgetting 的比较
2、时间比较
3、类遗忘
4、子类遗忘
5、随机样本遗忘
6、对SSD的整体分析
SSD 的性能优于 Fisher Forgeting,同时速度快几个数量级,突出了其功效。SSD 还具有竞争力,采用已建立的最先进方法和完整的模型再训练,证明了无再训练事后遗忘方法在更广泛的背景下的可行性。平均而言,在衡量与完全重新训练的模型的相似性时,SSD 是性能最强的方法。
局限性:
(1)由于缺乏对忘却的标准化评估,以及尚未确定什么是真正好的MIA分数的概念,使得对方法的定性评估具有挑战性,并确定最佳算法模棱两可。
(2)如果选择了错误的参数值(α,λ),使得对模型进行了较大的更改,则重复遗忘可能会导致模型严重退化。找到 α 和 λ 的合适值是一个实际限制。
(3)如果没有修复步骤,SSD 在 Dr 性能开始下降之前可以处理的遗忘请求数量自然有限。