论文笔记——Learn to Unlearn: Insights Into Machine Unlearning

Machine Unlearning主要可分为“精确”和“近似”unlearning范式。精确的Machine Unlearning可确保从模型中完全擦除特定数据，使模型就像从未引入过数据一样。相反，近似 Unlearning旨在提高删除效率，尽管精度较低，确保模型的行为与从未见过已删除数据的模型相似，但不能保证完全等效。这两种方法都为解决数据隐私和模型适应性问题提供了有前途的途径，但它们之间的二分法在验证方面带来了复杂的挑战，并带来了对抗性攻击的潜在漏洞。

本文贡献

1、对精确和近似 Machine Unlearning 的现有研究进行全面调查。

2、对 Machnine Unlearning和相关攻击的验证进行彻底检查

3、实验结果，为Machine Unlearning的有效性和成本提供了宝贵的见解。

Machine Unlearning 的需求分析：

1、从隐私保护角度看，欧盟于2016年实施了《通用数据保护条例》( General Data Protection Regulation，GDPR )，该条例被公认为全球最严格的数据隐私与安全立法。该条例对在欧盟范围内收集或使用与个人有关的数据的全球组织实施了义务。它承认新的数据隐私权利，以授予个人对其数据更大的自主权，包括删除(即被遗忘权)的权利。

2、在网络安全领域，Machine Unlearning 对于中毒攻击恢复至关重要。这就涉及到去除恶意注入的中毒数据样本，否则可能会对模型的预测精度或行为产生不利影响。

3、从性能优化的角度来看，Machine Unlearning 有助于消除低质量数据样本的影响。这些可能在训练过程中被纳入，并可能降低模型的整体性能。

Machine Unlearning的一般场景如图1所示：

目前提高Unlearning效率和可靠性的方法：

1、直接的方法包括完全去除不需要的数据，然后再重新训练，以确保模型被特定的知识清洗。

2、另一种方法是权重调整，通过直接调整模型的权重来抵消不需要的数据的影响，从而不需要进行完全的再训练。

3、利用正则化方法，一些算法为了保留特定的数据而对模型施加惩罚，使其遗忘。

4、差分忘却学习是一种较新的技术，其重点在于理解特定数据点在训练过程中引起的模型权重的变化，然后逆转这些变化来实现Unlearning。

精确 Machine Unlearning

1、SISA

SISA通过对分区数据的增量式 unlearning 来实现 Machine Unlearning。该技术将数据划分为若干个独立的分片，然后在每个分片内对数据进行进一步的分割。随后，实现增量学习，并对参数进行归档。当接收到新的unlearning请求时，SISA返回到相关的数据片，并从该点开始重新训练。考虑到剩余的模型参数已经被保留下来，聚合的过程变得简单而有效。尽管如此，当数据集不够大或学习任务特别复杂时，SISA在每个组件模型中可能会出现性能下降。

2、DeltaGrad

" DeltaGrad "是一种精确 Machine Unlearning 方法，强调快速的再训练，如图2所示。它通过以对抗的方式训练指定删除的数据来实现，即通过最大化而不是最小化损失来实现，这在传统的ML场景中是典型的。随后将得到的逆向模型与原始模型集成，并将其保存下来。通过DeltaGrad的应用，在给定一定的数据删除比例( 1 % ,正如DeltaGrad出版物中建议的那样)的约束条件下，模型的性能可以得到很好的持续。尽管如此，DeltaGrad虽然兼容随机梯度下降ML算法，但缺乏管理小批量数据的能力。

挑战

（1）精确的Machine Unlearning 总是会导致模型性能的恶化，尽管这种恶化可能是微不足道的。

（2）隐私泄露的前景令人担忧。例如，如果删除一个名为" Alice "的数据实体，并检测到原始模型和重新训练的模型之间存在差异，则敌对实体可以推断观察到的差异是由于删除了" Alice "。因此，这可能会引发推理攻击，加剧隐私风险。

近似 Machine Unlearning

1、Guo等人提出的"认证移除"方法：

在模型参数上使用了牛顿步骤，有效地消除了数据点被删除的影响。此外，通过在训练损失中引入随机扰动来掩盖残差，从而防止潜在的隐私侵犯。

限制：首先，实现牛顿优化方法需要对Hessian矩阵求逆，这一任务会带来相当大的挑战。其次，该技术不适用于具有非凸损失的模型。最后，数据依赖的界并不能准确地估计梯度残差范数，这强调了进一步增强和严格审查的必要性。

2、DNN模型的近似Machine Unlearning

Golatkar等人引入了遗忘拉格朗日来实现DNN中的选择性遗忘。设计了一种擦除方法，该方法能够从训练的权重中擦除信息，而不需要访问原始训练数据或强制要求网络进行完全的再训练。

缺陷：当它涉及到没有事先训练的遗忘时，研究表明，即使在关键学习阶段的轻微扰动也会对最终的解决方案产生实质性的变化。

3、提出了Machine Unlearning是否可以被认为是ML领域中差分隐私的一个特例的问题

Sekhari等人对Machine Unlearning 中的泛化进行了详尽的探索，以解决这个问题，其目的是在新的数据点上取得良好的性能。与先前的研究不同，本研究中部署的算法不要求unlearning 算法在样本删除期间能够访问训练数据。这项研究明确区分了差分隐私和Machine Unlearning.

局限性：它没有提供删除容量的与维度相关的信息论下界，并且无法处理非凸的损失函数。

4、Nguyen等针对变分贝叶斯最大似然方法的一个重要分支变分贝叶斯最大似然方法，提出了一种Machine Unlearning技术。

局限性：这种unlearning技术并不影响模型的性能，只适用于ML模型的这一特定环节。

5、Ginart等人已经开发了为k - means定制设计的Machine Unlearning技术。这些方法的主要目标是在效率和模型性能之间取得平衡。

局限性：仅限于每次迭代只删除一条记录。

挑战

（1）验证Machine Unlearning方法的实施的复杂性，即难以区分unlearning过程是否已经实施。

（2）由于大多数近似Machine Unlearning模型都是基于模型而非数据启动的，引发了人们对该方法与隐私法规中规定的"被遗忘权"是否一致的质疑。

Unlearning 算法的验证与攻击

验证机制

1、Sommer等人进行了Machine Unlearning的概率验证研究。在需要擦除数据的情况下，数据拥有者在向数据使用者(例如,互联网巨头公司)传递信息之前，故意在数据内部植入后门。一旦数据使用者声称删除了数据，数据所有者可以通过检查之前插入的后门来确认删除。

2、辅助Machine Unlearning的验证：包括但不限于数据采样验证、合成数据验证和偏差分析。

3、偏差分析涉及评估数据剔除对ML模型固有偏差的影响。这可能需要衡量数据删除前后模型的公平性和准确性，也可能需要考察数据分布情况，以识别数据删除对各类群体代表性的影响。

攻击

1、成员推断攻击

这种方法能够确定特定的样本是否属于原始模型的训练集，从而揭示了与Machine Unlearning有关的不可预见的隐私风险。然而，在特定条件下，如SISA方法的应用和超过0.2 %的数据样本需要删除时，攻击的成功率会降低。（参考论文：. Chen, Z. Zhang, T. Wang, M. Backes, M. Humbert, and Y. Zhang, “When machine unlearning jeopardizes privacy,” in Proc. ACM SIGSAC Conf. Comput. Commun. Security, 2021, pp. 896–911, doi: 10.1145/3460120.3484756.）

2、中毒攻击

Marchant等人设想了一种创新的中毒攻击，其原因是多方面的。这些攻击包括白盒和灰盒攻击，不同的扰动几何和限制，攻击者目标的优化与计算时间的协调，以及在更长的时间内维持攻击的可行性。尽管如此，这种攻击是专门针对一类独特的机器忘却学习模型，特别是认证移除及其变体。如果采用标准的异常检测模型，其性能可能会变差。（参考论文：N. G. Marchant, B. I. Rubinstein, and S. Alfeld, “Hard to forget: Poisoning attacks on certified machine unlearning,” in Proc. AAAI Conf. Artif. Intell., 2022, vol. 36, no. 7, pp. 76917700,doi:10.1609/aaai.v36i7.20736.）

评估和实验结果

我们的实验是基于DeltaGrad，它被认为是最突出和最精确的Machine Unlearning技术之一。如前所述，DeltaGrad采用的关键方法是"反向学习"。进一步地，DeltaGrad放大了模型训练中被排除的数据样本的损失，而不是使用最小化损失的传统方法。

实验设计

1、我们探究了在独立同分布( i.i.d.)场景下，模型的准确率与删除数据样本百分比之间的关系。

2、我们考察了在非i.i.d 情形下的相同相关性。

3、我们评估了与删除数据样本比例相关的时间消耗。

实验环境及设置

我们的模型是一个由300个隐藏的校正线性单元神经元组成的两层神经网络，我们在MNIST数据集上进行训练。MNIST数据集包括10个标签，包含60000张用于训练的图像和10000张用于测试的图像。每幅图像由28 × 28个特征(像素)组成，代表从0到9的单个数字。

实验结果

1、考察的模型如下：

（1）Baseline training：使用整个数据集训练模型(红色)

（2）Retraining from scratch：使用删除后更新的数据集重新训练模型(绿色)

（3）DeltaGrad：使用删除的样本重新训练模型(蓝色)。

2、

（1）i.i.d.设置中的准确性评估。为了评估模型在i.i.d.设置下的准确性，我们使用均匀分布随机删除了数据样本。图3（a）表明，所有三个模型的测试精度在整个过程中保持一致。因此，我们可以得出结论，基线模型的准确性不受这种形式的数据删除的影响。然而，对于其他两个模型，测试精度的下降是有限的，从大约 0.8735 下降到 0.8725（小于 0.1%）。

（2）非 i.i.d. 的准确性评估设置。在非 i.i.d. 中评估模型精度设置时，我们删除了标签为“4”的样本比其他标签多。更详细地说，30%的删除样本具有标签“4”，而其余70%的已删除样本在没有“4”的九个标签上具有均匀分布。在这个non-i.i.d.设置时，两个“unlearn”模型的性能下降是相当显着的。如图3（b）所示，当删除率增加到30%时，DeltaGrad的准确度下降从0.8735左右下降到0.7921（超过8%）。这主要是由于标签“4”的明显缺失造成的。值得注意的是，标签“9”的分类准确率从82.9%（删除率：0.001）提高到88.3%（删除率：0.3）。

3、评估时间消耗。在图 4 中，显示了 i.i.d. 设置中的时间消耗与删除比率。特别是，为了显示交叉点，我们评估了另外两个删除率值，分别为 0.4 和 0.5。随着删除率从0.001提高到0.3，“Retrain_划痕”的时间消耗从42.19秒减少到29.15秒。同时，“Retrain_DeltaGrad”的时间消耗从 12.53 秒增加到 21.22 秒。最后，将存在一个交叉点。值得一提的是，非i.i.d.中的时间消耗趋势。设置几乎相同。

见解

1、是否从头开始训练？

鉴于在i.i.d.设置中从头开始训练与DeltaGrad相比，准确性的下降可以忽略不计，我们可以得出结论，应该根据其他性能指标（例如计算复杂性）来选择Machine Unlearning方法。

2、非i.i.d.机器忘却学习具有挑战性。

人们普遍认为，非i.i.d.分布式学习范式（如联邦学习）中的数据分布会导致模型性能欠佳。在忘却的背景下，去除非i.i.d.样品还会导致巨大的性能损失，这在实践中必须加以考虑。

3、忘却可能会导致不公平。

当数据样本被擦除时，尤其是在非 i.i.d. 中。因此，某些标签的分类准确率会显著降低，而其他标签的分类准确率可能会提高。这种现象会导致不同类别之间的不公平，而传统的 ML 性能指标（例如平均准确率）无法揭示这一点。

4、忘却学习需要新颖的、更通用的损失函数公式方法。

目前的大多数Machine Unlearning方法都依赖于使用牛顿方法最大化二次损失函数。然而，在实际场景中，存在各种形式的损失函数。探索这些替代方案的用途可能会导致未来设计更具适应性的Machine Unlearning 机制。

挑战

1、非i.i.d.数据会使unlearning复杂化的概念性原因如下：

（1）数据异质性：在非i.i.d设置中，某些数据点或类可能在待Unlearning的数据中过度表示。这可能会扭曲模型的理解，特别是如果Unlearning的过程无意中剥夺了关于代表性不足的类的重要信息。

（2）模型稳定性：在对 i.i.d. 数据进行训练时，模型通常会收敛到一组稳定的权重。使用 non-i.i.d.数据，尤其是在忘却学习期间，由于已删除数据的分布不均匀，模型的权重可能会振荡或发散。这可能会使忘却学习过程变得不可预测。

（3）损失情况：非i.i.d.数据可以在损失景观中引入尖锐的非凸区域。在Unlearning时，在这个复杂的地形中导航可能会导致陷入次优的局部最小值或经历更大的损失跳跃。

2、针对这一问题，潜在的缓解措施和未来的研究方向如下：

（1）正则化技术：实施正则化方法，如 dropout 或 L1/L2 正则化，可能有助于确保模型不会过度拟合到非 i.i.d要删除的数据的性质。

（2）分层忘却学习：与分层抽样类似，可以研究分层忘却学习，其中以尽可能保持数据集原始分布的方式删除数据。

（3）元学习：未来的研究可以探索元学习，其中模型不仅针对手头的任务进行训练，还针对如何有效地忘记或忘记学习进行训练。

（4）动态学习率：在忘却学习过程中，根据被删除数据的性质动态调整学习率可能是有益的。这可能有助于处理非 i.i.d 数据删除带来的复杂性。

3、对于经常经历更新和删除的模型，特别是在不断演化和动态环境中，更广泛的含义包括在内：

（1）持续重新评估：应定期重新评估动态环境中的模型。这一点至关重要，因为在每个忘却学习和重新训练周期中，由于更新的非 i.i.d 性质，模型的性能可能会发生不可预测的变化。

（2）可扩展性问题：随着模型规模和复杂性的增加，频繁更新和删除的开销成为一项挑战。确保忘却学习过程的高效性和可扩展性至关重要。

（3）隐私问题：在某些情况下，由于需要删除敏感信息或个人信息，因此需要忘却学习。对于非 i.i.d 数据，确保完全删除变得复杂，导致潜在的隐私泄露。

（4）模型鲁棒性：如果一个模型在一组不同的数据集上进行训练，然后经常使用非 i.i.d 数据进行更新，或者有 non-i.i.d 缺失，则其鲁棒性可能会受到影响。这可能会使模型更容易受到对抗性攻击，或者在不熟悉的场景中产生意外的输出。