联邦忘却学习综述http://cjc.ict.ac.cn/online/onlinepaper/wpf-2024229164239.pdf
1 引言
2 联邦忘却学习概述
2.1 联邦学习
联邦学习[11]保护用户隐私数据的前提下实现模型训练,进而促进数据的流通和共享。
其中,模型聚合公式为:
联邦学习的机器学习模型对所有参与训练的用户开放,攻击者可以在本地训练过程中访问全局模型,根据模型反推参与者的数据信息,进而导致数据隐私泄露
· 成员推理攻击
· 模型反转攻击
· 恶意模型攻击
· 等等……
2.2 忘却学习
忘却学习的难度取决于不同的机器学习场景。在不同场景下,忘却学习算法设计的难度与获取数据有效信息的难度相关。
小样本忘却学习[31] (Few-Shot Unlearning):待遗忘的数据样本量极小,例如仅 有 3 到 5 张图片
零次观察忘却[35] (Zero-Glance Unlearning)不允许使用请 求遗忘的数据,只能利用剩余训练数据
零样本忘却[36] (Zero-Shot Unlearning),它的条件更为严格,只能在数据不可见的情况下进行忘却学习
回归模型忘却[32] 、推荐模型忘却[33] 、 快速忘却学习[34] 等。
2.3 联邦忘却学习
2.3.1 忘却流程
遗忘后,将样本从数据集中删除,避免被重新训练。
2.3.2 忘却粒度
样本忘却、类别忘却、任务忘却
2.3.3 面临的挑战
3 联邦忘却学习
面向全局模型的忘却 算法直接对全局模型参数进行修改并利用用户数据调整全局模型,而面向局部模型的算法则利用用户训练的局部模型参数对全局模型参数进行间接修改 .
3.1 面向全局模型的
3.1.1 重新训练
3.1.2 用户贡献遗忘
特定用户ui向服务器发起忘却学习请求,服务器从全局模型 wt 中直接删除用户ui产生的局部模型参数{ wi 0,wi 1,⋯,wi t },实现对用户ui数据的忘却。最后,服务器利用再训练提升模型准确率 。
3.1.3 局部参数调整
该类算法通过结构信息计算用户数据贡献的参数位置,准确地删除用户数据对全局模型的贡献,从而实现数据的有效遗忘。
3.2 面向局部模型的
3.2.1 训练更新校正
训练更新校正算法在现有模型的基础上增加额外的联邦学习训练,对训练过程中产生的模型参数进行修正,并通过聚合修正后的模型修改全局模型的参数。
3.2.2 训练梯度校正
训练梯度校正算法的思想是在现有模型的基础上增加联邦学习训练,通过调整部分用户的训练方法,以直接聚合的方式来更新全局模型参数
4 性能指标
4. 1 模型表现指标
准确率、损失函数
4. 2 遗忘效果指标
相对熵:相对熵[60](Relative Entropy),也称为 KL 距离 (Kullback-Leibler Divergence,KL),用于衡量两个 概率分布相似性的评价指标.
曝光误差:在语言模型中,曝光误差[76](Exposure)是测量模型对给定序列s [ r ]记忆程度的指标
遗忘率、时间
4. 3 隐私保护指标
信息损失:攻击者能获得的信息量
攻击抵抗:成员推断攻击成功率即成员推断 攻击成功次数与成员推断攻击发起次数之比;后门攻击成功率[90]( Backdoor Attack)即后门攻击成功次数与后门攻击发起次数之比.
4.4 总结
5 应用
隐私保护、攻击抵抗的应用
6 未来展望
包括联邦忘却学习算法和联邦忘却学习应用两部分。