【机器遗忘之综述】2024年最新综述:Threats, Attacks, and Defenses in Machine Unlearning A Survey

1 介绍

年份:2024
作者:刘子耀,陈晨,南洋理工大学
期刊: 未发表
引用量:6
Liu Z, Ye H, Chen C, et al. Threats, attacks, and defenses in machine unlearning: A survey[J]. arXiv preprint arXiv:2403.13682, 2024.
本文提出了一个统一的机器遗忘工作流程,并基于此框架和威胁模型,提出了机器遗忘系统中威胁、攻击和防御的新分类法。对当前机器非遗忘中的威胁、攻击和防御进行了详细分析,并阐述了遗忘方法、攻击和防御策略之间的复杂关系。
此外,讨论了机器遗忘系统中存在的漏洞,如信息泄露和恶意遗忘请求,这些导致重大的安全和隐私问题。遗忘方法和普遍的攻击在MU系统中扮演着不同的角色。例如,遗忘可以作为从后门攻击中恢复模型的机制,而后门攻击本身可以作为遗忘有效性的评估指标。这强调了这些机制在维护系统功能和安全方面的复杂关系和相互作用。

截屏2024-06-30 下午12.31.52.png
截屏2024-06-30 下午12.32.33.png

2 创新点

  1. 综合性调查:提供了对机器遗忘(MU)领域的综合性调查,尤其集中在MU系统中的安全威胁、攻击手段和防御策略上。
  2. 新的分类法:基于对现有研究的分析,提出了一个新的威胁、攻击和防御的分类法,这有助于更好地理解MU系统中的复杂关系和相互作用。
  3. 统一工作流程:提出了一个统一的机器遗忘工作流程,这有助于标准化MU系统的分析和讨论。
  4. 深入分析:对MU系统中的威胁、攻击和防御进行了深入的分析,包括信息泄露、恶意遗忘请求、以及其他潜在的漏洞,提供了对这些威胁的详细讨论和相应的防御策略。
  5. 防御机制的探讨:不仅讨论了如何防御攻击,还探讨了遗忘本身如何作为一种防御机制,例如通过遗忘来恢复被后门攻击影响的模型,以及实现与人类价值观和伦理标准一致的价值对齐。
  6. 攻击作为评估工具:创新性地提出使用攻击手段来评估遗忘的有效性,例如通过隐私泄露审计、模型鲁棒性评估和遗忘证明来加深对遗忘系统的理解并提高其有效性。

3 相关研究

3.1 相关概念

(1)Machine Unlearning Systems(机器遗忘系统)

  • 系统结构:机器遗忘系统由服务器和多个参与者组成,服务器在系统中扮演关键角色,包括模型开发和基于输入提供服务。
  • 角色分类:参与者分为数据贡献者(提供训练数据)、请求用户(提交遗忘请求)和可访问用户(使用服务进行推断)。
  • 工作流程:机器遗忘系统的工作流程分为三个阶段:训练阶段(使用数据贡献者提供的数据训练ML模型)、遗忘阶段(服务器响应请求用户的遗忘请求,从模型知识库中移除特定数据点的影响)和后遗忘阶段(基于遗忘模型提供推断服务)。
  • MLaaS集成:在机器学习即服务(MLaaS)的背景下,服务器同时接收遗忘和推断请求,这增加了管理不同类型请求的复杂性。

(2)Threats, Attacks, and Defenses in MU Systems(机器遗忘系统中的威胁、攻击和防御)

  • 系统脆弱性:机器遗忘系统在各个阶段都存在脆弱性,受到攻击者的威胁。
  • 信息泄露:在训练阶段,数据贡献者恶意构造训练数据,为后续攻击做准备;在遗忘阶段,请求用户提交恶意遗忘请求;在后遗忘阶段,参与者利用对训练和遗忘模型的双重访问来揭露额外的信息泄露。
  • 攻击手段:基于上述威胁,攻击者可以执行各种攻击,例如数据投毒、利用模型推断服务来提取未遗忘数据的额外信息等。
  • 防御策略:探讨了针对机器遗忘系统攻击的潜在防御方法,如进行成员检查以确保请求遗忘的数据真实存在于训练数据集中,实施差分隐私来防止成员推断攻击,以及通过模型监控在遗忘阶段有效识别潜在问题。
  • 遗忘的双重角色:遗忘不仅可以作为从后门攻击中恢复模型的机制,而且后门攻击本身可以作为评估遗忘有效性的指标,揭示了这些元素在维护系统安全性和功能性方面的复杂相互作用。

3.2 机器遗忘中的威胁、攻击和防御的分类

截屏2024-06-30 下午1.39.45.png
(1)威胁(Threats):指的是危害机器遗忘系统的安全和隐私的潜在风险。这些威胁源自系统内部的脆弱性或外部的恶意行为。威胁包括信息泄露(Information Leakage)和恶意遗忘(Malicious Unlearning)。

  • 信息泄露(Information Leakage):未遗忘模型和遗忘模型之间的差异被用来推断敏感信息。
    • 模型差异导致的泄露(Leakage from Model Discrepancy): 这种方式的信息泄露来自于训练模型和被遗忘模型之间的差异。攻击者可以利用这些差异来获取关于被遗忘数据的额外信息。具体手段可能包括:
      • 成员资格推断攻击(Membership Inference Attacks):攻击者尝试确定特定的数据点是否属于被遗忘的数据,通过分析模型对数据点的响应差异。
      • 数据重建攻击(Data Reconstruction Attacks):攻击者尝试根据模型的输出重建被遗忘的数据点。
      • 恶意请求(Malicious Requests):恶意用户提交请求以破坏模型的安全性或性能。
    • 知识依赖性导致的泄露(Leakage from Knowledge Dependency): 这种方式的信息泄露来自于模型与外部知识源之间的自然关系。这可能包括:
      • 自适应请求(Adaptive Requests):连续的遗忘请求可能揭示关于其他数据点的信息,攻击者可以通过一系列请求来收集足够的知识,以确定特定数据的成员资格。
      • 缓存的计算(Cached Computations):遗忘算法可能缓存部分计算以加快处理速度,这可能无意中泄露了跨多个版本中本应被删除的数据的信息。
  • 恶意遗忘(Malicious Unlearning)
    • 直接遗忘攻击(Direct Unlearning Attacks): 这类攻击仅在遗忘阶段发生,不需要在训练阶段操纵训练数据。攻击者可能利用模型的推断服务来获取关于训练模型的知识,并使用对抗性扰动等方法来制定恶意遗忘请求。直接遗忘攻击可以是无目标的,旨在降低模型在遗忘后的整体性能,也可以是有目标的,目的是使遗忘模型对具有预定义特征的目标输入进行错误分类。
    • 预条件遗忘攻击(Preconditioned Unlearning Attacks): 与直接遗忘攻击不同,预条件遗忘攻击采取更策略性的方法,在训练阶段操纵训练数据。这些攻击通常设计为执行更复杂和隐蔽的有目标攻击。预条件遗忘攻击通常通过以下步骤执行:
      • 攻击者在干净数据集中插入有毒数据(Poisoned Data)和缓解数据(Mitigation Data),形成一个训练数据集。
      • 服务器基于这个数据集训练机器学习模型并返回模型。
      • 攻击者提交请求以遗忘缓解数据。
      • 服务器执行遗忘过程并返回一个遗忘模型,该模型实际上对应于仅在有毒数据和干净数据上训练的模型。通过这种方式,遗忘过程中移除缓解数据后,模型就会对训练阶段插入的有毒数据变得脆弱。
  • 其他漏洞(Other Vulnerabilities)
    • “减速攻击”:一种旨在减慢遗忘过程的投毒攻击,通过策略性地在训练数据中制作有毒数据,最小化通过近似更新处理的遗忘请求的间隔或数量。
    • 公平性影响:讨论了遗忘算法本身可能在特定领域应用中引入的副作用,例如在大型语言模型中影响公平性。

(2)攻击(Attacks):基于上述威胁,攻击者执行的具体行动。这些攻击发生在机器遗忘的任何阶段,包括:

  • 训练阶段攻击(Training Phase Attacks):如数据投毒,攻击者在训练数据中注入恶意数据。
  • 遗忘阶段攻击(Unlearning Phase Attacks):如提交设计精巧的请求以移除对模型性能至关重要的数据点。
  • 后遗忘阶段攻击(Post-Unlearning Phase Attacks):利用对模型的双重访问来提取额外信息或发起更复杂的攻击。

(3)防御(Defenses):为了保护机器遗忘系统免受威胁和攻击,研究者和实践者开发了多种防御机制。这些防御包括:

  • 预遗忘阶段(Pre-unlearning Stage):在遗忘过程开始之前检测恶意请求或制定遗忘规则。
  • 遗忘阶段(In-unlearning Stage):监控模型变化,如果检测到异常则停止遗忘过程。
  • 后遗忘阶段(Post-unlearning Stage):保护遗忘后模型的信息泄露,或恢复模型到攻击前的状态。

3.3 威胁模型

(1)攻击角色(Attack Roles)
数据贡献者 (R1):负责提供构建训练数据集的个体。
请求用户 (R2):有能力提交遗忘请求的个体。
可访问用户 (R3):能够使用模型服务进行推断的个体。攻击者在遗忘系统中可能承担多种攻击角色,例如请求用户通常也有权访问模型服务进行推断。
(2)攻击目标(Attack Goals)
无目标攻击 (G1):意图使遗忘模型产生错误预测,而不针对特定结果。
有目标攻击 (G2):旨在诱导遗忘模型产生错误预测或以特定预定方式行为。
隐私泄露 (G3):试图提取关于请求遗忘的额外信息。
其他 (G4):可能包括增加遗忘过程的计算成本、影响遗忘模型的公平性和效用等。
(3)对抗性知识(Adversarial Knowledge)
白盒 (K1):攻击者对模型架构、参数、训练和遗忘算法以及数据有全面了解。
灰盒 (K2):攻击者可以访问模型架构、参数、训练和遗忘算法或数据的部分元素,但并非全部。
黑盒 (K3):攻击者对模型一无所知,包括其架构和参数,无法访问或修改模型的训练过程。
(4)攻击阶段(Attack Phases)
训练阶段 (P1):作为数据贡献者的攻击者可能在训练阶段操纵或构造训练数据集,为后续阶段的攻击做准备。
遗忘阶段 (P2):攻击者可能提交恶意的遗忘请求来发起攻击,这些请求可能或可能不基于训练阶段的准备。
后遗忘阶段 (P3):攻击者可能利用遗忘模型以及在前几个阶段获得的信息发起攻击。

3.4 通过机器遗忘来加强防御机制

(1)模型恢复(Model Recovery)
模型恢复是指在检测到数据投毒攻击后,从受损的机器学习模型中恢复一个准确的模型的过程。机器遗忘在这一过程中扮演了关键角色,它允许针对性地移除被识别出的有毒数据:

  • 后门移除:通过反转触发器来重新训练受感染的机器学习模型,或者通过梯度上升法来识别触发模式并执行遗忘。
  • 模型剪枝:在执行遗忘之前先对模型进行剪枝,以简化模型并可能提高恢复过程的效率。
  • 基于访问受限数据的恢复:即使只有有限的访问权限,也可以通过遗忘来恢复模型,这在实际应用中可能非常有用。

(2)价值对齐(Value Alignment)
价值对齐强调了将机器学习模型与人类价值观和伦理标准对齐的重要性,以确保AI系统的安全性和合规性:

  • 属性遗忘:用于删除推荐系统中的敏感属性,以符合隐私合规性。
  • 大型语言模型中的不当行为移除:使用相应的检测方法和遗忘技术来删除不当或非法的内容,包括质量差、受版权保护或有害的内容。
  • 识别有害内容的数据集:通过遗忘每个数据集并评估遗忘后模型生成有害内容的影响,来识别对生成有害内容最有影响的训练数据集。

3.5 通过攻击手段来评估机器遗忘系统的有效性

(1)隐私泄露审计(Audit of Privacy Leakage)

  • 目的:评估机器遗忘系统在遗忘过程中可能产生的隐私泄露。
  • 方法:使用攻击手段,如推断攻击,来检测训练模型和遗忘模型之间的差异,或利用系统内部的漏洞来提取信息。
  • 指标:采用诸如区域下曲线(AUC)和攻击成功率(ASR)等指标来量化隐私攻击的有效性,从而指示隐私泄露的程度。

(2)模型鲁棒性评估(Assessment of Model Robustness)

  • 目的:通过恶意遗忘评估遗忘模型的鲁棒性,类似于对抗性攻击中使用的原则。
  • 方法:提交被扰动的数据点进行遗忘,以改变分类器的决策边界,从而评估模型对边界附近数据点的敏感性和对挑战模型预测能力的点的影响。
  • 技术:例如,在大型语言模型(LLMs)中,攻击者可能插入对抗性嵌入到提示的嵌入中,以提取模型中本应被遗忘的知识。

(3)遗忘证明(Proof of Unlearning)

  • 目的:使用攻击手段来证明遗忘过程的有效性,即验证数据是否已被有效地从模型中移除。
  • 方法:如果遗忘后的数据在模型中没有显示出成员资格,或者遗忘数据中的后门无法被检测到,则可以认为遗忘数据已以高概率从模型中有效移除。
  • 应用:研究中使用了标准的推断攻击和后门攻击的变体,或其他对抗性攻击来检测遗忘程序的不足。

3.6 机器遗忘领域当前面临的挑战

(1)对抗恶意遗忘的防御( Defenses against Malicious Unlearning)

  • 挑战:恶意遗忘请求可能对遗忘模型产生负面影响,包括降低模型性能或引入后门。
  • 检测困难:直接恶意遗忘请求较易检测,但预条件恶意遗忘请求由于其数据实际属于训练数据集,因此难以识别。
  • 未来方向:需要开发更强大的检测机制,以识别这些微妙且复杂的遗忘请求,保护机器遗忘系统的完整性。

(2)联邦遗忘(Federated Unlearning)

  • 挑战:联邦学习的特性给机器遗忘带来了特定挑战,如通过聚合实现的知识扩散和为保护用户数据隐私而进行的数据隔离。
  • 研究空白:联邦遗忘中的分布式攻击可能特别隐蔽且难以检测,这一领域目前研究较少,存在明显缺口。
  • 未来方向:研究如何在不违反联邦学习隐私原则的前提下,开发符合RTBF合规要求的遗忘机制。

(3)隐私保护(Privacy Preservation)

  • 挑战:现有机器遗忘系统假设待删除的数据对负责遗忘过程的服务器是可访问的,但在MLaaS环境中,模型开发者和服务提供商可能是不同的实体,这引发了隐私保护的问题。
  • 技术应用:可以使用同态加密、安全多方计算或差分隐私等隐私增强技术(PETs)来促进隐私保护的机器学习。
  • 未来方向:探索这些技术在机器遗忘中的权衡,特别是隐私保护、遗忘效率和模型性能之间的折衷。

(4)大型模型的遗忘(Unlearning over Large Models)

  • 挑战:在大型模型上进行遗忘的研究面临效率低下、验证遗忘效果困难、大型模型的非解释性等问题。
  • 研究需求:需要针对大型模型遗忘系统特有的威胁、攻击和防御进行更深入的研究。
  • 未来方向:开发创新解决方案以提高大型模型遗忘的效率,并探索有效的遗忘验证方法。

4 思考

(1)遗忘方法、攻击和防御策略之间的关系是什么?

  • 遗忘方法作为恢复机制:遗忘方法可以用于从后门攻击中恢复模型。通过有效地从模型中移除特定数据点,可以减少后门攻击的影响。
  • 攻击作为评估指标:后门攻击和其他攻击手段可以作为评估遗忘方法有效性的指标。通过观察攻击在遗忘过程中的效果,可以评估遗忘方法的健壮性。
  • 攻击对遗忘方法的挑战:恶意请求和信息泄露攻击对遗忘方法提出了挑战,要求遗忘方法不仅要有效地删除数据,还要抵御可能的攻击,确保数据的安全性和隐私性。
  • 防御策略与遗忘方法的结合:防御策略可以与遗忘方法结合使用,以提高系统的安全性。例如,通过实施差分隐私或模型监控,可以在执行遗忘操作时保护模型不受攻击。
  • 防御策略对攻击的缓解:防御策略如成员检查、数据扰动和访问控制等,旨在减轻由攻击引起的风险,包括恶意非学习和信息泄露。
  • 攻击对防御策略的适应:攻击者可能会适应现有的防御策略,开发新的攻击手段来绕过或破坏防御。这要求防御策略不断更新以应对新的威胁。
  • 遗忘方法的双重角色:遗忘方法既可以作为攻击者的工具,也可以作为防御者的手段。攻击者可能利用遗忘来破坏模型的完整性,而防御者可以使用遗忘来净化模型,消除不良影响。
  • 评估工具的反馈循环:使用攻击作为评估工具可以提供对遗忘方法的反馈,帮助改进和加强防御策略,形成一个动态的反馈循环。

截屏2024-06-30 下午3.58.57.png

graph TD
    A[遗忘方法] -->|用于恢复| B(模型恢复)
    A -->|评估指标| C(攻击评估)
    A -->|面临挑战| D(恶意请求)
    A -->|结合使用| E(防御策略结合)
    A -->|双重角色| F(攻击者工具/防御者手段)

    G[攻击] -->|评估遗忘| A
    G -->|适应防御| H(防御策略的适应)
    G -->|破坏模型| I[系统完整性]

    J[防御策略] -->|减轻风险| D
    J -->|更新应对| H
    J -->|保护模型| I

    K[评估工具] -->|提供反馈| A
    K -->|评估效果| C
    K -->|检测攻击| H

截屏2024-06-30 下午3.57.11.png

graph TD
    A[遗忘方法] -->|用于恢复| B(模型恢复)
    A -->|评估指标| C(攻击评估)
    A -->|防御结合| D[防御策略]
    
    D -->|抵御| E[攻击]
    E -->|适应| D
    
    E -->|挑战遗忘| A
    A -->|反馈| C
    C -->|改进| D
### Win10 蓝屏 无法进入 安全模式 的解决方案 对于遇到Win10蓝屏并无法进入安全模式的问题,可以采取一系列措施来排查和解决问题。 #### 尝试最后一次正常配置启动 如果系统之前运行良好,在出现问题前有特定的操作或安装了新软件/硬件,则可以通过以下方式尝试恢复: 1. 启动电脑时不断按`F8`键(部分机器可能为其他功能键),直到看到高级启动选项菜单; 2. 使用方向键选择“上次良好的已知配置(Last Known Good Configuration)”项[^1]; 此方法旨在让操作系统回滚到最近一次稳定状态下的设置参数,从而避开可能导致当前故障的因素影响。 #### 利用PE环境修复引导记录 当常规手段均告失败后,可借助Windows PE(预安装环境)来进行更深入的修理工作。具体做法如下: - 准备一张含有Windows RE (Recovery Environment) 功能的U盘或其他介质; - 插入上述准备好的启动盘至目标主机内,并调整BIOS优先级使之能从此设备读取加载; - 进入命令提示符(Command Prompt),输入指令 `bootrec /fixmbr`, `bootrec /fixboot`, `bootrec /scanos`, 和 `bootrec /rebuildbcd` 来重建主引导记录(MBR)[^4]; 这些命令有助于修正损坏或者丢失的关键启动文件,使得后续能够顺利访问操作系统本身及其内置维修工具集。 #### 执行自动修复过程 利用Windows Recovery Environment中的自动化修复特性也可能有效处理某些类型的启动问题: - 如前述一样通过外部媒介引导进入WinRE界面; - 寻找并点击【疑难解答】> 【高级选项】 > 【启动修复】按钮执行检测与自我纠正流程; 该程序会扫描整个磁盘寻找潜在引起崩溃的原因所在,并试图对其进行必要的校正动作. #### 检测硬件健康状况特别是内存条质量 鉴于有时蓝屏现象是由物理层面而非纯逻辑方面所引发,因此有必要对内部组件做一番细致检查: - 断电状态下打开机箱取出各根RAM插槽上的模块逐一测试其性能表现是否存在问题; - 或者直接运用微软官方提供的在线服务——Windows Memory Diagnostic 工具完成这项任务[^3]; 一旦发现异常情况则应及时更换有问题部件以免造成更大范围损害。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Better Bench

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值