后门防御经典背景文献(综述)

总结:

  • 攻击者可以通过修改训练数据和模型参数来将后门嵌入到模型中。
  • 因此,大多数针对后门攻击的检测算法都是针对input samplesmodel parameters,通过恶意输入和良性输入在后门模型中的统计差异来进行区分。
  • 防御者对于攻击者生成的带触发器的输入往往是得不到的,所以一般场景下,都是围绕着model parameters去设计防御。

Fine-Pruning

Liu K, Dolan-Gavitt B, Garg S. Fine-pruning: Defending against backdooring attacks on deep neural networks[C]//International Symposium on Research in Attacks, Intrusions, and Defenses. Springer, Cham, 2018: 273-294.

  • 防御方法:Pruning Defense 因为后门数据所激活的神经元只受后门激活,而在干净数据下他们是休眠的。所以我们记录每个神经元的平均激活,然后,防守者以增加平均激活的顺序(从小到大)对DNN的神经元进行迭代修剪,并记录修剪后的准确性。 网络在每次迭代中。当验证数据集的准确性下降到预定阈值以下时,防御将终止。

  • 效果:剪枝防御对BadNets、Trojaning Attack的防御都成功了

  • 新的攻击方法:作者提出了一种更强大的攻击方法: “pruning-aware” attack

    1. 先用干净的训练集来训练模型
    2. 对训练好的模型进行减枝
    3. 用带有后门的训练集来训练减枝后的相同模型
    4. 将后门训练模型与干净训练模型结合,并且将第二部中去掉的神经元补充回来(这些神经元作为诱导神经元)
    5. 如果训练好的模型的判断精度很低或者没有后门功能的话则通过增加神经元的方法来加强他的功能
  • 新的防御方法:单纯的剪枝起到的效果不好,作者把Fine-tuning和剪枝结合在一起,提出了新的防御方法Fine-Pruning Defense

    1.对攻击者的模型进行修剪操作。(去除诱导神经元)

    2.修剪完毕之后用干净的输入来微调神经元上的权重。Fine-tuning(因为后门神经元与我们正常的神经元是重叠的,所以我们可以使用干净的输入来微调我们的神经元,使他们的权重发生改变,以此来控制我们后门控制的权重)

  • 缺点:它无法验证模型是否有后门

Neural Cleanse

Wang B, Yao Y, Shan S, et al. Neural cleanse: Identifying and mitigating backdoor attacks in neural networks[C]//2019 IEEE Symposium on Security and Privacy (SP). IEEE, 2019: 707-723.

  • 第一项能够检测中毒模型的工作
  • 两个功能:检测后门、缓解后门
  • 该文章比较经典,在7篇论文的精读笔记里,在这里不再阐述

ABS

Liu Y, Lee W C, Tao G, et al. ABS: Scanning neural networks for back-doors by artificial brain stimulation[C]//Proceedings of the 2019 ACM SIGSAC Conference on Computer and Communications Security. 2019: 1265-1282.

https://blog.csdn.net/qq_34206952/article/details/116102639

  • 一种对模型内部的神经元进行分析的检测手段

  • 对Neural Cleanse的四个缺点进行了论证:

    1. Neural Cleanse可能不能够对后门的触发器进行逆向
    2. Neural Cleanse需要大量的输入样本来实现高的性能
    3. Neural Cleanse对于较大的触发器可能会失效
    4. Neural Cleanse对于在特征空间上的攻击可能表现不佳(与像素空间不同)
  • 理论支撑:跟Neural Cleanse一样的观测,成功的后门攻击会产生“被危害的”神经元

  • 防御方法:使用大量样本激活网络中的某个神经元,如果输出使得90%以上的图片出错,把其标记为候选的有害神经元。然后,对每一个有害神经元进行逆向工程生成逆向工程触发器(这里定义了新的损失函数,使用梯度下降去优化,优化目标为,最大化该候选神经元激活值, 但最小化和其他神经元的激活值差异,最小化触发器的面积,同时最大化和原图的相似程度)。最后,根据逆向工程的触发器的攻击成功率,判断是否有后门。

  • 缺点:该方法主要基于“触发器会引发异常的激活值”这一假设,也是被后门的Bypassing Detection Backdoor的提出的更隐蔽的攻击方法打破了防御。

Mode Connectivity

Zhao P, Chen P Y, Das P, et al. Bridging mode connectivity in loss landscapes and adversarial robustness[J]. arXiv preprint arXiv:2005.00060, 2020.

approach:间接地将模式连接应用于检查后门行为,有效地减轻后门,同时在良性数据上保持可接受的模型性能

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wujiekd

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值