《Backdoor Learning: A Survey》阅读笔记

Backdoor Learning: A Survey

后门攻击的实例

在这里插入图片描述

Definition of technical terms

Poisoning-based backdoor attacks

A.A unified Frameword of Poisoning-based attack

B.Attacks for Image and Video Recognition

1)BadNets将恶意功能编码进模型的参数中
2)Invisiable Backdoor Attacks(进一步扩展出clean-label invisible attacks)
3)Attacked with optimized Trigger
4)Physical Backdoor Attacks
5)Black-box backdoor attacks
6)Semantic Backdoor Attacks

C.Attacks for Other Tasks or Paradigms

D.Backdoor attack for good

Non-poisoning-based backdoor attacks

这些方法并不是通过在训练阶段使用中毒样本来优化模型参数直接注入后门。

A.Targeted weight perturbation定向权重扰动

直接修改模型参数

B.Targeted Bit trojan定向比特木马

比如直接通过比特翻转来实现

C.TrojanNet

直接编码一个后门在DNN中,会被秘密权重置换来激活

D.Attack with trojan module

直接在模型中插入一个训练好的恶意木马模块,比如sub-DNN

Backdoor Defense

目前的攻击可以分为2类,基于经验的后门防御和基于认证的后门防御(empirical backdoor defense and certified backdoor defenses)
基于经验的后门防御,基于对已知攻击手段的理解,在实际中效果相当好,尽管其有效性没有理论保证。与此相对,基于认证的后门防御在一定假设下有理论保证,但是在实际中的防御效果较弱。目前来看,基于认证的后门防御都是基于随机平滑random smoothing,而基于经验的防御方法则多种多样。

A基于经验的防御

从直觉上来看,这种防御手段相当于使用对应的钥匙打开一扇门。
在这里插入图片描述

后门攻击要满足三个条件:
1.模型中有隐藏的后门;2.样本中有trigger;3.trigger和后门是匹配的;那么相应的,就有三种防御手段。1.让trigger和backdoor不匹配;2.消除backdoor;3.消除trigger
具体来说:

1.基于预处理的防御

在推理过程前引入预处理模块,用于改变攻击样本中的trigger的模式,从而使其与backdoor不匹配;

2.基于模型重构的防御

旨在在受感染的模型中移除后门。移除后,即使trigger还在,预测结果仍然是非恶意的

3.基于trigger合成的防御

首先合成trigger,然后通过抑制trigger的影响来消除后门。这种方式和模型重构的防御很像,剪枝和重训练是它们移除后门的两种手段。但是这种防御手段获得的trigger信息对移除后门更有效

4.基于模型诊断的防御

通过训练元分类器(meta classifier)来判断提供的模型是否受感染,并且拒绝部署受感染的模型。

5.基于中毒抑制的防御(poison suppression)

抑制在训练过程中中毒样本的有效性,以阻止生成后门

6.基于训练样本过滤的防御

旨在识别良心样本和中毒样本,只有良性样本才被用于训练。

7.基于测试样本过滤的防御

首先区分正常样本和trigger样本,只接受正常样本的输入

B基于认证的防御

随机平滑技术最初是用来测试对抗样本的鲁棒性。平滑函数从基函数构造出来,通过添加随机噪声来测试一定条件下分类器的鲁棒性

Benchmark datasets

在这里插入图片描述

展望未来的方向:

1.Trigger Design

基于数据投毒攻击的后门攻击的效率与trigger的模式有密切联系。现在现在的trigger设计都是启发式的,比如用通用的扰动方法进行设计,这种方法可能不是最优的。
另外,在设计trigger时只考虑到了有效性和不可见性,但是其他因素比如最小需要投毒的比率等因素还没有考虑进去。

2.Semantic and physical backdoor attacks

在实际场景下,语义和物理攻击对于AI系统来说是更加严重的威胁。

3.Attacks Towards Other Tasks

现在的后门攻击主要集中在计算机视觉领域,其他领域还没有被很好研究过。比如推荐系统、语音识别、自然语言处理等。但是trigger的设计因具体任务不同而不同,比如都是为了保持隐蔽性,但是保持句子中的trigger中的隐蔽性指的是语义上的,而保持CV的隐蔽性指的是视觉上的。

4.Effective and Efficient Defenses

大部分防御手段需要大量的算力。

5.Mechanism Exploration

后门生成机制和trigger的激活机制还是后门攻击领域的圣杯问题。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值