通过GAN清除神经网络后门!—— GangSweep: Sweep out Neural Backdoors by GAN

GangSweep: Sweep out Neural Backdoors by GAN

在这里插入图片描述

MM’20:Media Interpretation & Mobile Multimedia
论文链接


上接 neural cleanse。neural cleanse通过反向工程构建触发器,从而利用触发器的信息识别和去除后门。但是这种方式只适合于固定的简单的后门触发器,不能够适用于隐形后门、更加复杂的后门触发器。
因此本文提出了GangSweep。为什么不叫GANsweep?

主要贡献

首先:使用生成网络,通过重建目标类周围的流形,来利用神经网络的弱点。并暴露攻击者为后门攻击而插入的所有伪影。

然后:发现目标标签的触发器在特征空间中呈现出有趣的统计特征,它具有较低的移动方差和较大的移动距离。并开发了一系列有效的离群值检测机制,可以明显区分触发器和普通的对抗扰动。

最后:进行了大量的实验。防御不同的触发器,5个数据集,三种最先进的木马攻击。

本文的机制可以检测所有触发器的组合,而neural cleanse只能检测单一、小尺寸和不变的触发器。而在实际中的触发模式,往往可能是多个的,分散的,使得更加难以检测。
这是第一个成功利用GAN的多模态形式防御神经网络后门的工作,也是第一个能够检测更加复杂的隐藏触发器的检测方法。


GangSweep首先通过生成器学习潜在触发样本的分布,然后使用异常检测来判别后门模型,并且在不影响其性能的情况下修补模型。
在这里插入图片描述
分为三步

1、扰动mask的生成。设计了一个生成网络,能够为输入图像生成一个掩码,将它被错误分类到一个目标标签。对于每一个给定的模型假设其是后门的,并对每一个标签作为超参的目标标签来生成扰动。
2、恶意模型检测。取扰动掩膜的特征并使用一个离群值算法检测是否存在一个持久的通用的扰动掩膜导致模型错误分类。如果存在,认为这个模型是恶意的,掩膜用于恢复训练后的原始触发器。
3、后门缓解。利用恢复的触发器来删除后门而不影响干净数据上的性能。

扰动Mask生成

与对抗样本不同的是,对抗样本往往是将样本推离数据的流形,而后门样本是在训练过程中整合到模型的,因此目标类周围的流形是从触发图像中学习获得的。
本文使用GAN来学习模型的分布,完全恢复攻击者植入的后门。
设计了损失函数
在这里插入图片描述
以及对生成的扰动添加L2约束
在这里插入图片描述
从生成的扰动的模式来看,能够明显看出那个是触发样本。
在这里插入图片描述
将基于优化和基于GAN的掩膜生成进行对比。基于优化生成的掩膜会有许多随机的像素扰动。由于真实的数据依然在一个低维流形上(以及触发器),GAN通过对抗学习直接生成这些伪影。
在这里插入图片描述

从NC(Neural Cleanen)和GS(GangSweep)之间的损失表面对比,NC倾向于快速找到一个局部最优点,往往只能找到一个触发样本。但是GS更可能找到全局最优点。
在这里插入图片描述

后门模型检测

观察1:持久性。触发标签的扰动masks在后门模型中,对于不同的输入图像,具有持久性。

在这里插入图片描述

观察2:后门模型中的目标标签的扰动masks,在样本空间中具有低移动方差和大移动距离的特征。

简单来说,后门样本导致的输出向量,其模式更加单一。

后门缓解

使用一个新的数据集对模型进行微调。
新数据集包含一部分的验证数据和对抗数据。
对抗数据通过在干净的验证图像上添加掩膜,然后标记为正确的标签,然后进行训练。

实验设置

使用了五个数据集
MNIST,GTSRB,CIFAR10,VGG-FACE,Mini ImageNet。
使用了三个后门攻击方式
BadNets, TrojanNN, Hidden Trigger Backdoor
与SOTA检测模型Neural Cleanse (NC)进行对比。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值