《Bypassing Backdoor Detection Algorithms in Deep Learning》阅读总结

最新推荐文章于 2024-04-06 19:20:29 发布

Elwood Ying

最新推荐文章于 2024-04-06 19:20:29 发布

阅读量1.3k

点赞数

分类专栏： AI

本文链接：https://blog.csdn.net/yalecaltech/article/details/113395088

版权

AI 专栏收录该内容

67 篇文章 20 订阅

订阅专栏

Abstract:

攻击者可以通过修改训练数据和模型参数来将后门嵌入到模型中。大多数针对后门攻击的检测算法都是针对input samples和model parameters，通过恶意输入和良性输入在后门模型中的统计差异来进行区分。本文中，我们设计了一种对抗性后门嵌入算法，可以bypass已有的检测算法。我们设计了一种自适应的对抗训练算法来优化模型原始的损失函数，并最大化两种样本latent representation的不可区分度。

Introduction

在本文中，我们关注针对机器学习算法的主动攻击。
在此前的研究中已经提出了很多类型的backdoor trigger。比如对应Input space中特定输入的backdoor instance，或者是带有特定像素模式的的pixel-pattern的trigger，比如带有stamp的图像，以及包含特定的high-level特征的semantic trigger,比如带有特定形状或者颜色的object。下图所示就是一个带有trigger的例子。
在这里插入图片描述

大量的防御手段被提出，这些方法关注识别带有后门的输入，以及模型的哪一部分与激活对抗行为相关。给定一个对抗模型，检测算法会尝试识别出模型的隐层中的后门的signature，，以从输入中区分出后门trigger。这里我们需要注意，backdoor只是机器学习模型main task的一个exception。因此，为了通过main task学习adversarial task，学习算法需要尝试最小化两者间的conflict。这就是最先进的算法目前依赖的理论。这种算法计算input的latent representation的统计量的各种类型，来帮助防御者区分毒化样本和良性样本，这完全是基于他们的latent representation的分布的显著的非相似性。
这些防御手段都有一个相同的含蓄的假设，就是攻击者没有意识到检测算法是怎么工作的。这导致这些防御算法忽略了自适应的攻击算法。
本文设计了一种对抗性后门嵌入算法adversarial backdoor embedding，它会最大化毒化样本和良性样本之间的latent不可区分性.同时为了有效规避一般通用检测算法，我们通过对抗正则化adversarial regularization来最大化输入数据latent indistinguishability隐不可区分性。
在我们的威胁模型中，敌手可以利用训练算法。在我们的攻击中，我们依赖数据投毒和对抗正则化。我们构建了一个判别网络来对识别模型隐层中的良性样本和毒化样本之间的差异做优化。而分类模型的目标函数被对抗正则化到了最大化判别器的损失。因此，最终的模型不仅依赖于根据良性样本的label分类良性数据点，而且可以精确根据对抗label份额里对抗数据点，而且对于这两类数据点在latent representation上做到不可区分。这将会使得那些被攻击后的模型可以规避聚类和分隔两类输入的latent representation的检测算法。
作为baseline,对于在CIFAR-10数据集上训练的VGG模型，使用sepctral signature的dataset filtering defense数据过滤防御可以将后门攻击成功率降低到1.5%。但是使用我们的方法进行攻击的后门可以维持攻击成功率在97.3%。使用activation clustering的数据过滤方法也类似地可以将攻击成功率降低到1.9%，但是我们的方法可以维持在96.2%。特征剪枝可以有效选取要被剪枝的神经元，可以在完全移除模型中的后门后不影响其有效性。但是使用了我们的攻击方法，如果使用剪枝的防御措施，则模型的准确率会下降到20%，验证影响其性能。
所以可以说，目前已有的防御手段对于我们的攻击都是无效的。

2Prior Backdoor Detection Algorithm

深度学习模型的一个隐层可以作为input instance的模型的latent representation，该层中的神经元代表input instance的不同的high-level feature。
考虑不到尽管任何隐层都可以被作为input的latent representation，但是防御策略都会选择倒数第二层，因为它代表着模型提取出来的highest-level feature。
这些防御方法可以分类两类。第一类，给定一个被毒化的模型，使用两类样本的latent representation来决定该对那些神经元进行修剪，来从网络中移除backdoor rule；第二类使用latent representation来过滤训练数据集，来尽可能移除毒化样本，模型再在剩余的样本下重训练来得到一个没有后门行为的模型。

2.1Feature Pruning

基于可以找到最小化扰动以实现将所有输入误分类到定向类的优化函数，Wang设计了一个逆向工程的过程。这一过程被应用于任务中的额每一类，为每一类生成一个candidate backdoor trigger。然后，基于trigger应该是input instance上的小扰动的直觉，基于Median absolute deviation的离群点检测被用于检测异常的小扰动，被检测到的则很有可能是trigger。
接着提出了剪枝算法来利用得到的trigger来移除后门。
在这里插入图片描述

这种防御策略是假设模型的后门行为是通过代表后门特征的神经元的激活程度的重大改变来实现的。

2.2Dataset Filtering by Spectral Signatures

Tran提出了基于鲁棒统计的技术来从训练集中识别并移除投毒样本。
首先使用一个毒化训练集来训练一个网络，对于每一个特定的输出类label，所有与其对应的input instance都要输入，然后记录它们的latent representation。
然后对latent representation的协方差矩阵做奇异值分解，这是为了计算每个输入的离群值。有最高值的输入被标记为毒化样本，然后被从训练集中移除。

2.3Dataset Filtering by Activation Clustering

Chen提出了基于输入样本的latent representation的聚类的防御。对于所有的input instance，模型将其分类为特定的class label，记录下每个input的latent representation。然后使用独立主成分分析进行维度缩减来将记录下的latent representation缩小到10到15个特征，然后使用k-means聚类来讲转换后的数据分2类。这个聚类步骤假设的是当被投影到主成分上时，由于模型从其中提出了不同的特征，良性样本和毒化样本会被分为两类。

3.Adversarial Backdoor Embedding Attack

上面提到的防御会有效，是因为backdoor instance 和clean instance在latent representation上的分布差异显著。但是上述的防御措施没有考虑到攻击者可以最小化latent representation的差异来使得模型面对防御时更加鲁棒。我们引入了一个二重损失函数来训练我们的目标函数
在这里插入图片描述

第二项代表额外的惩罚项，它会惩罚模型，当网络激活面对两类输入显著不同时。这个惩罚项可以针对特定的防御措施做一定修改，也可以做成通用惩罚项来应对大多数防御。
通过这两个目标函数，尽管为了规避可能的防御措施而对input的latent representation做了一定的限制，但是攻击者还是可以实现模型的高分类准确率。

3.1Targeted Adversarial Embedding

我们以规避Wang提出的剪枝防御为例。
为了阻止backdoor neurons被选中剪枝，攻击者需要对后门神经元中的每个神经元最小化
在这里插入图片描述

我们注意到对于任何神经元n，对于任意0<k<1
在这里插入图片描述

因此，通过缩放带有足够小的k的神经元n的平均激活，我们可以让防御策略选择其他的神经元来剪枝。由此，我们构造了我们的双目标函数来缩放latent feature representation的激活。
在这里插入图片描述

3.2Adversarial Embedding

前面提出的目标函数并不通用于其他防御策略。

整体架构如上，给定input后会生成latent representation。在latent representation layer后的层组成了分类网络，用于从latent representation映射到类别概率分布。
我们还搭建了一个判别器网络D，其会将每个latent representation映射到一个二值分类结果，即该latent representation是来自clean还是backdoor input
我们然后为D引入一个损失函数到原始的目标函数中，得到
在这里插入图片描述

以及判别网络的目标函数
在这里插入图片描述

因此，我们网络的目标就是能够准确分类，并且同时提取出判别器不能区分是否为良性或毒化样本的latent representation。

4.Evaluation

4.1Setup

我们首先就是基本的对模型植入后门，然后应用提到的防御策略，然后使用我们的方法植入后门，再应用防御策略。

4.1.1Dataset

我们在2个图像分类数据集（CIFAR,GTSRB）上进行了评估，证明了我们的攻击在不同应用间是可迁移的。

4.1.2Models

我们在两个先进的深度卷积神经网络上进行了实验，分别是DenseNet-BC，’E’VGG

4.1.3Backdoors

我们注入了一个后门trigger，在右下角一个4*4的白色正方形，投毒了5%的训练集，，将其label设置为我们任意选择的label。通过这些毒化样本训练出带有后门的分类器，然后应用前面提到的防御技术进行防御。

4.2Results for targeted Embedding

Related Work

很多研究针对的是通过数据投毒进行后门注入（攻击者输入恶意构造的输入和标签样本到训练集中）.这些被毒化的输入通常都是被叠加上trigger的，并且他们的target label也被改了。研究表明攻击成功率要达到90%左右需要至少引入50个sample。另有研究表明，已经模型被用作其他用途，后门的效果仍能持续，这意味着被注入到模型中的恶意行为可以通过供应链的方式影响到下游的模型，及时下游模型的重训练retraining时使用的是干净的数据集。一些数据投毒的方法会尝试在毒化的图片上叠加可见的trigger，这会使得这些恶意的训练数据被人眼看见，但是这种方法有可能生成不需要修改label的看起来干净的数据。
不过不依赖攻击者对训练集访问的权限的攻击方法被被提出来了。在联邦学习的环境下，攻击者可以将权重更新广播给其他参与方。这种能力可以被利用广播那些会在模型接收到被注入后门的权重。有安全聚合（secure aggregation）能力的联邦学习容易受到这种攻击，因为权重更新是不会被察觉的。进一步来看，为了规避没有安全聚合的防御手段，攻击者者设计的生成权重更新的算法可以考虑异常检测技术。
针对后门攻击技术，提出了一些防御方法。Liu采用了一种类似神经元剪枝的技术，基于的前提是1.已知的良性样本的latent representation隐性表示，2.当输入为良性时，后门神经元是休眠状态。尽管通过这种方法训练出的模型有一定鲁棒性，但是Liu推荐将剪枝与微调fine-tuning结合起来来移除后门。一些防御策略关注的是模型的Input space而不是latent space，要么是依赖训练出一个可以检测异常输入的模型，要么是在喂给模型前移除输入的异常特征。
除了后门攻击外，还有一些对抗机器学习的研究，针对模型的input-output的非连续性映射，这种特点被利用来生成对抗样本。通过扰动图像的颜色空间color space，可以生产对抗图像，因此可以保留图像的平滑性，从而可以规避依赖生硬像素改变进行异常检测的方法。