「 [AdvGAN]Generating Adversarial Examples with Adversarial Networks论文精读」2023年9月22日

这知识什么时候进脑子啊

已于 2023-09-22 11:08:50 修改

阅读量667

点赞数

文章标签：笔记

于 2023-09-22 11:03:01 首次发布

本文链接：https://blog.csdn.net/zmljh/article/details/130915436

版权

本文提出AdvGAN，一种利用生成对抗网络生成对抗性示例的技术，能够在半白盒和黑盒攻击中表现出高攻击成功率。AdvGAN通过训练提取模型攻击黑盒模型，且对抗性示例具有高感知质量，对现有防御具有挑战性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

该网络可以学习和近似原始实例的分布

半白盒攻击：传统的白盒攻击，如FGSM和优化方法，我们需要始终拥有对模型架构和参数的白盒访问权限，但是在AdvGAN中一旦训练了前馈网络，它就可以立即对任何输入实例产生对抗性扰动，而无需再访问模型本身。我们将这种攻击设置命名为半白盒

1.我们训练条件对抗性网络来直接生成对抗性示例

2.我们证明了AdvGAN可以通过训练提取的模型来攻击黑盒模型

3.我们建议用查询信息动态训练提取的模型

我们应用深度神经网络作为鉴别器来帮助将实例与其他真实图像区分开来，以提高生成的对抗性实例的感知质量。

黑盒攻击：以前的黑盒攻击策略基于可转移性现象，对手可以首先训练局部模型，并针对其生成对抗性示例，希望相同的对抗性示例也能够攻击其他模型。相反，我们证明了所提出的AdvGAN可以在不依赖于可转移性的情况下执行黑盒攻击。

我们采用和条件GAN类似的对抗性损失和图像对图像网络架构来学习从原始图像到扰动输出的映射，使得扰动图像无法与原始类中的真实图像区分开来。与之前的工作不同，我们的目标是产生不仅在视觉上逼真，而且能够误导目标学习模型的输出结果。

AdvGAN框架：

框架中主要有成器G、鉴别器D和目标神经网络f。这里，生成器G以原始实例x为输入，生成扰动G（x）。然后x+G（x）将被发送到鉴别器D，鉴别器用于区分生成的数据和原始实例x。D的目标是鼓励生成的实例与其原始类的数据不可区分。

本文白盒攻击：为了实现欺骗学习模型的目标，我们首先执行白盒攻击，在这种情况下，目标模型是f。f取x+G（x）作为其输入并输出其损耗Ladv，其表示预测与目标类别t之间的距离（目标攻击）或预测与真实类别之间的距离的相反（非目标攻击）。

对抗性损失

这里，鉴别器D旨在将扰动数据x+G（x）与原始数据x区分开来。

在有针对性攻击中欺骗目标模型f的损失

其中，t是目标类别，Lf表示用于训练原始模型f的损失函数（例如，交叉熵损失）。Lf-adv损失促使扰动图像被错误地分类为目标类别t。这里，我们也可以通过最大化预测和真实示例之间的距离来执行非目标攻击

铰链损失

其中c表示用户指定的约束，铰链损失目的是使x和x+G（x）尽可能接近

总损失

其中LGAN用于鼓励扰动数据x+G（x）看起来与原始数据x相似，而Lf-adv用于生成对抗性示例，即让f（x+G（x））和f（t）越来越接近，从而优化高攻击成功率。我们通过求解minmax对策arg minG maxD L得到我们的G和D

知识蒸馏knowledge Distillation，简称KD，顾名思义，就是将已经训练好的模型包含的知识(Knowledge)，蒸馏(Distill)提取到另一个模型里面去。简单来说，有一个Teacher网络（已经训练好的，可能参数量非常大但性能非常好，如预训练模型），还有一个Student网络（还没训练好，参数量较小，性能不佳）。此时，可以通过用Teacher网络去指导Student网络训练。

本文黑盒攻击：

静态蒸馏：对于黑盒攻击，我们假设对手事先不知道训练数据或模型本身。在我们第4节中的实验中，我们随机抽取与黑盒模型的训练数据不相交的数据进行提取，因为我们假设对手对训练数据或模型没有先验知识。

为了实现黑盒攻击，我们首先基于黑盒模型b的输出构建了一个提取的网络f。一旦我们获得了提取的网络f，我们就执行与白盒设置中描述的相同的攻击策略。

在这里，我们最小化以下网络蒸馏目标：

其中，f（x）和b（x）分别表示给定训练图像x的提取模型和黑盒模型的输出，H表示常用的交叉熵损失。通过在所有训练图像上优化目标，我们可以获得一个行为非常接近黑盒模型b的模型f。然后，我们对提取的网络进行攻击。

请注意，训练替代模型f与训练鉴别器D不同，我们在训练D时只使用原始类的真实数据来鼓励生成的实例接近其原始类。这里我们使用所有类的数据来训练提取的模型f。

动态蒸馏：仅仅用所有原始训练数据训练提取的模型是不够的，因为不清楚黑盒和提取的模型在生成的对抗性示例上的表现有多接近（问题的提出），而这些生成的对抗示例以前从未出现在训练集中。在这里，我们提出了一种替代的最小化方法来动态地进行查询，并联合训练提取的模型f和我们的生成器G。

我们在每次迭代中执行以下两个步骤。在迭代i期间：

1.在给定固定网络fi−1的情况下更新Gi：

我们遵循白盒设置，并基于先前提取的模型fi−1训练生成器G和鉴别器D。（每一阶段都要重新更新G和D）我们将权重Gi初始化为Gi−1。

2.在给定固定生成器Gi的情况下更新fi：

首先，我们使用fi−1来初始化fi。然后，在给定从Gi生成的对抗性示例x+Gi（x）的情况下，提取的模型fi将基于针对黑盒模型的生成对抗性示例的一组新查询结果以及原始训练图像来更新。（这样就可以让黑盒模型和提取的模型在生成的对抗性示例上的表现更接近）

其中我们使用原始图像x和新生成的对抗性示例x+Gi（x）来更新f。

与其他白盒和黑盒攻击相比，AdvGAN具有几个优势，例如，关于计算效率，尽管AdvGAN需要额外的训练时间来训练生成器，但AdvGAN的执行速度比其他算法快得多，甚至包括高效的FGSM。

实施细则：

我们使用Johnson等人的生成器G的架构。（2016），我们的鉴别器D的架构类似于MNIST的模型C和CIFAR-10的ResNet-32。我们将Carlini和Wagner（2017c）中的损失应用为我们的损失：

其中t是目标类别，f表示半白盒设置中的目标网络和黑盒设置中提取的模型。我们为两个Opt都设置了置信度κ=0。我们使用Adam作为我们的求解器（Kingma&Ba，2014），批量大小为128，学习率为0.001。

对于GANs训练，我们使用LSGAN提出的最小二乘目标（Mao et al.，2016），因为它已被证明可以通过更稳定的训练产生更好的结果。

实验中使用的模型：

对于MNIST数据集，在我们所有的实验中，我们为三个模型生成了对抗性示例，其架构如下所示

对于CIFAR-10数据集，我们选择ResNet-32和Wide ResNet-34（He等人，2016；Zagoruyko和Komodakis，2016）进行实验

我们在表2中显示了原始MNIST和CIFAR-10测试数据的分类准确性（p）以及AdvGAN在不同模型上生成的对抗性示例的攻击成功率

不同模型对原始数据的准确性，以及AdvGAN在MNIST和CIFAR-10上针对不同模型生成的对抗性示例的攻击成功率。p：原始测试数据；w：半白盒攻击；b-D：采用动态蒸馏策略的黑盒攻击；b-S：采用静态蒸馏策略的黑盒攻击。

半白盒设置中的ADVGAN

我们还从相同的原始实例x生成对抗性示例，针对其他不同的类，如图2所示。在MNIST（a）-（c）上的半白盒设置中，我们可以看到，为不同模型生成的对抗性示例看起来接近基本事实/原始图像（位于矩阵的对角线上）。图2（d）-（f）显示了在黑盒设置中MNIST上生成的对抗性示例。AdvGAN生成的这些对抗性示例可以成功地欺骗黑盒模型，并被错误地分类为顶部显示的目标类。原始图像显示在对角线上。

此外，我们还分析了MNIST上基于不同损失函数的攻击成功率。在相同的有界扰动（0.3）下，如果我们将上述全损失函数：

替换为L=||G（x）||2 + Lf adv ，与Baluja&Fischer（2017）中使用的目标类似，攻击成功率变为86.2%。如果用：

则攻击成功率为91.1%，而AdvGAN的攻击成功率是98.3%

类似地，在CIFAR-10上，我们对基于AdvGAN的ResNet和Wide ResNet应用了相同的半白盒攻击，图3（a）显示了一些对抗性示例，这些示例在感知上是真实的。我们展示了针对不同其他类的同一原始实例的对抗性示例。很明显，对于不同的目标，与对角线上的原始实例相比，对抗性实例保持相似的视觉质量。

图3：AdvGAN在CIFAR-10上生成的（a）半白盒攻击和（b）黑盒攻击的对抗性示例。来自每个类的图像被干扰到其他不同的类。在对角线上，显示原始图像。相应的扰动（放大10×）如（c）和（d）所示。

我们还应用AdvGAN在ImageNet上生成对抗性示例，如图4所示，L∞界为8。当所有对抗性实例都被错误地分类到具有高置信度的其他目标类中时，添加的扰动是不明显的。

图4：AdvGAN在ImageNet上以半白盒设置生成的对抗性示例（a），从左到右分为贵宾犬、救护车、篮球和电吉他。相应的扰动在（b）中可见

黑盒设置中的ADVGAN

我们的黑盒攻击是基于动态蒸馏策略的。我们构造了一个局部模型来提取模型f，并选择模型C的体系结构作为我们的局部模型。

我们从AdvGAN的训练数据中随机选择一个不相交的实例子集来训练局部模型；也就是说，我们假设对手对训练数据或模型本身没有任何先验知识。

使用动态蒸馏策略，AdvGAN生成的对抗性示例实现了攻击成功率，MNIST和CIFAR-10分别超过90%和80%，而静态蒸馏方法分别为30%和10%，如表2所示。

防御下的攻击性能：

鉴于AdvGAN努力从底层真实数据分布中生成对抗性实例，与其他攻击策略相比，它本质上可以产生更逼真的对抗性扰动。因此，AdvGAN可能有更高的机会生成在不同防御方法下具有弹性的对抗性示例。在本节中，与其他攻击策略相比，我们对AdvGAN的这一特性进行了定量评估。

威胁模型：当前大多数防御策略在攻击它们时都不鲁棒

在这里，我们考虑一个较弱的威胁模型，即对手没有意识到要攻击的模型存在防御，并直接试图攻击原始学习模型。（我们就是对手，因为我们要训练出攻击模型，我们训练出的攻击模型就是威胁模型）在这种情况下，如果对手仍然可以成功地攻击模型，这意味着攻击策略的鲁棒性。

在这种设置下，基于原始模型，我们首先应用不同的攻击方法来生成对抗性示例，并且没有意识到任何防御。然后，我们应用不同的防御来直接防御这些对抗性实例。

半白盒攻击：我们考虑半白盒攻击设置，其中对手可以访问模型架构和参数。在这里，我们将图1中的f分别替换为我们的模型A、B和C。因此，将针对不同的模型生成对抗性示例。

我们使用三种对抗性训练防御来为每个模型架构训练不同的模型：标准FGSM对抗性训练（Adv.）（Goodfellow et al.，2015）、集成对抗性培训（ensemble）（Tramèr et al.，2017b）和迭代训练（Iter.Adv.5）（M˛adry et al.，2017 a）。我们评估了这些攻击对这些防御模型的有效性。

在表3中，我们发现AdvGAN在不同模型上生成的对抗性示例的攻击成功率高于快速梯度符号法（FGSM）和优化方法（Opt.）（Carlini&Wagner，2017a）。

表3：AdvGAN在半白盒设置中生成的对抗性示例的攻击成功率，以及MNIST和CIFAR-10上防御下的其他白盒攻击。

黑盒攻击：对于AdvGAN，我们使用模型B作为黑盒模型，并训练一个提取模型来对模型B进行黑盒攻击，并在表4中报告攻击成功率。

为了进行黑盒攻击的比较，将基于可转移性的攻击应用于FGSM和基于优化的方法（Opt.）。具体的我们使用FGSM和优化的方法在MNIST上攻击模型A，并使用这些对抗性示例。我们可以看到，与其他攻击方法相比，黑盒AdvGAN生成的对抗性示例始终获得更高的攻击成功率。

对于CIFAR-10，我们使用ResNet作为黑盒模型，并训练一个提取模型来对ResNet进行黑盒攻击。

为了评估优化方法和FGSM的黑匣子攻击，我们使用攻击Wide ResNet生成的对抗性示例，并在ResNet上进行测试，以报告这两种方法的黑匣子袭击结果。

表4：MNIST和CIFAR-10防御下不同黑匣子对抗策略生成的对抗性示例的攻击成功率

对抗性扰动分析：

为了更好地理解对抗性扰动模式，我们在图3（c）和（d）中为CIFAR-10和图4（b）中的ImageNet绘制了相应的扰动（放大了10倍）。

从扰动的可视化来看，它表明扰动与原始图像或目标类的任何特定情况都不相似。尽管训练AdvGAN将其暴露在现实的实例中，但它生成的扰动并不是简单地向目标类的示例插值。

高分辨率对抗性实例分析：

为了评估AdvGAN生成高分辨率对抗性示例的能力，我们为Inception_v3生成高分辨率的对抗性示例，并量化它们的攻击成功率和感知真实性。

实验设置：在下面的实验中，我们选择玩具贵宾犬作为所有图像的目标标签。我们从NIPS 2017的DEV集合中选择了100张良性图像。

这次比赛提供了一个与ImageNet兼容的数据集。对于输入大小为299×299的Inception_v3模型，我们在0.01的L∞扰动界（像素值在∈[0，1]的范围内）下生成对抗性示例（299×299像素）。

人类感知研究：我们通过对Amazon Mechanical Turk（AMT）的用户研究验证了AdvGAN对抗性示例的真实性。我们使用100对原始图像和对抗性示例（如上所述生成），并要求工人选择一对图像中的哪一个更具视觉真实性。

我们的研究遵循了张等人（2016）和Isola等人（2017）的协议，其中向工人展示一对图像2秒，然后工人有无限的时间选择。我们限制每个工人最多完成20项这样的任务。我们从AMT上的50名员工那里收集了500个选择，每对图片约5个。

在49.4%±1.96%的任务中，AdvGAN示例被选择为比原始图像更逼真（随机猜测将导致约50%）。这一结果表明，这些高分辨率AdvGAN对抗性示例与良性图像一样逼真。

结论：

在本文中，我们提出了AdvGAN来使用生成对抗性网络（GANs）生成对抗性示例。在我们的AdvGAN框架中，一旦经过训练，前馈生成器就可以有效地产生对抗性扰动。它还可以执行半白盒和黑盒攻击，攻击成功率很高。

此外，当我们在不了解现有防御的情况下应用AdvGAN在不同模型上生成对抗性实例时，生成的对抗性实例可以以比竞争方法生成的实例更高的攻击成功率攻击最先进的防御。这一特性使AdvGAN成为改进对抗性训练防御方法的一个很有前途的候选者。

AdvGAN生成的对抗性示例由于GAN的分布近似特性而保持了高感知质量。