DeepFool论文翻译---DeepFool: a simple and accurate method to fool deep neural networks

嗯~啥也不会

已于 2022-10-11 10:02:44 修改

阅读量935

点赞数

分类专栏：神经网络对抗攻击论文阅读文章标签：论文阅读

于 2022-10-11 09:58:45 首次发布

本文链接：https://blog.csdn.net/zyxzyxzyx2495310073/article/details/127245362

版权

神经网络对抗攻击论文阅读专栏收录该内容

9 篇文章 1 订阅

订阅专栏

摘要：

最先进的深度神经网络在许多图像分类任务中取得了令人印象深刻的结果。然而，这些相同的架构已经被证明对于较小的、广受欢迎的图像扰动是不稳定的。尽管这一现象很重要，但还没有提出有效的方法来准确计算最先进的深度分类器对大规模数据集上此类扰动的鲁棒性。本文中，我们填补了这一空白，并提出了DeepFool算法，以有效计算欺骗深度网络的扰动，从而可靠地量化这些分类器的鲁棒性。大量实验结果表明，我们的方法在计算对抗扰动和使分类器更健壮的任务上优于最近的方法。

1、介绍

深度神经网络是强大的学习模型，在许多研究领域实现了最先进的模式识别性能，如生物信息学[1，16]、语音[12，6]和计算机视觉[10，8]。尽管深度网络在分类任务中表现出了非常好的性能，但最近的研究表明，它们对数据的对抗扰动尤其不稳定[18]。事实上，数据样本的微小且通常难以察觉的扰动足以愚弄最先进的分类器，并导致不正确的分类。（例如，图1）。形式上，对于给定的分类器，我们将对抗扰动定义为足以改变估计标签的最小扰动：

其中是图像，是估计标签。我们称是分类器在点的鲁棒性。分类器的鲁棒性定义为

其中是对数据分布的期望。对抗扰动的研究有助于我们了解分类器使用的特征。这些例子的存在似乎与学习算法的泛化能力相矛盾。虽然深层网络在图像分类任务中实现了最先进的性能，但它们对小型对抗性扰动根本不可靠，并且往往会将视觉上与干净样本相似的最小扰动数据错误分类。尽管对抗攻击特定于分类器，但对抗扰动似乎可以在不同的模型中推广[18]。从安全角度来看，这实际上会成为一个真正的问题。

因此，为了研究和比较不同分类器对对抗扰动的鲁棒性，有必要使用一种精确的方法来发现对抗扰动。它可能是更好地理解当前架构的局限性和设计方法以提高鲁棒性的关键。尽管最先进的分类器对对抗不稳定性的脆弱性很重要，但还没有提出有根据的方法来计算对抗扰动，我们在本文中填补了这一空白。

我们的主要贡献如下：

• 我们提出了一种简单而精确的方法，用于计算和比较不同分类器对对抗扰动的鲁棒性。

• 我们进行了广泛的实验比较，结果表明：1）我们的方法比现有方法更可靠、更高效地计算对抗扰动；2）用对抗样本增加训练数据，显著提高了对抗扰动的鲁棒性。

• 我们表明，使用不精确的方法计算对抗扰动可能会导致关于鲁棒性的不同结论，有时会产生误导性的结论。因此，我们的方法可以更好地理解这种有趣的现象及其影响因素。

我们现在回顾一些相关的工作。对抗性不稳定性现象首次在[18]中介绍和研究。作者通过解决惩罚优化问题估计了对抗样本，并进行了分析，表明神经网络的高度复杂性可能是解释对抗样本存在的原因。不幸的是，[18]中使用的优化方法非常耗时，因此无法扩展到大型数据集。在[14]中，作者根据对Pascal3D+注释所做的实验表明，卷积网络对某些类型的变换不是不变的。最近，Tsai等人[19]提供了一种软件，可以将给定图像错误分类为特定类别，而不必找到最小的扰动。Nguyen等人[13] 生成合成的不可识别图像，这些图像以高置信度分类。[3]的作者还研究了寻找愚弄图像分类器的最小几何变换的相关问题，并提供了分类器对几何变换鲁棒性的定量度量。与我们的工作更接近的是，[4]的作者引入了“快速梯度符号”方法，该方法可以非常有效地计算给定分类器的对抗扰动。尽管效率很高，但该方法仅提供了最佳扰动向量的粗略近似。然后，为了构建更健壮的分类器来应对对抗扰动，[5]在训练过程中引入了平滑度惩罚，以提高分类器的健壮性。值得注意的是，[18]中的方法用于生成对抗扰动。最后，我们应该指出，对抗不稳定性现象也导致了[2]中的理论工作，研究了一些分类器家族的对抗扰动问题，并提供了这些分类器鲁棒性的上界。然而，需要对更复杂分类器的对抗不稳定性现象有更深入的理解；为了更好地理解这一现象，本文提出的方法可以被视为高效、准确地生成对抗扰动的基线。

论文的其余部分组织如下。在第二节中，我们介绍了一种在二进制分类器中发现对抗扰动的有效算法。第3节提供了对多类问题的扩展。在第4节中，我们提出了广泛的实验，以确认我们的方法的准确性，并概述了它在构建更健壮的分类器方面的好处。

2、用于二进制分类器的DeepFool

由于多类分类器可以看作是二进制分类器的聚合，我们首先提出了二进制分类器的算法。也就是说，我们在这里假设，其中是任意标量值图像分类函数。我们也用表示为的零点水平面集合。我们首先分析了仿射分类器的情况，然后导出了可应用于任何可微二进制分类器的通用算法。

在分类器是仿射的情况下，很容易看出在点的鲁棒性，等于从到分离仿射超平面的距离（图2）。改变分类器决策的最小扰动对应于到的正交投影。由闭式公式给出：

图2：线性二进制分类器的对抗样本。

假设是一个通用的二进制可微分类器，我们采用迭代过程来估计鲁棒性。具体来说，在每次迭代中，围绕当前点线性化，线性化分类器的最小扰动计算如下：

使用等式（3）中的闭式解计算算法迭代处的扰动，并更新下一个迭代。当改变分类器符号时，该算法停止。算法 1 总结了二进制分类器的 DeepFool 算法，图 3 显示了该方法的几何图解。

图3：的算法1图解。假设。绿色平面是

，与分类器函数相切（线框图形）。橙色线表示。通过将投影到的橙色超平面上，从获得。

在实践中，上述算法通常可以收敛到零水平集上的一个点。为了到达分类边界的另一侧，将最终扰动向量乘以常数，其中。在我们的实验中，我们使用。

3、用于多类分类器的DeepFool

现在，我们将 DeepFool 方法扩展到多类情况。多类分类器最常用的方案是一对所有。因此，我们也提出了基于这种分类方案的方法。在这个方案中，分类器有个输出，其中是类的数量。因此，分类器可以定义为并且分类通过以下映射完成：

其中是对应于第 K 类的的输出。与二进制情形类似，我们首先提出了线性情形的方法，然后将其推广到其他分类器。

3.1、仿射多类分类器

设是仿射分类器，即对于给定的和，。由于映射是一对所有分类方案的结果，因此可以将欺骗分类器的最小扰动重写为以下内容

其中是的第 K 列。从几何上讲，上述问题对应于计算与凸多面体的补体之间的距离，

其中位于内。我们用表示这个距离。多面体定义了输出标签的空间区域。此设置如图4 所示。等式（6）中的问题的解决方案可按如下封闭形式计算。将定义为边界的最近超平面。形式上，可以计算如下

最小扰动是向量在由索引的超平面上的投影x0，即

换句话说，我们在面上找到的最近投影。

图4：对于属于类别4 的，让。这些超平面用实线表示，的边界用绿色虚线表示。

图5：对于属于类别4的，让。线性化的零水平集以虚线显示，多面体的边界以绿色显示。

3.2、普通分类器

我们现在将 DeepFool 算法扩展到多类可微分类器的一般情况。对于一般非线性分类器，方程（7）中描述分类器输出标签所在空间区域的集合不再是多面体。按照所解释的二元情况下的迭代线性化过程，我们在迭代处用多面体近似集合

然后，在迭代处，近似计算和，的补码，通过。

具体来说，在算法的每次迭代中，计算到达多面体边界的扰动向量，并更新当前估计值。算法 2 中给出了该方法。值得注意的是，所提出的算法以贪婪的方式运行，并且不保证收敛到（1）中的最优扰动。然而，我们在实践中观察到，我们的算法产生了非常小的扰动，这些扰动被认为是最小扰动的良好近似。

应该注意的是，DeepFool 的优化策略与现有的优化技术紧密相关。在二进制情况下，它可以看作是牛顿迭代算法，用于在欠定情况下求非线性方程组的根[15]。此算法称为正常流方法。这种优化技术的收敛性分析可以在[21] 中找到。我们在二进制情况下的算法也可以看作是一种梯度下降算法，它具有在每次迭代时自动选择的自适应步长。算法 2 中的线性化也类似于顺序凸规划，其中约束在每一步都线性化。

3.3、扩展至ℓp范数

在本文中，我们使用 ℓ2 范数。然而，我们的框架并不局限于这一选择，并且所提出的算法可以简单地进行调整，以找到任何最小的对抗扰动 ℓp 范数。为此，算法2 中第10 行和第11 行中的更新步骤必须分别替换为以下更新

其中是逐点积并且。特别是当即，最高范数，这些更新步骤变成

4、实验结果

4.1、设置

现在，我们在应用于MNIST、CIFAR-10和ImageNet图像分类数据集的深度卷积神经网络架构上测试DeepFool算法。我们考虑以下深层神经网络架构：

• MNIST：两层全连接网络和两层 LeNet 卷积神经网络架构[9]。这两个网络都是通过使用MatConvNet [20] 软件包的 SGD 进行训练的。

• CIFAR-10：我们训练了三层 LeNet 架构以及网络内网络（NIN）架构 [11]。

• ILSVRC 2012：我们使用了 CaffeNet [7] 和 GoogLeNet [17] 预先训练的模型。

为了评估分类器f对对抗扰动的鲁棒性，我们计算了平均鲁棒性，定义为

其中，是使用 DeepFool 获得的估计最小扰动，表示测试集。

我们将所提出的 DeepFool 方法与[18]和[4]中用于计算对抗扰动的最先进技术进行了比较。[18]中的方法解决了一系列惩罚优化问题，以找到最小扰动，而[4]通过梯度符号估计最小扰动

其中是用于训练神经网络的成本，是模型参数，是的标签。这种方法称为快速梯度符号法。实际上，在没有选择参数的一般规则的情况下，我们选择了最小的参数，这样90%的数据在扰动后会被错误分类。

4.2、结果

我们在表1中报告了使用不同方法计算的每个分类器的精度和平均鲁棒性。我们还显示了每个方法计算一个对抗样本所需的运行时间。可以看出，与使用竞争方法计算的扰动相比，DeepFool 估计的扰动更小（因此更接近于（1）中定义的最小扰动）。例如，使用DeepFool获得的平均扰动比使用[4]估计的扰动低5倍。在 ILSVRC2012 挑战数据集上，平均扰动比快速梯度法小一个数量级。此外，还应注意，与[18]中的方法相比，所提出的方法也产生了稍小的扰动向量。因此，提出的方法在检测可能欺骗神经网络的方向方面更为准确。因此，DeepFool 可以作为一个有价值的工具来准确评估分类器的健壮性。在复杂性方面，建议的方法比[18]中建议的标准方法快得多。事实上，虽然该方法[18]涉及一系列目标函数的代价高昂的最小化，但我们从经验上观察到，DeepFool只需几次迭代（即少于3次）就可以收敛到欺骗分类器的扰动向量。因此，与最先进的方法相比，所提出的方法达到了更精确的扰动矢量，同时计算效率更高。这使得它很容易被用作基线方法，以在大规模数据集上估计非常深的神经网络的鲁棒性。在这种情况下，我们首次定量评估了大型ImageNet数据集上最先进的分类器的鲁棒性。可以看出，尽管这些方法具有很好的测试精度，但对于对抗性扰动来说，它们极不稳定：比原始图像小1000量级的扰动足以愚弄最先进的深层神经网络。

我们在图1中演示了由快速梯度符号和 DeepFool 生成的扰动图像。可以观察到，该方法产生了难以察觉的对抗性扰动，而快速梯度符号方法输出了一个范数较高的扰动图像。

图1：对抗性扰动样本。第一行：分类为（“鲸鱼”）的原始图像。第二行：分类为的图像和 DeepFool 计算的相应扰动。第三行：分类为“乌龟”的图像和用快速梯度符号法计算的相应扰动[4]。DeepFool导致较小的扰动。

应注意，当使用范数，上述结论保持不变：与计算对抗样本的其他方法相比，DeepFool 产生的对抗扰动更小（因此更接近最佳值）。表2 报告了用测量对抗扰动的鲁棒性 , 其中，分别使用 DeepFool ，以及 MNIST 和 CIFAR-10 任务的快速梯度符号法。

表2：的值基于 DeepFool 的四个不同网络的adv（最小扰动）和快速梯度符号法，误分类率为90%。

使用对抗样本进行微调 在本节中，我们对表1中关于对抗样本的网络进行了微调，以便为 MNIST和 CIFAR-10 任务构建更健壮的分类器。具体来说，对于每个网络，我们都进行了两个实验：（i）根据 DeepFool 的对抗样本微调网络，（ii）在快速梯度符号对抗样本上微调网络。我们通过执行 5 个额外的 epoch 对网络进行微调，仅在扰动的训练集上降低50%的学习率。对于每个实验，在所有5个额外的时间段使用相同的训练数据。为了完整性，我们还对原始数据执行了5个额外的epoch。不同微调策略的演变如图 6a 至 6d 所示，其中使用DeepFool 工具估计鲁棒性，因为这是最精确的方法，如表1 所示。请注意，使用 DeepFool 对抗样本进行微调可以显著提高网络对对抗性扰动的鲁棒性，即使在一个额外的 epoch 之后。例如，MNIST上网络的鲁棒性提高了50%，NIN的鲁棒性增加了约40%。另一方面，令人惊讶的是，[4]中的方法可能会导致对网络对抗扰动的鲁棒性降低。我们假设这种行为是由于使用快速梯度符号法估计的扰动远大于最小对抗扰动。微调带有过度扰动图像的网络会降低网络对对抗扰动的鲁棒性。为了验证这一假设，我们在图7 中将微调网络的对抗鲁棒性与使用DeepFool获得的对抗样本进行了比较，其中扰动范数被故意乘以α=1、2、3。有趣的是，我们看到，通过放大对抗扰动范数，微调网络的鲁棒性降低。这可以解释为什么过度扰动的图像会降低MNIST网络的鲁棒性：这些扰动确实会改变数字的类别，因此基于这些样本的微调可能会导致鲁棒性下降（有关说明，请参见图8）。这为我们的假设提供了证据，并进一步表明了设计精确方法来计算最小扰动的重要性。

表1：不同分类器对不同数据集的对抗鲁棒性。时间列中给出了每种方法计算一个样本所需的时间。时间是在不支持CUDA的2015年中期MacBook Pro上计算的。星号标记确定使用GTX 750 Ti GPU计算的值。

（a）微调对通过两种不同方法为MNIST上的LeNet计算的对抗样本的影响。

（b）微调对MNIST上完全连接网络的两种不同方法计算的对抗样本的影响。

（c）微调对CIFAR-10上NIN的两种不同方法计算的对抗样本的影响。

（d）微调对通过 CIFAR-10 上 LeNet 的两种不同方法计算的对抗样本的影响。

图6

图8：从“1”到“7”：原始图像分类为“1”，DeepFool 扰动图像使用不同的 α 值分类为“7”。

表 3 列出了微调网络的精度。可以看出，使用 DeepFool 进行微调可以提高网络的准确性。相反，使用[4]中的方法进行微调会导致我们所有实验中的测试精度降低。这证实了快速梯度符号方法输出过度扰动图像的解释，这些图像导致测试数据中不太可能出现的图像。因此，它降低了方法的性能，因为它充当了不代表原始数据分布的正则化器。这种效果类似于几何数据增强方案，其中原始样本的大转换对泛化产生反作用。

表3：对抗样本微调后的网络测试误差（五个 epoch 后）。每列对应于不同类型的增强扰动。

为了强调正确估计最小扰动的重要性，我们现在表明，使用近似方法可能会导致关于网络对抗鲁棒性的错误结论。我们在快速梯度符号对抗样本上微调NIN分类器。我们遵循前面描述的程序，但这一次，我们将学习率降低了90%。我们已经使用 DeepFool 和快速梯度符号方法评估了该网络在不同额外 epoch 的对抗鲁棒性。如图9所示，红色图夸大了训练对对抗性示例的影响。此外，它不够敏感，无法证明在第一个额外的 epoch 时鲁棒性的丧失。这些观察结果证实，使用准确的工具测量分类器的鲁棒性对于得出关于网络鲁棒性的结论至关重要。

图9：如何通过不同的方法判断对抗性鲁棒性。这些值通过原始网络的对应进行标准化。

5、结论

在这项工作中，我们提出了一种算法 DeepFool，用于计算欺骗一流分类器的对抗样本。它基于分类器的迭代线性化，以产生足以改变分类标签的最小扰动。我们在三个数据集和八个分类器上提供了广泛的实验证据，表明了所提方法在计算对抗扰动方面的优势，以及所提方法的效率。由于对对抗扰动的准确估计，所提出的 DeepFool 算法提供了一种高效、准确的方法来评估分类器的鲁棒性，并通过适当的微调来提高其性能。因此，所提出的方法可以作为一种可靠的工具来准确估计最小扰动向量，并构建更健壮的分类器。

嗯~啥也不会

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
DeepFool论文翻译---DeepFool: a simple and accurate method to fool deep neural networks

最先进的深度神经网络在许多图像分类任务中取得了令人印象深刻的结果。然而，这些相同的架构已经被证明对于较小的、广受欢迎的图像扰动是不稳定的。尽管这一现象很重要，但还没有提出有效的方法来准确计算最先进的深度分类器对大规模数据集上此类扰动的鲁棒性。本文中，我们填补了这一空白，并提出了DeepFool算法，以有效计算欺骗深度网络的扰动，从而可靠地量化这些分类器的鲁棒性。大量实验结果表明，我们的方法在计算对抗扰动和使分类器更健壮的任务上优于最近的方法。
复制链接

扫一扫