特征去噪以提高对抗鲁棒性

最新推荐文章于 2024-04-03 01:33:21 发布

袁曈阳

最新推荐文章于 2024-04-03 01:33:21 发布

阅读量3.4k

点赞数

本文链接：https://blog.csdn.net/yty_311/article/details/112611857

版权

《Feature Denoising for Improving Adversarial Robustness》论文翻译

摘要

对图像分类系统的对抗性攻击给卷积网络带来了挑战和理解它们的机会。这项研究表明，对抗性的图像干扰导致这些网络构造的特征噪声。基于这一观察，我们开发了新的网络架构，通过执行特征去噪来增加对抗的鲁棒性。具体来说，我们的网络包含使用非本地方法或其他过滤器去噪特征的块;整个网络都是端到端的训练。当与对抗训练相结合时，我们的特征去噪网络在白盒和黑盒攻击设置中显著提高了对抗鲁棒性的最先进水平。在ImageNet上，在先验技术准确率为27.9%的10次迭代PGD白盒攻击下，我们的方法达到55.7%;即使在极端的2000迭代PGD白盒攻击下，我们的方法也能保证42.6%的准确性。我们的方法在2018年的对抗攻击和防御竞赛(CAAD)中排名第一——针对48个未知攻击者，它在一个秘密的类似imagenet的测试数据集上获得了50.6%的分类准确率，超过了亚军方法约10%。有关代码可于

1. 介绍

对抗性攻击图像分类系统[20]增加了图像的小扰动，导致这些系统做出不正确的预测。虽然这些扰动通常难以察觉，或被认为是图像中的小“噪声”，但即使是最成功的基于卷积网络的系统，这些攻击也非常有效[11,14]。对抗式攻击的成功导致了卷积网络在现实世界应用中的安全威胁，但同样重要的是，它证明了这些网络执行的计算与人类大脑中的计算截然不同。图1显示了随机选择的ResNet[9]的特征映射，应用于干净的图像(顶部)和广告干扰的对应图像(底部)。图中显示了对抗性的扰动，虽然在像素上很小空间，导致在网络的特征映射中产生非常大量的“噪声”。而干净的图像的特征似乎主要集中在图像的语义信息内容上，而敌对图像的特征映射在语义无关的区域也被激活。图2显示了使用相同模式的更多示例。

图1所示。在一个imagenet训练的resnet - 50[9]的res3块的特征映射应用在一个干净的图像(顶部)和它的对抗扰动的对等物(底部)。敌对的扰动是使用PGD[16]以最大扰动 = 16(256)。在这个例子中，敌对的图像被错误地识别为“空间加热器”;真正的标签是“数字时钟”。普遍扰动对应物(下)。图中显示，对抗性的扰动虽然在像素空间中很小，但在网络的特征映射中会导致非常大的“噪声”。而干净的图像的特征似乎主要集中在图像的语义信息内容上，而敌对图像的特征映射在语义无关的区域也被激活。图2显示了使用相同模式的更多示例。基于这一观察，我们探索特征去噪方法，以提高卷积网络对抗敌对攻击的鲁棒性。我们开发了新的卷积网络架构，配备了用于去噪特征地图的构建块。我们的网络在对手生成的样本上进行端到端的训练，允许他们学习减少特征图扰动。根据经验，我们发现使用非局部方法[2]进行特征去噪的网络取得了最佳的性能，导致了与自我注意[23]和非局部网络[24]相关的模型。我们的消融研究表明，使用均值滤波器、中值滤波器和双边滤波器[21]进行特征去噪也可以提高对抗鲁棒性，这表明特征去噪是一个很好的设计原则。

图2。更多类似图1的示例。我们展示了与干净图像(顶部)对应的特征地图和与之对抗的混乱版本(底部)。每一对实例的特征映射都来自于相同的res3块的相同通道，在相同的ResNet-50上训练干净的图像。攻击者的最大摄动 = 16在像素域。

我们的模型在对抗对ImageNet[18]的极具挑战性的白盒攻击的对抗鲁棒性上优于最先进的技术。在10次迭代PGD攻击[16]下，我们报告ImageNet上55.7%的分类准确率，很大程度上超过了现有技术在相同攻击协议下27.9%的[10]。即使面对极为具有挑战性的2000次PGD攻击(其他文献中没有研究过)，我们的模型也达到了42.6%的准确率。我们的消融实验也证明特征去噪在白盒设置中持续改善对抗防御的结果。我们的网络在黑盒攻击设置下也非常高效。基于我们方法的网络在最近的2018年对抗攻击防御(CAAD)竞赛中，在严格的“全有或全无”标准下，对48个未知攻击者达到50.6%的准确率，赢得了防御轨道。与2018年CAAD亚军模型相比，该模型的绝对精确度提高了10%(相对提高了20%)。我们还进行了消融实验，我们防御来自CAAD 2017[13]的五个最强的攻击者，展示了特征去噪的潜力。

2. 相关工作

对抗性训练[6,10,16]通过在训练过程中生成的对抗性图像上的训练网络来防御对抗性干扰。对抗训练构成对抗白盒攻击的当前最先进的对抗鲁棒性;我们用它来训练我们的网络。对抗性logit对弈[10]是一种对抗性训练，鼓励对网络的清晰形象和对抗性对手进行相似的logit预测。ALP可以被解释为对敌对图像的logit预测进行“去噪”，使用干净图像的logit作为“无噪声”参考。其他增加对抗鲁棒性的方法包括像素去噪。廖等人[15]建议使用高层次特征引导像素去噪;相比之下，我们的去噪是直接应用在特征上。Guo等人的[8]通过不可微图像预处理对图像进行变换，如图像拼接[4]、总方差最小化[17]和量化。虽然这些防御在黑盒设置中可能是有效的，但在白盒设置中它们可以被绕过，因为攻击者可以近似其不可微计算[1]的梯度。与[8]相比，我们的特征去噪模型是可微的，但仍然能够提高对抗鲁棒性对抗非常强大的白盒攻击。

3.噪声特性

对抗性图像是通过向图像添加扰动来创建的，在特定的范数(例如，L∞或L2)方面限制扰动的大小为小。这些扰动被认为是人类无法察觉的，或者被认为是不妨碍人类识别视觉内容的噪声。在卷积网络中，尽管在像素级上对扰动进行了很小的限制，但在特征级上却没有这样的限制。事实上，当图像通过网络传播时，对抗性图像所引起的特征扰动逐渐增加[15,8]，并且对特征映射中不存在的激活产生幻觉。换句话说，网络中各层所进行的转换加剧了这种扰动，幻觉激活会压倒真实信号所引起的激活，从而导致网络做出错误的预测。我们通过可视化产生的特征地图定性地展示了对抗性图像的这些特征。给定一个干净的图像和它的对抗扰动的对等物，我们使用相同的网络(这里是一个ResNet-50 9)来计算它在隐藏层中的激活。图1和图2显示了从网络中间(特别是res3块)提取的干净的和敌对的图像上相同特征映射的典型示例。这些数字

图3。对抗性图像及其特征映射在去噪操作之前(左)和之后(右)(图4中的蓝框)。这里，每一对特征映射都来自于相同的对抗性训练过的ResNet-50中的res3块的同一通道，该块具有(高斯)非局部均值去噪块。攻击者的最大摄动 = 16为每个像素。

揭示了对抗图像对应的特征地图在没有相关视觉内容的区域有类似特征噪声的激活。假设强烈的激活表明图像内容的语义信息的存在(通常假设为[27])，对抗图像产生幻觉的激活揭示了模型预测被改变的原因。在本研究中，我们尝试通过特征去噪来解决这一问题。在图3中，我们可视化了对抗图像的特征映射，在特征去噪操作之前和之后(详见下一节)。从图中可以看出，特征去噪操作可以成功地抑制特征图中的大部分噪声，使响应集中在有视觉意义的内容上。在下一节中，我们提出了经验证据，表明执行特征去噪操作的模型确实提高了对抗的鲁棒性。在我们继续描述我们的方法之前，我们注意到，虽然特征噪声可以很容易地定性地观察到，但很难定量地测量这种噪声。我们发现，比较不同模型之间的特征噪声水平是很重要的，特别是当网络结构和/或训练方法(标准或对抗)改变时。例如，在网络中加入一个去噪块，经过端到端训练，往往会改变所有特征的大小/分布。然而，我们相信观察到的有噪声的特征外观反映了与对抗性图像相关的真实现象。

图4。一个通用的去噪块。它用1×1卷积和一个单位跳过连接[9]包装去噪操作(例如，非局部均值、双边、均值、中值滤波器)。

4. 去噪特征图

基于以上经验观察，我们建议通过在卷积网络的中间层添加去噪块来提高对抗鲁棒性。使用对抗式训练，将去噪块与网络的所有层以端到端的方式联合训练。端到端的对抗训练允许产生的网络(部分)消除依赖数据的特征映射噪声，即由攻击者产生的噪声。它还可以很自然地处理跨多个层的噪声，考虑早期层的变化如何影响后来层的特征/噪声分布。从经验上看，我们发现最佳去噪块的灵感来自于机器翻译中常用的自我注意变压器[23]和用于视频分类的非局部网络[24]。在本研究中，我们重点研究了去噪块的设计及其去噪效果。除了非局部均值之外，我们还在卷积网络中实验了一些更简单的去噪操作，如双边滤波、均值滤波和中值滤波。

4.1 去噪块

图4显示了去噪块的一般形式。块的输入可以是卷积神经网络中的任意特征层。去噪块通过去噪操作(如非局部方法或其他变量)处理输入特征。去噪后的表示法首先经过1×1的卷积层处理，然后通过残余连接[9]添加到块的输入中。1图4中的设计灵感来自于自我关注的[23]和非本地的[24]块。但实际上只有去噪块中的非局部means[2]操作在进行去噪;1×1卷积和残差连接主要用于特征组合。虽然各种操作可以抑制噪声，但它们也会影响信号。剩余连接的使用对网络有帮助为了保留信号，去除噪声和保留信号之间的权衡是通过1×1的卷积来调整的，这是端到端的学习与整个网络。我们将提出消融研究，表明残差连接和1×1卷积都有助于去噪块的有效性。去噪块的通用形式允许我们探索各种去噪操作，如下所述。

4.2 去噪操作

我们在去噪块中实验了去噪操作的四种不同实例。非本地的意思。Non-local表示[2]通过对所有空间位置L的特征取加权平均值，计算输入特征地图x的去噪特征地图y:

其中f(xi, xj)为特征相关加权函数，C(x)为归一化函数。我们注意到Eqn的加权平均。(1)是在xj上，而不是对xj进行另一次嵌入，与[23,24]不同，直接对输入特征x进行去噪，保持了y和x中特征通道的对应关系。[24]后,我们考虑两种形式:•高斯(softmax)集f (xi, xj) = e√1 dθ(xi) Tφ(xj),在θ(x)和φ(x)是两个嵌入式ofx版本(通过两个1×1旋转),d是通道的数量,C = P L∀j∈f (xi, xj)。注意到f /C是softmax函数，这个版本在[24]中显示，相当于[23]基于softmax的自我注意计算。•点积集合f(xi, xj) = xTi xj, C(x) = N，其中N是x中像素的个数。与高斯非局部均值不同，加权后的权重在点积非局部均值中不等于1。然而，定性评价表明它确实抑制了特征中的噪声。实验还表明，该算法提高了对抗鲁棒性。有趣的是，我们发现不需要在非局部均值的点积版本中嵌入x，这样模型才能很好地工作。这与高斯非局部均值不同，在高斯非局部均值中，嵌入是必不可少的。dotproduct版本提供了不带额外参数的去噪操作(图5中的蓝框)。

图5改编自[24]，显示了基于非局部均值的去噪块的实现。双边滤波器。在Eqn中，非局部手段容易转换。(1)变成“局部均值”。这样做就产生了经典的双边滤波器[21]，它在边缘保持方面很受欢迎

去噪。正式定义为:

图5。用非局部方法进行去噪操作的块。蓝色部分说明了Eqn中非局部方法的实现。(1)记录特征张量的形状，并进行相应的整形/转置:这里，H和W是特征映射的高度和宽度，我们以256个通道为例。如果使用softmax，则为高斯版本(使用适当的1×1卷积嵌入;本图略);如果不使用softmax，则是点积版本。

这个方程只是与Eqn不同。(1)在附近,Ω(我),这是一个局部区域(如一个3×3块)在Eqn周围像素我。。(2)，我们像以前一样考虑权值的高斯和点积实现。意思是过滤器。也许去噪最简单的形式是均值滤波器(大步为1的平均池化)。均值滤波器降低了噪声，但也平滑了结构，所以预期它们的性能比上述加权均值差是合理的。然而，令人惊讶的是，实验表明，使用均值滤波器作为去噪操作的去噪块仍然可以提高对抗鲁棒性。中值滤波器。最后，我们考虑了一个有趣的去噪滤波器，很少在深度网络中使用:中值滤波。中值滤波器定义为:

中位数是在局部区域,Ω(我),并为每个通道单独执行。中值滤波器在去除椒盐噪声和类似的异常值方面很有优势。训练包含中值滤波器的卷积网络是一个开放的问题，但是我们通过实验发现使用中值滤波器作为去噪操作也可以提高对抗鲁棒性。总之，我们的研究探索了丰富的去噪操作集合。第6节报告了上述所有去噪操作的结果。

5. 对抗训练

我们在很强的基线上展示了特征去噪的有效性。我们强有力的实验结果部分是由对抗性训练的成功实施所驱动的[6,16]。在本节中，我们将描述对抗性训练的实现，它用于训练基线模型和我们的特征去噪模型。对抗性训练的基本思想[6,16]是在对抗性扰动的图像上训练网络。对抗扰动图像可以由给定的白盒攻击者根据模型的当前参数生成。我们使用投影梯度下降(PGD)2[16]作为对抗训练的白盒攻击者。PGD攻击者。PGD是一种迭代攻击者。在每次迭代中，它根据对手选择的输出目标，在损失函数w.r.t.中执行一个梯度下降步骤。接下来,it项目产生的摄动图像在可行解空间——在一个最大单像素扰动的清廉形象(即服从L∞约束)。PGD的hyper-parameters攻击者在对抗训练是:每个像素的最大摄动 = 16,攻击步长α= 1,攻击迭代次数n = 30。PGD在对抗训练,我们可以初始化对抗的清廉形象,形象或随机允许[16]。在对抗性训练期间，我们从PGD攻击者的两个初始化中随机选择:20%的训练批量使用干净的图像来初始化PGD, 80%在允许用随机点。使用对抗性图像进行分布式训练。对于每个小批处理，我们使用PGD为该小批处理生成对抗图像。然后对这些扰动图像进行一步SGD，更新模型权重。我们的SGD更新完全基于对抗性图像;迷你批处理不包含干净的图像。因为单个SGD更新之前有n步PGD (n = 30)，对抗训练的总计算量比标准(干净)训练大n×。为了使对抗训练变得实用，我们在128个gpu上使用同步SGD进行分布式训练。每个小批量包含每个GPU(即，小批总尺寸为128×32= 4096)。我们按照[7]3的训练配方来训练如此大的小批量模型。在ImageNet上，我们的模型总共训练了110个纪元;在第35、70和95时代，我们的学习速度降低了10倍。使用了0.1的标签平滑[19]。在128个Nvidia V100图形处理器上进行对抗训练的总时间大约是基线renet -101模型的38小时，大约是52小时基线resnet - 152模型。

6. 实验

我们在ImageNet分类数据集[18]上评估特征去噪，该数据集有1000个类128万幅图像。遵循常见的对抗性协议[1,10] ImageNet上的图像，在白盒设置下评估时，我们考虑有针对性的攻击，目标类是随机一致选择的;我们的对抗性训练也使用有针对性的攻击。我们对50k ImageNet验证图像的最高分类精度进行评估，这些图像受到攻击者的对抗扰动(无论其目标是什么)，同样遵循[1,10]。本文对抗的扰动被认为是在L∞范数(即每个像素的最大区别),允许的最大值。的价值是相对于256的像素强度规模。我们的基线是renet -101/152[9]。默认情况下，我们向一个ResNet添加4个去噪块:每个块分别添加在res2、res3、res4和res5的最后一个剩余块之后。

6.1 白盒攻击

遵循ALP[10]协议，我们报告了作为白盒攻击者对PGD的防御结果。4我们评估 = 16,一个具有挑战性的情况下对ImageNet捍卫者。[16]后,PGD白盒攻击者从一个随机点初始化敌对的扰动在允许立方体。我们设置它的步长α= 1,除了10 -迭代攻击α将 / 10 = 1.6。我们考虑从10到2000的一系列PGD攻击迭代。主要的结果。图6显示了主要结果。我们首先比较ALP[10]，以前的最先进的。在[10]、Inception-v3[19]上进行10次PGD攻击，评估ALP。在ImageNet验证图像上达到27.9%的精度(图6，紫色三角形)。图6中的ResNet-101和ResNet-152是我们使用对抗训练实现训练的基线模型(没有任何去噪块)。即使使用R-101的低容量模型，我们的基线也非常强——它在10次迭代PGD攻击下有49.7%的准确性，大大优于ALP结果。这说明我们的对抗性训练体系是牢固的;我们注意到，与ALP的比较是在系统级，因为它们在其他方面(骨干网、实现等)有所不同。图6中的“R-152，去噪”是我们添加了四个去噪块的ResNet-152模型。这里我们展示了性能最好的版本(非局部的高斯)，接下来我们要消去它。去噪块带来了一致的性能改进。在10次PGD攻击下，它将ResNet-152基线的准确性提高了3.2%，从52.5%提高到55.7%(图6，右)。

图6。防范对ImageNet的白盒攻击。左边的图显示了针对10到2000次攻击迭代的白盒PGD攻击者的结果。正确的图将结果放大为10到100次攻击迭代。的最大摄动 = 16。

即使在2000迭代PGD攻击下，我们的结果也是稳健的。据我们所知，ImageNet上从未出现过如此强大的攻击。ALP[10]只是对10次迭代PGD攻击进行评估(图6)，其声称的鲁棒性受到[5]的争议。在2000迭代PGD攻击下，ResNet-152基线的准确率为39.2%，去噪基线的准确率为42.6%，比ResNet-152基线高3.4%。我们还观察到攻击者的性能在1000到2000次攻击迭代时下降。我们注意到，在这种白盒设置中，攻击者可以迭代地反向传播去噪块，并创建针对去噪器的对抗性扰动。最近的研究[1]报告说，像素去噪方法可以被攻击者在白盒设置下绕过。相比之下，特征去噪在白盒设置中带来了一致的改进，表明特征去噪块使欺骗网络变得更加困难。去噪操作的变体。接下来，我们在第4节评估去噪操作的变量。在这些消融中，我们将不同类型的块添加到基线ResNet-152中。我们考虑以下去噪操作:3×3均值滤波、3×3中值滤波、3×3双边滤波(Eqn。(2))和非局部滤波。在我们的消融研究中，我们进一步考虑去噪块的“空”版本:图4中的块成为一个具有单一1×1卷积的残留块。此外，我们还比较了添加4个标准的[9]瓶颈块——本质上是ResNet-164。所有的模型都经过对抗性训练。图7显示了白盒攻击的结果;为了简单起见，我们展示了在消融过程中多达100次攻击迭代的PGD攻击者。所有这些去噪操作的精度都优于:(i) ResNet-152基线，(ii)添加4个标准瓶颈块，(iii)添加4个“空”去噪块。值得注意的是，1×1 null版本与均值滤波、中值滤波和双边/非局部滤波的点积版本(没有嵌入)具有相同数量的额外参数。此外，虽然添加标准的瓶颈块是有帮助的，但添加任何版本的去噪块都更准确。这些结果表明，额外的参数并不是我们精度提高的主要原因;特征去噪似乎是一种通用的方法，对对抗鲁棒性特别有用。我们的最佳模型是由非局部(高斯)版本给出的，除非注明，否则我们在论文的其他部分默认使用它。有趣的是，这个高斯表达式比点积表达式稍微好一点。

表1。消融:用于防止ImageNet白盒攻击的去噪块设计。我们的网络有四个(高斯)非局部均值去噪块。我们指出我们无法由“NaN”训练的模型的性能

去噪块的设计决策。图4中的去噪块有一个1×1层和一个残差连接。虽然这两个组件都不能进行去噪，但它们对于去噪块的正常工作是很重要的。接下来，我们消融了1×1和剩余连接的行为。这种消融见表1。我们利用四个非局部的高斯去噪块来研究ResNet-152。所有的模特都接受过对抗性训练。当去除去噪块中的1×1卷积时，准确率明显下降，例如在100次迭代PGD攻击下，准确率从45.5%下降到36.8%。另一方面，消除剩余连接会使训练不稳定，并且在对抗性训练中其损失不会减少。这些结果表明，去噪特征本身是不够的。由于抑制噪声也可能去除有用的信号，因此有必要将去噪特征与去噪块中的输入特征适当地结合起来。

6.2 黑盒攻击

接下来，我们评估对黑盒攻击的防御。为了获得一组公正且具有挑战性的攻击者，我们研究了NIPS 2017 CAAD竞赛[13]中5个最好的攻击者，他们的代码是公开的。我们使用最新的CAAD 2018评估标准，我们称之为“全有或全无”:只有当模型正确地分类了所有攻击者创建的该图像的所有对抗版本时，才认为该图像是正确分类的。这是一个具有挑战性的评估方案。CAAD黑盒设置后,每个像素的最大摄动 = 32,这也让防守更加困难。注意,我们的模型训练 = 16。表2显示了针对ImageNet验证图像的黑盒攻击的防御结果。为了突出新的“全有或全无”标准的难度，我们发现CAAD 2017年的获奖者[15]在该标准下只有0.04%的准确性。我们发现，它主要是脆弱的五个攻击者中的两个5,6。如果我们删除这两个攻击者，[15]在“全有或全无”设置下的准确率为13.4%。在“全有或全无”的标准下，我们的ResNet-152基线对所有5个攻击者的准确率为43.1%。这个数字表明，成功地实施对抗性训练是对抗性稳健性的关键。

表2。防范ImageNet的黑匣子攻击。我们展示了ImageNet验证集的最高分类精度。在2017年的CAAD中，攻击者是5个最好的攻击者。我们采用CAAD 2018年“要么全有要么全无”的防守标准。在这个严格的标准下，2017年的优胜者的准确率为0.04%，如果我们去掉它最容易受到攻击的2个攻击者，那么在剩下的3个攻击者下，它的准确率为13.4%。

在我们强大的ResNet-152基线之上，添加四个非局部去噪块将精度提高到46.4%(表2)。有趣的是，高斯和点积版本的表现相似(46.4%和46.2%)，尽管高斯版本由于其嵌入有更多的参数。此外，null版本的精度为44.1%——这比非本地的点积版本差，即使它们具有相同的参数数量;这个1×1的空版本比ResNet-152基线好1.0%。我们还研究了去噪块的局部变量，包括均值、中值和双边滤波器。在黑盒环境下，他们的准确率为43.6% ~ 44.4%。他们的结果并不比null版本的结果好得令人信服。这表明非局部去噪比局部去噪更能增强对黑盒攻击者的鲁棒性。把信封。为了检查我们的模型的潜力，我们在ResNet-152中的所有剩余块(每个剩余块后一个去噪块)中添加去噪块。这里我们只研究非局部高斯函数。为了使训练可行，我们使用[24]中的子采样技巧:Eqn中的xj特征映射。(1)在执行非局部均值时进行下采样(采用2×2最大池化)，注意到xi的feature map仍然是全尺寸的。在这种情况下我们只使用子抽样。达到49.5%。在黑盒设置下，这比ResNet-152基线的43.1%好6.4%(表2)。CAAD 2018挑战赛结果。最后，我们报告最新的CAAD 2018竞赛结果。2018年的防御轨迹采用了上述的“全有或全无”标准——在这种情况下，每个防御条目需要防御同一挑战下48个未知攻击者(与我们上述黑盒消融中的5个攻击者相比)。测试数据是一个秘密的、类似imagenet的数据集。每个像素的最大摄动 = 32。

图8。CAAD 2018年对抗性防御跟踪结果。第一个条目基于我们的方法。我们在这里只展示了超过20个作品中的5个获奖作品。

图8显示了CAAD 2018防御计划中5个最佳项目的准确性。赢得的条目（显示在蓝色栏中）基于我们的方法，即使用ResNeXt101-32×8主干[26]，并将非本地降噪块添加到所有剩余块中。此项仅使用单作物，单模型测试。它对48名未知攻击者的准确率达到50.6％。这比绝对排名第二的40.8％精度高出约10％（相对值20％）。我们还在ImageNet上报道了该获奖作品的白盒表现。在10次PGD攻击和100次PGD攻击下，其准确率分别达到56.0％和40.4％。这些结果比第6.1节中报道的基于ResNet-152的模型的健壮性稍差。我们注意到，这种白盒健壮性比较是在系统级别上进行的，因为获胜的参赛作品是使用略有不同的参数设置进行训练的。我们强调，由于“全有或全无”标准和许多未知的（可能是最新的最新技术）攻击者，CAAD 2018的防御任务非常具有挑战性。实际上，除了两个领先的团队以外，其他所有团队的准确率均<10％，其中许多团队的准确度均<1％。这突出了我们50.6％准确性的重要性。 6.3。在非对抗性环境中对噪声块进行降噪到目前为止，我们一直专注于对噪声块进行消噪以改善对抗性防御。由于我们的降噪块是卷积网络的组成部分，因此也可以在没有对抗性训练的情况下对这些网络进行训练，以对“干净”图像进行分类（即原始ImageNet数据集任务）。我们认为，研究非对抗性设置可以帮助我们更好地了解去噪块的行为。表3列出了未经对抗训练的模型的清晰图像性能。我们比较了基准R-152，添加了标准瓶颈块，添加了“空”（1×1）去噪块，并添加了各种类型的去噪块。在干净设置中，这些降噪块与基准R152相比没有明显优势，添加标准瓶颈块或添加“空”降噪块。实际上，所有结果都在R-152基准结果的±0.2％范围内-如果我们还考虑同一模型的不同训练之间的自然差异，则两者之间没有显着差异（请参阅表3中的基准R-152）

表3.经过训练的干净图像上ImageNet验证集中的干净图像准确性。

除第一行外，所有数字均报告为与第一个R-152基线结果相比的准确性差异。对于R-152，我们独立进行了3次训练，以显示同一体系结构的自然随机变化。所有降噪模型均无显着差异，并且在基准R-152结果的±0.2％范围内。我们还发现，在较弱的ResNet-50上添加非本地降噪块可以在非对抗设置中适度地将精度提高0.7％，但在ResNet-152上这样做会减少增益。但是，对抗性图像并非如此。这些结果表明，在需要对抗鲁棒性的设置中，去噪块可能具有特殊优势。该观察结果符合我们的直觉，即降噪块旨在减少特征噪声，该噪声仅在对对抗图像进行分类时才会出现。最后，我们报告说，在经过清晰训练的图像上进行测试后，经过对抗训练的ResNet-152基准具有62.32％的准确度，而经过“清晰”训练的对等基准则可达到78.91％。对于降噪版本（非本地，高斯），在干净图像上，经过对抗训练的网络的准确性为65.30％，而经过干净训练的对等网络的准确性为79.08％。以前已经观察到在对抗训练和干净训练之间进行权衡（例如，在[22]中）；我们希望这种权衡成为未来研究的主题。

7.结论

从对抗图像中特征图的嘈杂外观的动机出发，我们已经证明了特征去噪的潜力，可以提高卷积网络的对抗鲁棒性。有趣的是，我们的研究表明，某些架构设计（即降噪块）对于对抗鲁棒性特别有用，即使与“干净”训练和测试场景中的基线模型相比，它们也无法提高准确性。当与对抗训练相结合时，这些特定的架构设计可能更适合于建模对抗图像的基础分布。我们希望我们的工作将鼓励研究人员开始设计具有“固有”对抗性鲁棒性的卷积网络架构。