【论文阅读】Learning Transferable Adversarial Perturbations 学习可转移的对抗性扰动

丁希希哇

于 2024-03-15 12:11:48 发布

阅读量1k

点赞数 21

分类专栏： AIGC阅读学习论文精读文章标签：论文阅读学习深度学习 AIGC 算法

本文链接：https://blog.csdn.net/weixin_47748259/article/details/136676540

版权

AIGC阅读学习同时被 2 个专栏收录

39 篇文章 11 订阅

订阅专栏

论文精读

32 篇文章 5 订阅

订阅专栏

文章目录

一、文章概览
二、模型细节
三、实验：评估攻击策略在不同环境中的有效性

一、文章概览

（一）问题提出

深度神经网络（DNN）虽然有效，但很容易受到对抗性攻击。对抗性攻击研究中有两种主要类型的攻击方法：

迭代算法攻击：使用迭代优化算法来优化每个实例的扰动，以欺骗目标模型
- 优势：可以精确地定位扰动，以最大程度地影响目标模型的输出。
- 缺点：需要在每个实例上进行多次优化迭代，计算成本较高。
生成算法攻击：通过训练生成器网络来生成对抗性扰动，然后将这些扰动添加到干净图像中
- 生成器网络可以是生成对抗网络（GAN）、变分自编码器（VAE）等
- 优势：攻击者只需要进行一次生成器的前向传递，而不需要在每个实例上进行迭代优化，速度更快。
- 缺点：生成方法的泛化能力可能受到训练数据分布的限制，导致在不同情况下的攻击效果不佳。

在对抗性攻击中，扰动是指对输入数据进行微小修改的一种形式，目的是使深度神经网络（DNN）等机器学习模型产生错误的输出。

（二）文章的主要工作

文章主要考虑了生成算法攻击，研究用生成方法获得的扰动的可传递性。（考虑推理和训练时条件不同的影响）

目标架构不同：（生成器被训练来攻击 VGG-16，但目标网络是 ResNet152）
目标数据不同：（生成器是使用 Paintings 数据集进行训练的，但测试数据来自 ImageNet）
目标任务不同：（生成器被训练来攻击图像识别模型，但在测试时面对对象检测器）

主要方法： 由于不同架构、不同数据或不同任务的 DNN 提取的中层特征具有很强的相似性，因此可以通过最大化样本的正常特征与在预训练分类器的中间层中提取的对抗性特征之间的距离来训练扰动生成器。由此产生的扰动可以跨架构、数据集和任务转移，因为它们同样会影响目标设置中相应滤波器的中层特征。然后，受到扰动的中层特征会传播到网络的顶层，从而导致错误的预测。
在这里插入图片描述

研究成果： 构成了生成方法的跨任务的可迁移性的首次尝试，该方法优于最先进的通用和可转移攻击策略。

（三）相关工作

对抗性攻击
基于生成器的攻击

二、模型细节

（一）模型损失函数

输入图像： $x_i \in R^{H\times W \times 3}$
真实标签： $y_i$
任务相关的卷积神经网络： $f$
$f$ 的特征提取层： $l=\{l_j\}_{j=1}^L$
特征图： $f_l(x_i)\in R^{N_l\times D_l}$ ，其中 $N_l=H_l\times W_l$ ， $H_l$ 和 $W_l$ 是特征图的空间维度，D为通道数
生成器： $G$
扰动： $\delta_i\in R^{H\times H\times 3}$
输入图像提供给生成器之后合成无界对抗图像： $G(x_i)$ ，然后经过裁剪后得到的图像： $\hat{x_i}$

文章的主要目标是训练生成器 $G$ 使得生成的扰动在添加到干净的输入图像 $x_i$ 中时，会导致预测与 $y_i$ 不同的标签。对应的损失函数（Feature Separation loss）为：
$L_{feat}(x_i,\hat{x_i})=||f_l(x_i)-f_l(\hat{x_i})||_F^2$

这个损失函数中同时使用了 L2 范数和 Frobenius 范数:

L2 范数：在计算 $||f_l(x_i)-f_l(\hat{x_i})||^2$ 时，采用了L2范数，即两个向量之间的欧几里得距离的平方，表示两个向量之间的差异的大小。在这个损失函数中，L2范数用于衡量干净样本 $x_i$ 和对抗样本 $\hat{x_i}$ 在模型的第 $l$ 层特征表示之间的差异
Frobenius 范数：在计算 $_F$ 时，采用了Frobenius 范数。Frobenius 范数用于计算矩阵的元素平方和的平方根，用于衡量矩阵之间的差异大小。在这个损失函数中，Frobenius 范数用于对两个特征矩阵的差异进行衡量。

在这里插入图片描述

（二）训练算法

扰动生成器的整体训练方案：
在这里插入图片描述

（三）扰动的可迁移

CNN中每层的滤波器都编码不同级别的信息，将各种CNN滤波器在不同层采样的结果可视化，可以发现不同架构的共同特征：

靠近输入图像的底部滤波器提取颜色和边缘信息
靠近输出层的顶层滤波器更加关注对象表示，即更具体的任务
中级过滤器学习更细致的特征，例如纹理，因此倾向于在不同架构、数据和任务中显示相似的模式

综上，攻击中级特征是一个自然的选择，它会产生高度可转移的扰动。

在这里插入图片描述

三、实验：评估攻击策略在不同环境中的有效性

（1）实验设置
（2）将我们的攻击与最先进的基于生成器的攻击：CDA、RHP和 GAP进行比较
（3）攻击在对抗训练模型和具有 4 个不同主干的 SSD对象检测器上的性能。

SSD（Single Shot MultiBox Detector）是一种流行的目标检测算法，其核心思想是通过单次前向传播即可完成目标检测和定位，而无需多阶段处理。SSD 在速度和准确性之间取得了很好的平衡，适用于实时目标检测任务。

（一）实验设置

数据集： 使用来自 ImageNet、漫画、绘画或 ChestX的数据作为源域，包含 1.2M、40K、80K 和 8K 图像，分别。然后，我们从 ImageNet 验证集中随机选择 5000 张图像作为目标域，以评估我们攻击的可转移性。

“源域” 和 “目标域” 是对抗攻击中的两个关键概念，用于描述攻击者的目标和攻击方式：

源域：原始的输入数据空间，即攻击者希望对其进行攻击的数据集。攻击者希望通过对源域中的图像进行修改或添加噪声，使得原始模型产生错误的预测或输出。
目标域：攻击者希望模型输出的目标类别或结果。在对抗攻击中，攻击者通常会指定一个目标类别或结果，希望模型将源域中的样本误分类为目标类别，或者生成输出与目标结果相似的样本。

攻击者使用来自 ImageNet、漫画、绘画或 ChestX 数据集的图像（即源域），通过修改或添加噪声来欺骗模型,希望将这些图像分类为 ImageNet 验证集中的类别（即目标域）。

指标： 攻击前后的欺骗率和top-1错误的绝对差异。愚弄率是指攻击后标签被更改的图像的百分比。

模型：

为了了解跨不同架构的可迁移性的更深层影响：使用公开可用的 PyTorch版本的 VGG16、VGG-19、ResNet152、DenseNet121、Inception-V3 和 Squeezenet 在 ImageNet 上预训练。
为了评估跨数据集的传输：使用在 ChestX 上预训练的 ChestXNet
使用 Adam 优化器，学习率为 2e−4，批量大小为 16。

SqueezeNet是Han等提出的一种轻量且高效的CNN模型，它参数比AlexNet少50x，但模型性能（accuracy）与AlexNet接近。由于其小尺寸和高效性，SqueezeNet 在需要在资源受限的环境中进行图像分类的应用中表现出色。SqueezeNet 的设计理念是通过采用一系列精心设计的卷积层和 Fire 模块来减少模型参数数量，而不会牺牲过多的分类性能。因此，它特别适合于移动端和嵌入式设备上的图像分类任务，如智能手机应用、嵌入式摄像头和边缘设备等。

攻击设置： 在四种设置中执行攻击：

白盒攻击，攻击者可以访问确切的目标模型和目标数据分布；
标准黑盒攻击，攻击者可以访问在目标数据上训练的不同架构系列中的替代模型以及目标数据本身；
严格的后箱攻击，攻击者还使用在目标数据上训练的替代模型，但无法访问目标数据本身；
极端的黑盒场景，我们在不了解目标模型或目标数据的情况下进行攻击。

（二）向未知目标模型的可转移性

使用包含 1.2M ImageNet 训练样本的目标数据来训练生成器，并使用 5 个 ImageNet 预训练模型之一作为目标架构。然后评估该攻击对其余 4 个模型的可转移性。

比较我们的攻击与 CDA 和 GAP 攻击的有效性：

我们的表现平均分别优于这些基线 10.5 和 13.5 个百分点 (pp)（即愚弄率的绝对差异）
生成器使用 SqueezeNet 进行训练时，差异尤其明显
在 DenseNet121 案例中，CDA 和我们的差异为 13.6pp

在同一网络系列内转移攻击：

图 5 (a) ：使用 DenseNet121 训练生成器并在同一系列的其他网络（即 DenseNet161、DenseNet169 和 DenseNet201）上进行评估时的可迁移性
图 5 (b) ：ResNet 系列上类似实验的结果

ResNets 的情况下，我们的方法平均比 CDA 和 GAP 好 1.68pp、6.4pp，表明我们的特征分离损失对于同一家族内的攻击具有很好的泛化性。
我们与基线之间的性能差距随着训练深度的差异而增加——从 DenseNet121 上的 0.02pp 到 DenseNet201 上的 6.3pp。

随着训练生成器的目标数据样本数量的变化，攻击的可转移性:
我们的方法（蓝色条）始终保持比 GAP（红色条）和 CDA（黄色条）更高的愚弄率，即使对于少量训练样本也是如此。请注意，当大约 5K 样本可用时，所有方法都会趋于饱和，而我们的方法始终优于基线。
在这里插入图片描述

（三）向未知目标数据的可转移性

考虑两个合成数据集，漫画和绘画，描绘与 ImageNet 类似的对象，以及一个数据集 ChestX，包含完全不同类型的数据，因此存在很大的域差距。

我们的方法对所有 3 个数据集都产生了明显优越的结果。例如，在漫画方面，Ours 的表现比 GAP 和 CDA 平均分别高出 14.9 个百分点和 10.3 个百分点，在绘画方面则分别高出 14.9 个百分点和 11.0 个百分点。
在使用 ChestX 数据时仍然优于基线，平均约 22pp，但在这种具有挑战性的场景中，所有方法的愚弄率都显着下降。
总的来说，这些结果证明，尽管无法访问目标数据，即使使用完全来自于一个完全不同的域，人们也可以学会生成具有高欺骗率的对抗性示例。
此外，当使用我们的特征分离损失进行训练时，生成的生成器特别好地推广到看不见的目标域。

（四）极端的跨域可转移性

在极端情况下，目标架构和目标数据都不可用，甚至用于学习生成器的分类器也是根据与目标域不同的数据进行训练的。为此，我们使用在 ChestX 数据集上预训练的 ChestXNet 作为分类器。在denseblock12上使用不同的数据集训练生成器，并评估其可转移性。

尽管这种设置具有挑战性，但我们的方法仍然产生令人满意的愚弄率；平均愚弄率为 68.5pp，而标准黑盒场景中为 87.0pp。
此外，我们的方法平均比最先进的 CDA 快 18.5%。

（五）稳健模型的可迁移性

五种最先进防御：高级表示引导降噪器（HGD）、通过随机调整大小和填充的输入预处理防御（R＆P）、ResNeXt-101 上的特征去噪 (FD)、ResNet50 上的投影梯度下降 (PGD) 以及对抗性训练的 Inception 模型的三个集合的平均值 (EnsembleAdv)。

研究生成器到在五种最先进防御的可转移性，并且将我们的方法与 RHP 、GAP 和 CDA 进行比较。

在防御有效性方面，RHP 构成了最先进的通用攻击。
我们的方法在 HGD、R&P 和 EnsembleAdv 上取得了总体最佳性能。
这些方法都无法成功攻击特征去噪和 PGD 防御。
使用 PGD 和 FD 时，干净样本的错误率明显高于其他防御，使得这些策略不适合实际应用。

在这里插入图片描述

（六）跨任务可迁移性分析

为了证明我们的方法跨任务的可转移性，我们使用经过图像分类器训练的扰动生成器来攻击对象检测器。选择具有 4 个不同主干的 SSD 框架，即 VGG16、ResNet50、EfficientNet 和在 PASCAL VOC 上预训练的 MobileNet-v3。

在下表中，我们报告了 PASCAL VOC 测试集上的 mAP，包含 4952 个图像，对于使用不同图像分类器训练的扰动生成器，mAP = 16。SSD 检测器在干净图像上的性能为 68.1、66.1、61.1 和 55.4分别使用 VGG16、ResNet50、EfficientNet 和 MobileNetv3 作为主干。在大多数情况下，我们的攻击显着降低了这些分数并产生比基线更低的 mAP。例如，这些结果强调，使用图像分类器在合成漫画数据集上训练的生成器可以欺骗在不同领域、具有不同架构和不同任务上训练的 SSD 检测器。与 CDA 和 GAP 的比较证明，学习生成影响中级特征的扰动比关注分类边界更有效。
在这里插入图片描述

丁希希哇

关注

21
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】Learning Transferable Adversarial Perturbations 学习可转移的对抗性扰动

由于不同架构、不同数据或不同任务的 DNN 提取的中层特征具有很强的相似性，因此可以通过最大化样本的正常特征与在预训练分类器的中间层中提取的对抗性特征之间的距离来训练扰动生成器。五种最先进防御：高级表示引导降噪器（HGD）、通过随机调整大小和填充的输入预处理防御（R＆P）、ResNeXt-101 上的特征去噪 (FD)、ResNet50 上的投影梯度下降 (PGD) 以及对抗性训练的 Inception 模型的三个集合的平均值 (EnsembleAdv)。攻击前后的欺骗率和top-1错误的绝对差异。
复制链接

扫一扫

专栏目录