Transfer Attacks Revisited: A Large-Scale Empirical Study in Real Computer Vision Settings

最新推荐文章于 2024-07-19 22:46:50 发布

想发CCFA

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量1.9k

点赞数 46

分类专栏：大模型安全文章标签：人工智能

本文链接：https://blog.csdn.net/weixin_60335028/article/details/138923693

版权

大模型安全专栏收录该内容

6 篇文章 0 订阅

订阅专栏

最近被毕设搞得焦头烂额，放慢了阅读的进度，这一篇感觉相比于以前难度也有所提升，所以读的有点云里雾里。但还是把笔记先放上来，后面有时间了重新阅读并更新。

Abstract

One intriguing property of adversarial attacks istheir “transferability” – an adversarial example crafted withrespect to one deep neural network (DNN) model is often foundeffective against other DNNs as well. Intensive research hasbeen conducted on this phenomenon under simplistic controlledconditions. Yet, thus far there is still a lack of comprehensiveunderstanding about transferability-based attacks (“transfer attacks”) in real-world environments.To bridge this critical gap, we conduct the first large-scalesystematic empirical study of transfer attacks against majorcloud-based MLaaS platforms, taking the components of a realtransfer attack into account. The study leads to a number ofinteresting findings which are inconsistent to the existing ones,including: (i) Simple surrogates do not necessarily improve realtransfer attacks. (ii) No dominant surrogate architecture is foundin real transfer attacks. (iii) It is the gap between posterior(output of the softmax layer) rather than the gap betweenlogit (so-called κ value) that increases transferability. Moreover,by comparing with prior works, we demonstrate that transferattacks possess many previously unknown properties in realworld environments, such as (i) Model similarity is not a welldefined concept. (ii) L2 norm of perturbation can generate hightransferability without usage of gradient and is a more powerfulsource than L1 norm. We believe this work sheds light on thevulnerabilities of popular MLaaS platforms and points to a fewpromising research directions.

总结：

对抗性攻击的可转移性在现实世界环境中尚未得到充分理解。

实证研究表明，简单的替代模型并不一定提高转移攻击的效果，且没有单一的替代架构在实际攻击中占主导地位。

转移攻击的成功与后验输出之间的差距有关，而不是logit之间的差距。

转移攻击在现实世界中表现出之前未知的特性，包括模型相似性不是一个明确定义的概念，以及L2范数的扰动比L1范数更能产生高可转移性。

研究揭示了MLaaS平台的潜在脆弱性，并为未来的研究方向提供了指导。

Introduction

DNNs在多种应用领域取得了巨大成功，但它们对AEs的脆弱性限制了其在安全敏感领域的应用。

AEs的可转移性允许攻击者使用替代DNN来攻击目标DNN，这对基于云的MLaaS平台构成了严重威胁。

以往的研究在控制的实验室环境中进行，可能无法准确反映真实环境中的转移性。

本研究通过大规模实证研究，探索了真实环境中影响转移性的因素，并评估了四个主要商业MLaaS平台的鲁棒性。

研究确定了评估真实世界转移攻击的新指标，并指出了提高DNNs在安全敏感领域应用的潜在研究方向。

BackGround

Transfer Attack

这一部分主要是对转移攻击的介绍。

转移攻击是一种特殊的对抗性攻击，它利用对抗性示例的可转移性来欺骗目标模型。

对抗性攻击的目的是生成一个对抗性示例，这个示例在视觉上与原输入接近，但会导致模型做出错误的预测。

成功的转移攻击不需要关于目标模型的任何信息，这使得这种攻击方式更为隐蔽和经济。

转移攻击的成功依赖于替代模型、替代数据集和对抗性算法这三个关键组成部分。

研究转移攻击有助于理解深度学习模型的脆弱性，并为构建更安全的机器学习系统提供指导。

Surrogate Model

替代模型是攻击者用来生成对抗性示例的模型，其设计通常模仿目标模型以提高AEs的可转移性。

影响替代模型与目标模型相似性的因素包括预训练、模型架构和模型复杂性。

预训练可以通过使用大型数据集上预训练的公共模型来提高替代模型的准确性。

不同的DNN架构会导致不同的拟合函数，这可能会影响AEs的可转移性。

模型复杂性可以通过层数和参数数量来定义，但也可以通过损失景观的变异性和输入梯度大小来定义。

实验确认了输入梯度大小对本地目标的影响，但由于MLaaS模型的梯度不透明，损失景观的变异性在本研究中未被用作复杂性度量。

Surrogate Dataset

替代数据集的目的是模拟目标模型的训练数据分布，以便生成的对抗性示例更容易转移。

攻击者通常只能访问比MLaaS系统拥有的数据集小得多的替代数据集。

为了提高替代数据集的有效性，可以采用数据增强和对抗性训练两种方法。

数据增强通过应用图像转换来扩展模型学习到的模式，而对抗性训练通过引入对抗性示例来增强模型对鲁棒特征的关注。

这些方法有助于替代模型在数据量有限的情况下学习到更有效的特征。

Adversarial Algorithm

对抗性算法是白盒攻击算法的一种，它们通过不同的目标和优化过程被分为不同的类别，旨在生成能够欺骗模型的对抗性示例，以评估和增强机器学习模型的安全性。

Threat Model

这一部分讨论了在MLaaS平台上进行的转移攻击，特别是对抗样本（AE）的生成和使用。

攻击者无法直接访问目标模型的结构和训练数据，只能通过API与模型交互。

定义了目标型和非目标型AE，以及它们在目标型和非目标型转移攻击中的应用。

攻击者可能维护一个可转移的AE池，这使得每个AE都可以用来发起攻击。

强调了转移性作为AE的一个属性，并且可以研究转移性与样本级属性之间的关系。

Evaluation Settings and Metrics

Evaluation Settings

替代模型设置：实验中评估了多种替代模型配置，包括不同深度的ResNet模型（ResNet-18, ResNet-34, ResNet-50）和Inception V3、VGG-16。这些模型使用PyTorch和TorchVision库实现。实验比较了未预训练和在ImageNet数据集上预训练的模型，并对对象分类和性别分类任务进行了微调。

替代数据集设置：使用了ImageNet的子集和Adience数据集的子集，每个类别包含一定数量的图像，并进行了尺寸裁剪。数据集被随机分割为训练集、验证集和测试集，并应用了数据增强技术和对抗性训练算法。

对抗性算法设置：实验采用了九种对抗性攻击算法，包括目标型和非目标型算法，如BL-BFGS、CW2、DeepFool等。这些算法通过迭代方法生成对抗样本（AEs），并优化了扰动大小。

云实验设置：在四个主要的商业机器学习即服务（MLaaS）平台（Google Cloud Vision、AWS Rekognition、Aliyun和Baidu Cloud）上进行了实验。通过各平台的官方API发送AEs并保存响应以进行评估。

这些设置共同构成了一个全面的实验框架，用于评估和比较不同模型、数据集和攻击算法在现实世界云服务中的表现和有效性。通过这些实验，研究人员可以更好地理解在不同设置下模型的性能和行为，以及它们在面对对抗性攻击时的鲁棒性。

Evaluation Metrics

评估挑战：在多类分类任务中，如ImageNet，评估转移攻击的成功性面临两个主要挑战：标签不一致问题和多重预测问题。

标签不一致问题：由于MLaaS平台的类别集L与本地类别集C可能存在差异，一个本地类别可能与平台的子类或超类相对应，导致直接关联本地标签和平台标签存在困难。

多重预测问题：MLaaS平台对单一输入可能提供多个预测，而真实情况通常只有一个正确的标签。这使得使用如top-k准确度这样的传统评估指标变得不再合理。

解决方案：为了解决上述问题，研究者提出了以下解决方案：

类别映射：为每个本地类别和MLaaS平台构建一个类别映射Mc，以匹配本地类别和平台类别。

置信度阈值：为每个平台选择一个置信度阈值σ，以过滤掉得分低的预测，确保评估的公平性。

评估指标：定义了错误分类率和匹配率两个指标来评估转移攻击的有效性。对于性别分类任务，由于性别是二元的，错误分类率和匹配率实际上是一致的，因此进一步考察了男性到女性的转换率（M2F率）和女性到男性的转换率（F2M率）。

阈值选择：通过在不同阈值下测量云平台对原始ImageNet数据的预测准确性，来为每个平台设置适当的置信度阈值σ。研究发现不同平台的预测分数分布特点不同，因此设置了不同的阈值以减少评估过程中的不公平性。

匹配形式化：本地类别与MLaaS平台响应之间的匹配被形式化定义，区分了错误分类和匹配的敌意样本，并指出匹配的敌意样本并不一定被错误分类。

性别分类的特殊处理：对于性别分类，由于性别是二元的，错误分类率和匹配率实际上是一致的，因此特别考察了男性到女性和女性到男性的转换率。

Results and analysis

文章通过OLS回归分析探讨了影响对抗性样本迁移性的多种因素。

分析了平台、替代模型、对抗性算法等因素对迁移性指标的影响，并得出了经验性观察结果。

讨论了对抗性扰动的范数、置信度和分类难度等因素如何影响迁移性。

使用了统计方法来测试不同因素之间的关系，并用p值来衡量这些关系的显著性。

文章假设不同因素对迁移攻击的影响可以相加地分离，从而推广了从特定模型（如ResNet）得出的观察结果。

通过下标和特定的符号表示了统计测试的结果和p值，以便于理解和解释。

Threat Setting Factors

集中在使用统计方法，特别是层次化普通最小二乘回归（OLS）分析，来研究和量化影响对抗性样本（adversarial examples, AEs）在不同机器学习模型间迁移性的因素。主要关注以下几个方面：

威胁设置因素：分析了MLaaS平台上的目标模型、替代模型和对抗性算法等因素如何影响对抗性样本的迁移性。

平台因素：探讨了不同目标平台的脆弱性，即它们对转移攻击的抵抗力，发现平台的迁移性与其准确度并不直接相关。

预训练和替代数据集因素：研究了预训练和数据增强等技术如何影响替代模型的迁移性，发现预训练对于有目标的转移攻击有益，但对于无目标的攻击则不是。

对抗性算法因素：分析了不同的对抗性算法（如FGSM、PGD等）在迁移性方面的表现，并发现某些算法（如FGSM）在真实应用中的迁移性更强。

替代深度因素：考察了替代模型的深度对迁移性的影响，发现对于复杂任务，选择适当深度的替代模型比过于简单或过于复杂的模型更有效。

替代级因素的联合效应：研究了替代模型的不同训练因素（如预训练、对抗性训练、数据增强）之间的交互作用，发现这些因素的交互作用非常复杂，需要针对具体任务进行实验和调整。

不同因素的重要性：通过比较回归分析中R²的变化，评估了不同因素对迁移性的贡献大小，发现选择合适的目标平台和对抗性算法对提高攻击成功率最为关键。

替代架构因素：分析了不同替代模型架构对迁移性的影响，发现在真实世界的转移攻击中，并没有单一的架构家族表现显著优于其他架构。

提出了七个observation：

Observation 1:

在真实转移攻击中，攻击目标模型的难度并不直接与其准确度相关，即一个准确度更高的目标可能更容易受到转移攻击。没有单一平台在不同类型的转移攻击（无目标攻击与有目标攻击，F2M与M2F）中都具有优越的鲁棒性。因此，由于转移攻击具有非平凡的成功率和低成本，应认真对待真实应用中的转移攻击威胁。

Observation 2:

预训练提高了有目标转移攻击的效果，但并未提高无目标转移攻击的效果。这表明，要适当定义模型相似性极为困难。

Observation 3:

在真实应用中，强大的对抗性算法（例如CW2）可能具有较弱的迁移性。此外，单步算法（如FGSM）比迭代算法（如PGD）在迁移性上表现得更好，这表明关于种子图像的梯度可能是最具迁移性的信息。

Observation 4:

替代模型的复杂性，由替代模型的深度定义，对迁移性有非单调效应。适当深度的替代模型比更简单或更复杂的替代模型更好。

Observation 5:

替代级因素之间的交互作用非常复杂且任务特定。训练一个好的替代模型需要试验和错误。

Observation 6:

在所有讨论的因素中，改进转移攻击最简单且最有益的做法是应用适当的对抗性算法，例如FGSM。

Observation 7:

在真实的转移攻击中，没有发现单一的主导架构家族。这表明除了VGG之外，其他替代模型架构家族在真实转移攻击中也值得关注。

Sample property Factors

主要要点：

对抗性样本（AEs）的迁移性与对抗性扰动的L2范数非常相关，但与L1范数无关。增加L2范数同时保持L1范数固定可以提高AEs的迁移性。

对抗性置信度，如CW攻击中的κ值，既不是迁移性的好测量方法，也不是提高迁移性的好工具。特别是，增加κ值并不总是增加迁移性。

从难以分类的种子图像生成的AEs具有更好的迁移性，真实世界的攻击者应该在转移攻击中优先选择自然AEs。

在上一部分的基础上又提出了3个observation

Observation 8:

对抗性样本（AEs）的迁移性与扰动的L2范数非常密切地相关，但与L1范数无关。即使在人类视觉系统被认为对L2范数不敏感的情况下，增加固定L1范数下的L2范数可以提高AEs的迁移性。

Observation 9:

在转移攻击中，对抗性类别和第二最可能类别之间的logit差异（称为κ值）既不是一个衡量迁移性的好指标，也不是一个提高迁移性的好工具。增加CW攻击中的κ阈值并不总是增加迁移性。

Observation 10:

从在替代模型上难以分类的种子图像生成的对抗性样本（AEs）具有更好的迁移性。这意味着在现实世界的转移攻击中，攻击者应该优先选择那些自然就是对抗性样本的图像，因为这些图像在理论上更接近分类边界，对抗性扰动更有可能在这些图像上迁移。

Discussion

Ethic

强调了一些伦理的问题。

Limitation and future work

作者明确了研究的目标是系统性地审视影响对抗性样本迁移性的各个因素，但同时也指出了研究中存在的一些未完全理解的问题。

文中提到的假设，比如任务复杂性增加时局部最优解数量的增长趋势，并未得到验证，这表明需要在未来的研究中进一步探讨。

由于资源有限，作者未能在真实环境中找到最佳的超参数设置，这表明寻找最优超参数是一个需要大量资源的复杂问题，也是未来研究的一个方向。

文中关于攻击算法的结论是基于特定超参数设置的，并不意味着这些算法在所有超参数设置下的表现。

作者提到了CW攻击中κ值的选择，指出实验中为了公平比较，选择了κ = 0的设置，但实际攻击者可能会根据情况选择更大的κ值以提高攻击效果。

Related Works

本文专注于对抗性攻击中的迁移攻击，即利用替代模型生成的AEs对未知目标模型进行攻击。

早期研究主要集中在白盒攻击上，但随着对抗性样本迁移性的发现，研究开始转向黑盒攻击，即在没有目标模型完整信息的情况下进行攻击。

多个研究团队已经对AEs的迁移性进行了研究，提出了提高迁移性的方法，包括使用集成替代模型、减少梯度方差、放宽对抗性扰动的范数约束等。

Demontis等人的研究表明，简单的替代模型和更好的梯度对齐可以提高迁移性。

本文的工作旨在检验现有结论在真实应用中的适用性，并通过实验探索替代模型复杂性与迁移性之间的关系，特别是替代模型深度对迁移性的影响。

作者认为，通过使用具有相同架构族但不同深度的替代模型来评估复杂性的影响，而不是改变正则化，可以更准确地评估替代模型复杂性与迁移性之间的关系。

作者的结论补充了Demontis等人的工作，指出替代模型深度对迁移性的影响是非单调的，这一发现对于理解和提高迁移攻击的有效性具有重要意义。

Conclusion

总结了得出的结论：

模型相似性概念：对于迁移攻击来说，模型相似性的概念并不适合。

替代模型的复杂性：适当复杂度的替代模型可以超越更简单或更复杂的模型。

MLaaS系统的鲁棒性：不同的MLaaS系统对迁移攻击的鲁棒性水平不同，且可以进一步努力提高。

强大的对抗性算法：强大的对抗性算法并不一定迁移得更好，单步算法比迭代算法迁移得更好。

对抗性算法和目标平台：对抗性算法和目标平台是迁移攻击中最重要的因素，选择适当的对抗性算法是最有益的做法。

替代架构：在真实的迁移攻击中，没有单一的替代架构占主导地位。

对抗性扰动的L2范数：对抗性扰动的较大L2范数可能比L1范数是迁移性的更直接来源。

后验的对数几率差距：后验的对数几率之间的较大差距可以带来更好的迁移性。

分类难度：在选择迁移攻击的种子图像时，应优先考虑分类难度。

想发CCFA

关注

46
点赞
踩
23

收藏

觉得还不错? 一键收藏
0
评论
Transfer Attacks Revisited: A Large-Scale Empirical Study in Real Computer Vision Settings

Transfer Attacks Revisited: A Large-Scale Empirical Study in Real Computer Vision Settings阅读笔记
复制链接

扫一扫