论文解读-Hybrid Batch Attacks: Finding Black-box Adversarial Examples with Limited Queries (USENIX‘20)

最新推荐文章于 2023-08-23 11:04:33 发布

chad_lee

最新推荐文章于 2023-08-23 11:04:33 发布

阅读量405

点赞数 2

分类专栏：论文解读对抗攻击

本文链接：https://blog.csdn.net/yanguang1470/article/details/119706534

版权

Hybrid Batch Attacks: Finding Black-box Adversarial Examples with Limited Queries

这篇文章是我在组会上汇报的一篇论文，这篇文章比较不错，因此我的笔记也更详细一些，如有借鉴请注明出处，谢谢。

本文作者针对黑盒攻击提出了混合攻击，将黑盒攻击两类主要的攻击方法结合起来，极大地降低了攻击成本，同时提升了成功率。此外作者针对更符合实际的场景提出了Hybrid Batch Attack，使得攻击者可以用极低得查询成本得到一定数量的对抗样本。同时攻击过程中的副产物用来fine-tuning本地模型，更接近目标模型。

Introduction

正常的样本有目的、有约束的加上一些扰动可能就会使得机器学习模型产生错误分类，这种样本就是对抗样本。高效的寻找对抗样本的方法是在白盒条件下，但是如果是在黑盒条件中，一般只有API接口可以调用，这就导致攻击的代价很高，因为调用接口有时间、数量和费用限制。黑盒攻击的难点，但是同时这也是黑盒攻击优势点，因为一般大家觉得我只要把模型部署在云上只提供API接口，我只要做好web安全，我的模型就一定是安全的了，会给人一种错误的安全感。

目前黑盒攻击主要可以划分为两类：transfer attacks和optimization attacks。首先就是模型可以在不同的数据集上迁移学习，反过来对抗样本也经常会在不同的模型上迁移。【比如图像分类模型就20种以内】所以攻击者可以在本地模型上利用白盒攻击生成对抗样本，然后希望迁移到目标模型上。因为本地模型的对抗样本可能无法成功转移到目标模型，所以这个transfer loss就会很高，特别是对于有目标的攻击，攻击者的目标是要找出模型输出到某一特定错误类别的对抗样本，而不是仅仅是分错就可以了。

Optimization attacks是将攻击目标制定为黑盒优化问题，针对目标模型使用一系列大量的查询来攻击，有很高的成功率，但是因为用到的查询太多，所以代价很高。

请添加图片描述

本文尝试了三种把二者结合起来的方法，发现确实有一种方法可以把transfer attack和optimization attack结合起来，可以大幅提高黑盒攻击成功率同时降低查询代价。他发现迁移攻击失败的样本是optimization attack攻击很好的起始样本。

Background

Transfer Attacks

迁移攻击利用了对抗样本也在不同模型上迁移的性质。攻击者在本地模型上开展标准的白盒攻击获得对抗样本，然后希望迁移到目标模型上。大部分工作假设攻击者可以接触到相似的训练数据或者基于相似数据分布的预训练模型。如果有预训练模型的话就不用查询目标函数来训练本地模型了。否则需要通过查询目标模型来训练本地模型，也被称为substitute training。需要很多查询才能替代训练一个有用的本地模型，而且对于复杂模型效果有限。

还有一种增强迁移攻击的方法是修改在本地模型上的白盒攻击。比如动量方法、攻击输入多样性、平移不变优化。

Optimization Attacks

optimization-based attacks通过定义一个目标函数，然后迭代的扰动输入来优化目标函数。这要求对目标模型的查询会返回一个完整的预测得分，然后区分出哪些设计估计目标函数的梯度，哪些不依赖估计梯度。

梯度攻击

基于梯度的黑盒攻击在数值上估计目标模型的梯度，并用其执行标准的白盒攻击。

在这里插入图片描述

这一类代表是ZOO(zeroth-order optimization)attack，通过有限差分，利用数值方法去估计梯度，从而去改变输入，但是查询次数太多了。很多基于此的工作(ZOO+PCA、AutoZOOM、NES、 $Bandits_{TD}$ 、SignHunter等等)都是在想尽办法减少查询次数，提高效率。可以看出ZOO是一种很好的梯度攻击方法，但是效率太低，改善其效率是之后研究者心心念念的事情

无梯度攻击

基于搜索的启发式方法. 效率比基于梯度的还差.

更严格的黑盒攻击

目标模型不返回全部概率, 仅返回最高的几个置信分数或者just label. 针对这个问题最朴素的方法是从目标样本出发random walk.

Hybrid Attacks

首先假设本地可以预训练一个类似的模型，可以用类似的训练数据。作者提出本文的三个假设：

本地模型的对抗样本相对于原始种子，是optimization attacks更好的起始点。 不同的模型往往会有相似的分类边界，因此假设尽管在本地模型上的对抗样本可能不能迁移到目标模型上，但这些样本仍然更加接近分类边界，是更好的攻击起始点
optimization attacks学到的标签可以来tune本地模型。生成横跨本地模型分类边界的样本可以训练本地模型更接近目标模型。因此优化搜索查询的结果可能包含更丰富的信息，比如真是目标决策边界。这些新标记的输入是优化攻击的副产品，可以用来微调本地模型来提高其可迁移性。
本地模型可以帮助梯度搜索。因为对于相同的分类任务，不同的模型往往会有相似的分类边界，因此假设本地模型的梯度信息可能帮助校准梯度估计。

攻击方法

基于前两种假设，通过两种方式结合迁移攻击和优化攻击：

结合流程图理解Hybrid Attack的算法：

在这里插入图片描述

选一张种子在本地模型上白盒攻击，然后将本地模型的上的对抗样本迁移到目标模型上，如果迁移攻击成功了就成功了，如果失败了这个样本就是优化攻击的起始点（种子图像也要传进模型？）。不管黑盒攻击成功与否，攻击期间得到的标签都可以用来微调本地模型。

实验评价

本地模型是Ensemble模型，可以提高迁移率、减少查询。

白盒攻击用PGD。

优化攻击用NES和AutoZOOM。

有目标攻击就以预测概率最低的类别作为目标。对于robust models用无目标攻击，因为这些模型旨在防御无目标攻击。

攻击距离度量和幅度

用 $L_{\infty}$ 来衡量扰动距离，这是黑盒对抗攻击研究中最常用的强度指标。AutoZOOM是 $L_2$

最低0.47元/天解锁文章

chad_lee

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
论文解读-Hybrid Batch Attacks: Finding Black-box Adversarial Examples with Limited Queries (USENIX‘20)

Hybrid Batch Attacks: Finding Black-box Adversarial Examples with Limited Queries这篇文章是我在组会上汇报的一篇论文，这篇文章比较不错，因此我的笔记也更详细一些，如有借鉴请注明出处，谢谢。本文作者针对黑盒攻击提出了混合攻击，将黑盒攻击两类主要的攻击方法结合起来，极大地降低了攻击成本，同时提升了成功率。此外作者针对更符合实际的场景提出了Hybrid Batch Attack，使得攻击者可以用极低得查询成本得到一定数量的对抗样本
复制链接

扫一扫