论文阅读 (99)：Black-box Adversarial Attacks with Limited Queries and Information (2018ICML)-CSDN博客

本文链接：https://blog.csdn.net/weixin_44575152/article/details/132415376

文章目录

1 概述
2 一些定义
3 方法

1 概述

1.1 要点

题目：基于少量查询和信息的黑盒对抗攻击 (Black-box adversarial attacks with limited queries and information)

背景：基于神经网络的分类器在黑盒设置下对对抗样本敏感，其中攻击者只拥有模型的查询权限。实际应用中，这样的威胁模型比典型的黑盒模型更具限制性。在典型的黑盒模型中，攻击者可以在任务输入多个选定的输入上观察网络的完整输出。

策略：为了更准确地刻画现实中的分类器，我们定义了三种威胁模型：

查询限制设置；
部分信息设置；
仅限标签设置。
我们在这三种威胁模型下发展了权限的攻击算法以愚弄分类器。

1.2 代码

https://github.com/labsix/limited-blackbox-attacks

1.3 引用

@inproceedings{Ilyas:2018:21372146,
author		=	{Ilyas, Andrew and Engstrom, Logan and Athalye, Anish and Lin, Jessy},
title		=	{Black-box adversarial attacks with limited queries and information},
booktitle	=	{{ICML}},
pages		=	{2137--2146},
year		=	{2018},
url			=	{https://proceedings.mlr.press/v80/ilyas18a.html}
}

2 一些定义

对抗样本是一个仅添加细微扰动就令分类器误分类的输入。给定输入 $x$ 、目标类 $y_{adv}$ ，以及扰动边界 $\epsilon$ ，本文的目的是找到一个输入 $x_{adv}$ ，其满足 $\|x_{adv}-x\|_\infty<\epsilon$ 且 $x_{adv}$ 被分类为 $y_{adv}$ 。

2.1 黑盒模型

在黑盒模型设置下，攻击者仅能通过提供输入 $x$ 来获得预测的类别概率，即对于所有类别 $y$ ，有 $P (y ∣ x)$ 。这个设置将不允许攻击者获取梯度 $\nabla P(y|x)$ 。

接下来，我们将引入三种威胁模型，并限制其查询权限。

2.2 威胁模型

2.2.1 查询限制设置

攻击者对分类器只有少量查询次数。该设置下，我们希望能够高效地生成对抗样本。查询次数的限制也可以替换为其它限制，例如时间和查询成本。

示意：Clarifar NSFW检测API是一个二分类器，给定任意图像 $x$ ，其返回 $P (NSF W ∣ x)$ 。当查询2500次后，Clarifai API每1000查询将消耗$2.4。

2.2.2 部分信息设置

攻击者仅能获得概率最大的 $k$ 个类别的概率 $P(y|x)=\{ y_1,\dots, y_k \}$ 。分类器甚至可以输出一个总和不等于1的分数来代替概率，以指示预测的相对置信度。当 $k = 1$ 时，攻击者仅能访问顶部标签及其概率，在这种情况下，部分信息攻击也应该成功。

示意：Google Cloud Vision (GCV) API仅输出top类别的置信得分。

2.2.3 仅限标签设置

攻击者仅能获得依据类别概率排列的 $k$ 个标签。

示意：Photo tagging app例如Google Photos为用户载入的图片添加标签。

3 方法

本节首先将描述在黑盒模型中高效生成对抗样本的自然进化策略。然后在部分信息设置下讨论攻击算法。最后描述仅限标签设置下的方法。

令 $\prod_[x-\epsilon,x+\epsilon](x')$ 表示投影操作，其用于在 $\ell_\infty$ 的限制下将 $x^{'}$ 映射为由 $\epsilon$ 约束的 $x$ 。当 $x$ 无扰动时，投影操作简写为 $\prod_\epsilon(x')$ 。投影过程定义为 $\text{Clip}(x',x-\epsilon,x+\epsilon)$ 。

令 $\text{rank}(y|x)$ 表示 $x$ 的top- $k$ 类别， $\mathcal{N}$ 和 $\mathcal{U}$ 分别表示正态分布和均匀分布。

3.1 查询限制设置

当前设置下，攻击者有预算 $L$ ，其目的是在 $L$ 次查询以内导致目标误分类。为了处理该设置，我们使用用于生成对抗样本的标准一阶技术，其用梯度估计代替损失函数的梯度。梯度估计是通过查询分类器而不是通过自微分计算来近似。本节将基于自然进化策略说明如何基于查询高效评估梯度，然后如何基于此生成对抗样本。

3.1.1 自然进化策略 (NES)

NES是一种基于搜索分布 $\pi(\theta|x)$ 的无导数优化方法。与最大化目标函数 $F (x)$ 不同，NES最大化搜索分布下损失函数的期望值。这使得梯度评估的查询次数远小于有限差分方法。对于一个损失函数 $F(\cdot)$ 和参数 $x$ 的集合，有：
$\begin{aligned} \mathbb{E}_{\pi(\theta|x)}[F(\theta)]=&\int F(\theta)\pi(\theta|x)\text{d}\theta\\ \nabla_x\mathbb{E}_{\pi(\theta|x)}[F(\theta)]=&\nabla_x\int F(\theta)\pi(\theta|x)\text{d}\theta\\ =&\int F(\theta)\nabla_x\pi(\theta|x)\text{d}\theta\\ =&\int F(\theta)\frac{\pi(\theta|x)}{\pi(\theta|x)}\nabla_x\pi(\theta|x)\text{d}\theta\\ =&\int \pi(\theta|x) F(\theta) \nabla_x \log (\pi(\theta|x))\text{d}\theta\\ =&\mathbb{E}_{\pi(\theta|x)}[F(\theta)\nabla_x\log(\pi(\theta|x))]\\ \end{aligned}$ 我们选则当前 $x$ 周围随机高斯噪声的搜索分布，即 $\theta=x+\sigma\delta$ ，其中 $\delta\sim\mathcal{N}(0,I)$ 。接下来使用对立抽样来生成 $\delta_i$ 值构成的种群：对于 $i\in\{1,\dots,\frac{n}{2}\}$ ，采用高斯噪声；对于 $j\in\{(\frac{n}{2}+1),\dots,n\}$ ，设置 $\delta_j=-\delta_{n-j+1}$ 。经验表明，这种优化可以提高NES的性能。使用此方案下的 $n$ 个点的采样来评估梯度会产生以下方差减少的梯度估计：
$\nabla\mathbb{E}(F(\theta))\approx\frac{1}{\sigma n}\sum_{i=1}^n\delta_iF(\theta+\sigma\delta_i)$ 最终，我们基于NES梯度估计的动量来执行投影梯度下降更新。以上讨论了NES的特殊情况，其可以看作是在随机高斯上的有限差分估计。

对于一个 $n$ 维空间和 $N$ 个随机采样的高斯向量 $v_1\dots v_N$ ，我们可以降低 $N$ 个随机高斯函数是 $c$ 正交的概率。
$N\leq-e^{\frac{c^2n}{4}}\ln(p)^{\frac{1}{2}}\Rightarrow\mathbb{P}\left\{ \frac{v_i\cdot v_j}{\|v_i\|\|v_j\|} \leq c\forall(i,j)\right\}\geq p$ 考虑一个 $\delta_i$ 列的矩阵 $\Theta$ ，NES输出投影 $\Theta(\nabla F)$ ，我们可以使用来自拼接理论的标准结果分析估计结果。通过使用Johnson-Lindenstrauss定理，估计梯度 $\hat{\nabla}$ 的上界和下界可以通过真实梯度 $\nabla$ 来限制。当 $\sigma\to0$ ，有：
$\mathbb{P}\left\{ (1-\delta) \| \nabla \|^2 \leq \| \hat{\nabla} \|^2 \leq (1+\delta) \| \delta \|^2 \right\}\geq1-2p$ 其中 $0<\delta<1$ ， $N=O(\delta^{-2}\log(p))$ 。

3.1.2 查询限制攻击

在查询限制设置设置中，NES被用作无偏、高效的梯度估计器，其细节如算法1。投影梯度下降 (PGD) 通过使用评估梯度sign后的值来执行：
$x^{(t)}=\prod_{[x_0-\epsilon,x_0+\epsilon]}(x^{(t-1)}-\eta\cdot\text{sign}(g_t))$ 算法的超参数包括步长大小 $\eta$ 、用于评估梯度的采样数 $N$ 。在查询次数 $L$ 的限制下，每次查询数为 $N$ ，故PGD最多执行 $\frac{L}{N}$ 步。

3.2 部分信息设置

在部分信息设置下，算法的起点不再是图像 $x$ ，而是具有目标标签 $y_{adv}$ 的实例 $x_0$ ，使得 $y_{adv}$ 更容易出现在top- $k$ 类别中。

在每一步 $t$ 中，我们交替执行：

投影到以原始图像 $x_0$ 为中心、尺寸递减 $\epsilon_t$ 的 $\ell_\infty$ 框中，保持对抗类别始终在top- $k$ 内：
$\epsilon_t=\min \epsilon' \text{ s.t. rank}\left( y_{adv} | \prod_{\epsilon'} \left( x^{(t-1)} \right) \right)<k$
最大化对抗目标类的概率，以扰动图像：
$x^{(t)}=\argmax_{x'}P\left(y_{adv}|\prod_{\epsilon_{(t-1)}}\left( x' \right)\right)$ 我们通过回溯线搜索找到使得对抗类别在top- $k$ 类别内的 $\epsilon_t$ ，PGD将在几次迭代后找到 $x^{(t)}$ ，完整的过程如算法2.

3.3 仅限标签设置

进行攻击的关键点在于，在没有输出分数的情况下，找到一种替代方法来表征对抗样本的成功。首先，基于对抗标签 $y_{adv}$ 的排名
$R(x^{(t)})=k-\text{rank}(y_{adv}|x^{(t)})$ 以定义对抗样本的离散化得分 $R(x^{(t)})$ 来评估每一步 $t$ 时图像的对抗性。作为softmax概率的替换，考虑对抗图像对随机扰动的健壮性，使用离散化得分来评估对抗性：
$S(x^{(t)})=\mathbb{E}_{\delta\sim\mathcal{U}[-\mu,\mu]}[R(x^{(t)}+\delta)]$ 基于Monte Carlo近似，代理得分被评估为：
$\hat{S}(x^{(t)})=\frac{1}{n}\sum_{i=1}^nR(x^{(t)}+\mu\delta_i)$ 该过程的可视化过程如图1。进而， $\hat{S}(x)$ 被看作是用于输出概率 $P(y_{adv}|x)$ 的替换，然后基于部分信息设置和对 $\nabla_x\hat{S}(x)$ 的评估来找到对抗样本。