发表位置:35th International Conference on Machine Learning, ICML
发表时间:2018
摘要
基于神经网络的分类器很容易受到对抗样本的影响,即使攻击者只有对模型的查询访问权。实际上,现实世界系统的威胁模型通常比典型的黑盒模型更有限制性,在黑盒模型中,对手可以在任意多个选择的输入上观察到网络的全部输出。在此,作者选择了三个真实的威胁模型:查询量有限、部分信息设置和仅标签有限。针对这三个问题,作者提出了一种新的黑盒攻击方法
背景
基于神经网络的图像分类器很容易受到对抗样本的影响,细微干扰的输入就能欺骗了分类器。这些对抗扰动可能会在现实世界中被利用。对于许多商业或专有系统,必须在有限威胁模型下考虑对抗样本。这就引发了不需要访问分类器梯度的黑盒攻击。黑盒攻击面临的三个约束:
(1)Query-limited setting
攻击者对分类器具有有限的查询结果,对查询数量的限制可能是对其他资源的限制的结果,例如,时间限制和金钱限制。
(2)Partial-information setting 如何保证生成的目标类在属于top-k类
攻击者只能访问标签 y 在 top k 类标签
y
1
,
y
2
,
.
.
.
,
y
k
{y_1,y_2,...,y_k}
y1,y2,...,yk 的概率
p
(
y
∣
x
)
p(y|x)
p(y∣x)
(3) Label-only setting 只知道top-k 中有啥类别,不知道类别的score 如何确定每个类别的score
在只使用标签的设置中,敌手不能访问类的概率或分数,只能访问
k
k
k个根据其预测概率排序的推断标签的列表。
本文的贡献:
(1)针对Query-efficient adversarial examples,作者使用Natural Evolutionary Strategies(NES)作为黑盒梯度攻击方法,基于估计的梯度,运用projected gradient descent构造对抗样本
(2)针对Adversarial examples with partial information,NES从图像的目标类开始,然后交替混合原始图像和最大化目标的类的相似性
(3)针对 Label-only setting,作者将噪声鲁棒性作为分类分数的代理加入到我们的部分信息攻击中,以在仅标签设置中进行目标攻击。
方案
- Query-efficient adversarial examples
(1)梯度估计
Natural Evolutionary Strategies(NES):基于搜索分布的无导数优化方法
由于NES在搜索分布
π
(
θ
∣
x
)
\pi (\theta |x)
π(θ∣x)下最大化损失函数的期望值。与典型的有限差分方法相比,可以使用更少的查询中进行梯度估计。由[1]可得期望梯度为,
本文作者设置的搜索分布为当前图像x周围选择一个随机高斯噪声的搜索分布,即,
θ
=
x
+
σ
δ
\theta = x + \sigma \delta
θ=x+σδ,
δ
∼
N
(
0
,
I
)
\delta \sim N(0,I)
δ∼N(0,I),作者使用antithetic sampling生成
δ
i
{\delta _i}
δi。作者从
i
∈
{
1
,
.
.
.
,
n
2
}
i \in \{ 1,...,\frac{n}{2}\}
i∈{1,...,2n}中对偶采样,并设置
δ
j
=
−
δ
n
−
j
+
1
{\delta _j} = - {\delta _{n - j + 1}}
δj=−δn−j+1, 其中,
j
∈
{
(
n
2
+
1
)
,
.
.
.
,
n
}
j \in \{ (\frac{n}{2} + 1),...,n\}
j∈{(2n+1),...,n}。抽样n个点估计梯度可得梯度估计值为,
∇ E [ F ( θ ) ] ≈ 1 σ n ∑ i = 1 n δ i F ( θ + σ δ i ) \nabla E[F(\theta )] \approx \frac{1}{{\sigma n}}\sum\limits_{i = 1}^n {{\delta _i}F(\theta + \sigma {\delta _i})} ∇E[F(θ)]≈σn1i=1∑nδiF(θ+σδi)
梯度更新伪代码如下图所示,
(2)基于估计的梯度,构造对抗样本:
x ( t ) = ∏ [ x 0 − ε , x 0 + ε ] ( x ( t − 1 ) − η ⋅ s i g n ( g t ) ) {x^{(t)}} = \prod {_{[{x_0} - \varepsilon ,{x_0} + \varepsilon ]}({x^{(t - 1)}} - \eta \cdot sign({g_t}))} x(t)=∏[x0−ε,x0+ε](x(t−1)−η⋅sign(gt))
其中, η \eta η表示超参数, ∏ [ x 0 − ε , x 0 + ε ] ( x ′ ) \prod {_{[{x_0} - \varepsilon ,{x_0} + \varepsilon ]}({x^{'}})} ∏[x0−ε,x0+ε](x′)表示 x ′ x^{'} x′在 ε \varepsilon ε-ball的 L ∞ {L_\infty } L∞投影。
- Adversarial examples with partial information: 如何保证生成的目标类在属于top-k类
作者从目标类 y a d v {y_{adv}} yadv 的实例 x 0 x_0 x0 开始,所以 y a d v {y_{adv}} yadv 初始时就存在与 t o p − k top-k top−k类中,在第 t t t步,作者交替利用如下方法:
(1) 投影到以 x 0 x_0 x0为中心, ε t {\varepsilon _t} εt 逐渐变小的 L ∞ {L_\infty } L∞,始终保持对抗类 y a d v {y_{adv}} yadv一直在 t o p − k top-k top−k 中:
ε t = min ε ′ s . t . , r a n k ( y a d v ∣ ∏ ε ′ ( x ( t − 1 ) ) ) {\varepsilon _t} = \min {\varepsilon ^{'}}{\rm{ s}}{\rm{.t}}{\rm{., rank(}}{y_{adv}}|\prod {_{{\varepsilon ^{'}}}({x^{(t - 1)}})} {\rm{)}} εt=minε′s.t.,rank(yadv∣∏ε′(x(t−1)))
其中, r a n k ( y a d v ∣ ∏ ε ′ ( x ( t − 1 ) ) ) {\rm{rank(}}{y_{adv}}|\prod {_{{\varepsilon ^{'}}}({x^{(t - 1)}})} {\rm{)}} rank(yadv∣∏ε′(x(t−1)))表示使 y a d v {y_{adv}} yadv在 ∏ ε ′ ( x ( t − 1 ) ) \prod {_{{\varepsilon ^{'}}}({x^{(t - 1)}})} ∏ε′(x(t−1))的分类中处于top-k类中的最小 k k k。
(2)最大化对抗目标类出现的概率,扰动图像,
x ( t ) = arg max x ′ P ( y a d v ∣ ∏ ε t − 1 ( x ′ ) ) {x^{(t)}} = \arg \mathop {\max }\limits_{x{'}} P({y_{adv}}|\prod {_{{\varepsilon _{t - 1}}}({x^{'}})} ) x(t)=argx′maxP(yadv∣∏εt−1(x′))
综上,作者使用回溯线搜索来找到 ε t {\varepsilon _t} εt ,保证对抗类属于类的top-k,并多次迭代投影梯度下降(PGD)来找到 x ( t ) {x^{(t)}} x(t) 。伪代码如下图所示,其中, C L I P CLIP CLIP表示映射函数。
3. Label-Only Setting: 如何计算每个类的score
(1)定义对抗样本的 discretized score R ( x ( t ) ) R({x^{(t)}}) R(x(t)):
R ( x ( t ) ) = k − r a n k ( y a d v ∣ x ( t ) ) R({x^{(t)}}) = k - rank({y_{adv}}|{x^{(t)}}) R(x(t))=k−rank(yadv∣x(t))
(2) 考虑对抗图像对随机扰动的鲁棒性,基于 discretized score量化对抗样本的对抗性:
S ( x ( t ) ) = E δ ∼ U [ − μ , μ ] [ R ( x ( t ) ) + δ ] S({x^{(t)}}) = {E_{\delta \sim U[ - \mu ,\mu ]}}[R({x^{(t)}}) + \delta ] S(x(t))=Eδ∼U[−μ,μ][R(x(t))+δ]
(3) 使用Monte Carlo approximation定义类得分:
S ^ ( x ( t ) ) = 1 n ∑ i = 1 n R ( x ( t ) + μ δ i ) \hat S({x^{(t)}}) = \frac{1}{n}\sum\limits_{i = 1}^n {R({x^{(t)}} + \mu {\delta _i})} S^(x(t))=n1i=1∑nR(x(t)+μδi)
如下图所示,
guacamole的score应该为5/3。
参考文献
[1] Wierstra, D., Schaul, T., Glasmachers, T., Sun, Y., Peters, J., and Schmidhuber, J. Natural evolution strategies. J. Mach. Learn. Res., 15(1):949–980, January 2014. ISSN 15324435. URL http://dl.acm.org/citation.cfm? id=2627435.2638566.