「 [NatureGAN]GENERATING NATURAL ADVERSARIAL EXAMPLES论文精读」2023年9月22日

以前那些恶意干扰通常是不自然的,在语义上没有意义,并且不适用于语言等复杂领域(问题提出)。在本文中,我们提出了一个框架,通过在密集和连续数据表示的语义空间中搜索,利用生成对抗性网络的最新进展,生成位于数据流形上自然和清晰的对抗性示例(解决方法)。

1.我们展示了本文框架所生成的对手,以证明本文所提出的黑盒分类器方法在图像分类、文本隐含和机器翻译等广泛应用中的潜力。

2.我们的实验表明,本文生成的对手是自然的,对人类来说是可读的,在评估和分析黑盒分类器时是有用的。

简介:

之前的对手是通过访问目标模型的梯度而有效生成的,与受到更大幅度随机噪声干扰的数据相比,其成功攻击率要高得多。此外,通过使用这样的对手来训练模型可以为机器学习模型提供额外的正则化优势(Goodfellow等人,2015)。

尽管这些对抗性实例暴露了机器学习模型中的“盲点”,但它们是不自然的,即这些最坏情况下的扰动实例不是分类器在部署时可能面临的实例(在现实生活中很难出现这样的扰动)。因此,很难深入了解黑匣子分类器中的基本决策行为

1.为什么对手的决策不同?

2.我们可以改变什么来防止这种行为?

3.在非对抗性场景中(没有扰动实例的生成),分类器对数据的自然变化是否稳健?

此外,输入空间和我们能够理解的语义空间之间经常存在不匹配。对我们可能认为没有意义的输入的更改,如图像中的轻微旋转或平移,通常会导致输入实例中的实质性差异。例如,Pei等人(2017)表明,照明条件的微小变化可以欺骗自动驾驶系统,这是对抗性例子无法发现的行为。

由于生成的是非自然扰动,这些非自然扰动无法应用于语言等复杂领域。在这些复杂领域中,当生成非自然扰动实例时,很难实现语法和语义的相似性。因此,如果使用现有的为文本寻找对抗性例子的方法,通常会导致生成不符合语法的句子,如李等人生成的例子。(2016),或者生成的例子需要手动干预,如贾和梁(2017)。

在本文中,我们介绍了一个生成自然对抗性例子的框架,即有意义相似、有效/易读且有助于解释的例子。

我们提出的方法背后的主要直觉是在数据的密集和连续表示中搜索对手,而不是直接在输入数据空间中搜索

我们使用生成对抗性网络(GANs)(Goodfellow等人,2014)来学习将正态分布的固定长度向量映射到数据实例的投影

具体的,给定一个输入实例,我们通过在递归收紧的范围内采样,在潜在空间中其相应表示的邻域中搜索对手。

图1提供了一个用于数字识别的对手示例。给定MNIST的多层感知器(MLP)和来自测试数据的图像(图1a),我们的方法生成了一个自然对抗性示例(图1e),该示例被分类器错误地分类为“2”。

 与现有的添加基于梯度的噪声的快速梯度符号法(FGSM)(Goodfellow et al.,2015)生成的对手(图1c和1b)相比,我们的对手(见图1e)看起来像是一个类似于原始输入的手写数字。此外,这种差异(图1d)提供了对分类器行为的一些见解,例如底部笔划稍微加粗(蓝色),上面笔划稍微稀疏(红色),这会欺骗分类器。

图1:对抗性例子。给定一个例子(a),现有的FGSM方法(Goodfellow等人,2015)在(b)中添加了小扰动,这改变了模型的预测(在这种情况下为“2”)。我们的框架生成了自然的对抗性示例,而不是这种看起来随机的噪声,例如在(e)中,其中(d)中显示的差异(蓝色\/+,红色\/-)是笔划的有意义的变化。

我们将我们的方法应用于图像和文本领域,并生成更自然更语法语义更接近输入有助于解释黑匣子模型的局部行为的对手。

我们展示了图像分类、文本隐含和机器翻译的自然对手的例子。实验和人工评估也表明,即使没有标记的训练数据,我们的方法也可以帮助评估黑盒分类器的稳健性

生成自然对抗样本的框架

我们描述了生成连续图像离散文本数据的自然对抗性示例的问题设置和框架的细节。

给定一个黑盒分类器f和一个未标记数据X的语料库,这里的目标是为给定的数据实例x生成对抗性实例x*,从而产生不同的预测,即f(X*)≠f(X)。通常,实例x可能不在X中,但来自相同的底层分布Px,这也是我们想要从中生成x*的分布。我们希望x*是在定义数据分布Px流形上最接近x的实例,而不是在原始数据表示中。(x和x*在同一个分布空间)

与其他直接在输入空间中搜索对手的现有方法不同(在输入x的空间中直接搜索扰动生成x*),我们建议在z空间的相应密集表示中进行搜索。换句话说,我们不是直接找到对抗性的x*

而是1.在定义分布Px的底层稠密向量空间中找到对抗性z*。

2.在生成模型的帮助下将其映射回x*。

通过在潜在的低维z空间中搜索样本,并将其映射到x空间以识别对手,我们鼓励这些对手是有效的(对于图像来说是可读的,对于句子来说是语法的),并且在语义上接近原始输入

为了解决上述问题,我们需要强大的生成模型来学习从潜在的低维表示到分布Px的映射,我们使用X中的样本来估计。

具体来说,给定大量未标记实例X作为训练数据,生成器Gθ学习将一些具有分布pz(z)的噪声映射成尽可能接近训练数据的合成数据,其中z∈Rd。

另一方面,评估函数Cω被训练来区分来自X的真实数据样本生成器生成样本

对生成器GAN的训练:

由于Arjovsky和Bottou(2017)从理论上研究的原因,GANs的原始目标函数在实践中很难优化。Arjovsky等人(2017)将Wasserstein-1距离的目标细化为:

Wasserstein GAN(WGAN)提高了学习的稳定性,并提供了有用的学习曲线。我们在第6节中讨论了对GAN框架的一些进一步改进,并且将WGAN的结构和相关改进作为我们的框架的一部分,用于生成接近训练数据分布的自然示例,如下所述。

图2:具有GAN和逆变器的训练架构。逆变器损失函数将x的重构误差高斯分布z和Iγ(Gθ(z))之间的散度相结合。

自然对抗样本:为了表示该域的自然实例,我们首先在语料库X上训练一个WGAN,它提供了一个生成器Gθ,该生成器将随机密集向量z∈Rd映射到来自X域的样本x。我们分别训练一个匹配的逆变器Iγ(如图所示一个与z匹配,一个与x匹配),以将数据实例映射到相应的密集表示。(我理解的逆变器是能将x空间和z空间的实例互相映射)

如图2所示,我们最小化了x的重建误差,以及采样z和Iγ(Gθ(z))之间的散度,以鼓励潜在空间服从正态分布:

使用这些学习到的函数,我们将自然对抗性示例x*定义如下:

(解释一下上面的公式,x*定义为Gθ(z*)即在z空间找到的z*,通过生成器Gθ映射出来,而z*是根据公式选取出来的,即有一些~z在z空间中,我们要找到与z’=Iγ(x)分布最接近的~z,即与x映射到z空间中的那个z’最接近的~z,这个~z就是z*,但是这个z*只是接近z’,还需要满足 f(Gθ(~z)) ≠ f(x))

我们扰动其稠密表示z’=Iγ(x)来代替扰动x,并使用生成器通过用~x=Gθ(~z)查询f来测试扰动~z是否欺骗了分类器。

图3显示了我们的生成过程。附录A中包含了一个合成示例,以便于进一步直观。至于散度L,我们对图像使用λ=.1的L2距离,对文本数据使用λ=1的Jensen Shannon距离

图3:自然对手生成。给定实例x,我们的框架通过扰动反向z’并通过Gθ解码扰动~z来查询分类器f,从而生成自然对手。

(这个流程图就是对上面的公式的完美解释,我们首先将x通过逆变器映射成z’,其中z’=Iγ(x),然后对z’添加扰动得到~z,再通过生成器将~z映射成~x,查询f(~x)的结果,看看~x是否能够欺骗f,依次迭代,最终选出x*)

搜索算法:我们提出了两种识别对手的方法,这两种方法都利用逆变器来获得x的潜在向量z’=Iγ(x),并将z’附近的扰动~z送到生成器以生成自然样本~x=Gθ(~z)。

1.在迭代随机搜索(算法1)中,我们递增地增加搜索范围(∆r),在该搜索范围内对扰动~z进行随机采样(每次迭代N个样本),直到我们生成了改变预测的样本▽x。在这些样本▽x中,我们选择与原始z’具有最接近的样本z*生成对抗性示例x*。

2.为了提高这种朴素搜索之外的效率,我们提出了一种从粗到细的策略,称为混合收缩搜索(算法2)。我们首先在较宽的搜索范围内搜索对手,并通过对分布中更密集的采样,递归地收紧搜索范围的上限。采取额外的迭代搜索步骤以进一步逼近最优∆z的上限。使用算法2中的混合收缩搜索,我们观察到了4倍的加速,同时获得了与算法1类似的结果。

这两种搜索算法都是基于样本的,适用于不需要访问其梯度的黑盒分类器。此外,他们保证找到一个对手,即一个上限为最佳对手的对手。

算法一  潜在空间中对手的迭代随机搜索

对此算法的解释如下:

需要:目标黑盒分类器f、输入实例x和相关数据的语料库X 

1.超参数:N:每次迭代的样本数,∆r:搜索范围的增量

2.在X上训练生成器Gθ和逆变器Iγ

3.y← f(x),z’← Iγ(x),半径r← 0    (简介:下列操作中我们令y=f(x),z’=Iγ(x),并且初始化r=0)

4.循环     (循环直到找到对手)

5.S← ∅ (首先让S=空集)

6.对(r,r+∆r] 范围内的范数采样N个随机噪声矢量ε,然后进行以下操作

7.

对x映射出的z’增加扰动生成~z(对同一个z’增加N次不同的扰动ε,得到N个不同的~z)、用生成器将N个~z样本映射出N个~x、将生成的N个对抗样本~x放入f进行N次预测得到N个~y

8.如果预测出~y≠y,则进行以下操作

9.

(此时让S=S和<~x,~y,~z>的并集)

10.如果此时S还等于空集(即没有生成对抗样本,就是上面的步骤中没有预测出~y≠y)

11.则

(扩大搜索范围)

12.如果此时S≠空集了(即产生了某些对抗样本,这些对抗样本组成了集合<~x,~y,~z>)

13.则返回值

找到这些添加扰动的样本中最接近真实样本x映射出的z’的~z,并且这个~z还可以让~y≠y,则它就是我们要找到的z*。

算法潜在空间中的混合收缩搜索

对此算法的解释如下:

需要:目标黑盒分类器f、输入实例x和相关数据的语料库X 

1.超参数:N:每次迭代的样本数,∆r:搜索范围的增量,B:迭代次数的极限,r:搜索距离的上限

2.在X上训练生成器Gθ和逆变器Iγ

3.y← f (x), z’ ← Iγ (x) ,l← 0, i ← 0 (简介:下列操作中我们令y=f(x),z’=Iγ(x),并且初始化l=0,i=0)

4.首先,递归搜索

5.当r−l≥∆r 时做以下操作(r−l≥∆r是保证我们还能进行下一步的递归,即l到r的范围比∆r的范围大)

6.S← ∅ (令S等于空集)

7.对(l,r] 幅度范围内(注意此时不是在范数范围内,即不是在小范围内)采样N个随机噪声矢量ε,然后进行以下操作

8.

对x映射出的z’增加扰动生成~z(对同一个z’增加N次不同的扰动ε,得到N个不同的~z)、用生成器将N个~z样本映射出N个~x、将生成的N个对抗样本~x放入f进行N次预测得到N个~y

9.如果预测出~y≠y,则进行以下操作

10.

(此时让S=S和<~x,~y,~z>的并集)

11.如果此时S还等于空集(即没有生成对抗样本,就是上面的步骤中没有预测出~y≠y)

12.则l← (l+r)/2 (缩小搜索范围到一半,即让l从0移动到(l+r)/2 )

13.如果此时S≠空集了(即产生了某些对抗样本,这些对抗样本组成一个集合<~x,~y,~z>)

14.则返回值

找到这些添加扰动的样本中最接近真实样本x映射出的z’的~z,并且这个~z还可以让~y≠y,则它就是我们本次要找到的z*,我们将它储存起来。然后进行以下操作

15.

(此时我们重新初始化l=0,并更新r,即令新的r等于刚才找到的z*与真实样本x映射出的z’差的范数,这一步也是缩小搜索范围)(我们一直递归搜索直到找到能满足我们条件的最小的搜索距离上限r)

16.然后,迭代搜素

17.当i<B且r>0时(此时迭代次数i还没有到达迭代次数的极限B,搜索距离的上限r仍然大于0)

18.S← ∅, l← max(0,r−∆r)(初始化:此时令S等于空集,令l等于0和r−∆r中的最大值)

19.对(l,r] 范数范围内采样N个随机噪声矢量ε,然后进行以下操作

20.

对x映射出的z’增加扰动生成~z(对同一个z’增加N次不同的扰动ε,得到N个不同的~z)、用生成器将N个~z样本映射出N个~x、将生成的N个对抗样本~x放入f进行N次预测得到N个~y

21.如果预测出~y≠y,则进行以下操作

22.

(此时让S=S和<~x,~y,~z>的并集)

23.如果此时S还等于空集(即没有生成对抗样本,就是上面的步骤中没有预测出~y≠y)

24.

(此时将迭代次数i加上1,然后更新搜索距离上限r,让搜索距离上限r减去搜索距离增量∆r,目的是减少搜索距离上限以缩小搜索范围,那么下一次迭代l的值也发生了改变,使搜索范围进一步缩小)

25.如果此时S≠空集了(即产生了某些对抗样本,这些对抗样本组成一个集合<~x,~y,~z>)

26.则返回值

找到这些添加扰动的样本中最接近真实样本x映射出的z’的~z,并且这个~z还可以让~y≠y,则它就是我们本次要找到的z*,我们将它储存起来。然后进行以下操作

27.

(此时我们找到了z*,那么我们就可以重置计数器i,并且令搜索距离上限r更新成刚才找到的z*与真实样本x映射出的z’差的范数,进一步缩小搜索范围,简单来说就是更新∆z的上限r )

28.在进行多次迭代后,最后找到使上面两个循环可以结束的返回值

举例说明:

我们通过将我们的方法(算法1)应用于视觉和文本领域的许多分类器,展示了它在生成信息丰富、易读和自然对手方面的潜力。

我们将我们的方法应用于两个标准数据集,MNIST和LSUN,并呈现生成的自然对手。我们使用∆r=0.01(增加的搜索范围)和N=5000(每次迭代的样本数)。

手写数字 人类书写文本的扫描提供了什么是自然的直观定义,即生成的图像看起来像一个人会写的东西吗?换句话说,一个人如何改变一个数字来欺骗分类器?我们在60000张MNIST图像上训练z∈R64的WGAN,遵循与Gulrajani等人类似的程序(2017)。

生成器由转置卷积层组成,critic(critic就是一个神经网络,以状态s为输入,以期望的reward为输出)由卷积层组成。我们在critic最后的隐藏层面之上包括了具有全连接层的逆变器。

我们训练两个目标分类器来生成对手:具有5棵树的随机森林(RF)(测试准确率90.45%)和LeCun等人(1998)中训练的LeNet(测试准确度98.71%)。(即我们将上面的生成器和这两个分类器放在一起进行本文所描述的训练,在训练好之后就可以用这两个模型生成对抗样本)

我们将这两个分类器都视为黑匣子,并在表1中为生成的对手提供每个数字的示例(来自GAN或分类器从未观察到的测试实例)。 FGSM产生的对抗看起来像是被无法解释的噪音侵蚀的原始数字(这些示例可能不能代表该方法,因为改变方法会导致显著不同的结果)。我们这两个分类器生成的自然对手在整体风格形状上与原始输入非常相似,还为分类器围绕输入的决策行为提供了信息性见解。

以数字“5”为例:调暗垂直笔划可以欺骗LeNet并使其预测为“3”。此外,我们观察到,与LeNet生成的对手相比,RF生成的对手通常在整体形状上更接近原始图像。尽管在LeNet上生成令人印象深刻的更自然更准确的对手是困难的,但这也意味着与RF相比,LeNet需要对输入进行更实质性的更改才能被愚弄;换句话说,RF在分类上不如LeNet鲁棒。我们稍后将回到这一观察。

表1:MNIST的对抗性例子。最上面一行显示了原始测试数据的图像,其他显示了FGSM针对LeNet生成的相应对手,以及我们针对RF和LeNet的方法。分类器的预测显示在每个图像的角落。

教堂与塔楼 我们将我们的方法应用于更高分辨率的户外彩色图像。我们在LSUN数据集中选择“Church Outdoor”类别(Y u et al.,2015),从“Tower”类别中随机抽取相同数量的大小为126,227的图像,并将其调整为64×64的分辨率。

训练过程类似于MNIST,只是WGAN中的生成器和critic是深度残差网络(He et al.,2016),并且z∈R128。我们在教堂与塔楼这两个类别上训练了一个MLP分类器,测试准确率为71.3%。表2显示了两个类别的原始图像和相应的对抗性示例。

表2:用我们的方法针对LSUN数据集训练的MLP分类器所生成的的对抗性例子。“Church”和“Tower”各有4张原始图像,下面那排是他们为了反转类别所生成的对抗样本。

通过观察这些图像对,我们可以观察到,生成的对手会对这个领域做出自然的改变。例如,为了将分类器的预测从“Church”改为“Tower”,对手会削尖屋顶,缩小建筑物,或者将一棵树改为塔。我们可以从另一个方向观察到类似的行为:通过将一个女人改造成一座建筑,并缩小埃菲尔铁塔的范围,将埃菲尔铁塔的形象变成了一座“教堂”。

实验:

我们证明了即使没有标记数据,我们的方法也可以用于比较评估黑盒模型的鲁棒。我们展示了图像和文本数据的实验结果,并对统计分析和试点用户研究进行了评估。

黑盒分类器的鲁棒性我们将我们的框架应用于图像和文本的各种黑盒分类器,并观察到它有助于通过比较来评估和解释这些模型。这种分析背后的主要直觉是,如前一节所述,更准确的分类器通常需要对实例进行更实质性的更改才能更改其预测。在下面的实验中,我们应用了更有效的混合收缩搜索(算法2)。

为了量化对抗样本的变化程度,原始数据x表示的变化可能没有意义,例如像素的RMSE(“Root Mean Square Error”,中文意思即为均方根误差,是衡量图像质量的指标之一。计算原理为真实值与预测值的差值的平方然后求和再平均,最后开根号)或字符串编辑距离

不看原始数据x的变化来量化对抗样本的变化程度的原因与我们为什么要生成自然对手的原因相同:它们与数据流形下的语义距离不对应

相反,我们使用对抗样本在潜在空间中的距离,即∆z=||z*−z’||,以测量每个对抗样本被修改了多少来改变分类器预测。(上面表明∆z越大,我们在潜在空间中改动的范围越大,对抗样本被修改的越多)

我们还考虑针对一组分类器为每个实例生成的对抗样本集,并计算每个分类器的对抗样本具有最高∆z的次数。我们在表6中列出了MNIST(超过100个测试图像,每个数字10个)和文本纠缠(超过1260个测试句子)的这些统计数据,让我们在第3节中描述的分类器相比较。

对于这两项任务,我们观察到,更准确的分类器需要对输入进行更大的更改(通过上述的两种测量),这表明生成这样的对手,即使是对于未标记的数据,也可以评估黑盒分类器的准确性。

 表6:在MNIST和TE数据集上,用两组模型生成对抗样本的统计数据。我们的表格中包括对抗样本的平均∆z,以及在同一情况下,一组分类器中每个分类器的对抗样本与本组其他分类器对抗样本相比具有最大∆z的比例(使用符号测试,p<0.0005时非常显著)。较高的∆z值对应于模型具有较强的鲁棒性,表中最后一列较高的测试精度也证明该模型具有较强的鲁棒性,即测试精度越高,模型鲁棒性越强。

具体来说,在表中可以看出在MNIST数据集上使用了两个模型,RF和LeNet模型,对第一列平均∆z来说,LeNet大于RF,对第二列最大∆z来说,LeNet大于RF,第三列测试精度来说,LeNet大于RF,与上面的讲述相呼应,LeNet模型需要更大范围的扰动才能成功欺骗分类器,所以LeNet模型具有更强的鲁棒性。

我们现在考虑在更广泛的分类器集上进行评估,并研究改变模型超参数对结果的影响(重点关注MNIST)。我们通过将神经元的数量从2到1024按指数变化来训练一组具有一个隐藏层的神经网络。在图4a中,我们观察到对手对这些模型的平均∆z与他们的测试精度具有相似的趋势。

图中纵坐标红色的是模型的平均∆z,蓝色的是测试精度,横坐标是神经元个数

图4d中为个位数“3”生成的对手验证了这一观察结果:随着分类器变得越来越复杂,对抗样本与原始输入的差异越来越大。即随着神经元个数增加,分类器越来越复杂,需要扰动的范围越来越大。

我们通过固定模型结构提供了类似的分析,我们在图4b中将Dropout rate从0.9变为0.0,并观察到类似的趋势。(在神经网络中,Dropout rate 是一种用于减少过拟合的正则化技术。它是指在训练过程中,随机关闭(将其输出设为0)一定比例的神经元。Dropout rate 是一个在0到1之间的值,表示在每个训练步骤中被关闭神经元的比例。)

图中可以看出关闭神经元的比例由0.9降到0.0,即有效神经元的数量越来越多,此时分类器越来越复杂,变化趋势和(a)一样

为了证实这种相关性普遍成立,我们训练了80个在层大小、正则化和训练数据量方面不同的分类器,并在图4c中根据对抗样本的平均变化幅度绘制了它们的测试集准确性。鉴于这种强大的相关性,我们相信,即使在没有标记数据的情况下,我们生成自然对手的框架也可以用于自动评估黑盒分类器。

图中可以看出对抗样本的平均变化幅度∆z和测试集准确性成正相关趋势,这也证明了我们的直觉,即更准确的分类器通常需要对实例进行更实质性的更改才能更改其预测

这样我们就可以评估各个黑盒模型的鲁棒性,即扰动的幅度很大才能欺骗的分类器具有很好的鲁棒性,越大的幅度证明鲁棒性越好。

类评估:我们对人类受试者进行了一项试点研究,以评估生成的对手有多自然,以及他们认为与原始实例相似的对抗样本是否与准确率较低的分类器所分类出的结果相对应(如上述评估所示)。(即是否那些鲁棒性不太强的分类器和人类评估的结果相类似)

对于图像分类和文本隐含,我们随机选择多个实例,针对两个分类器为每个实例生成对手,并向受试者提交一份问卷。

问卷需要评估:(1)生成的每个对手的自然或易读程度;(2) 两个对抗样本中哪一个更接近原始实例。

对于MNIST数据集的手写数字,我们选择20张图像(每个数字2张),生成针对RF和LeNet的对抗样本(每个图像生成两个对抗样本),并对每个问题获得13个人的回答。在表7中,我们看到受试者一致认为,我们生成的对手是非常自然的,而且他们发现RF生成的对抗样本比LeNet更接近原始图像(即,根据其提供的标签上的测试准确性,更准确的分类器生成需要搜索范围更广的对抗样本)。

我们还将FGSM生成的对抗样本和我们的方法在LeNet上生成的对抗样本进行了比较,发现78%的受试者同意我们方法生成的对抗样本对原始图像进行了更自然的更改(但是值得注意的是,FGSM不适用于RF进行比较)。

早期的其他相关工作:

Goodfellow等人提出了快速梯度符号法(FGSM)。(2015)用于快速而非最优地生成对抗性示例。直观地,该方法将偏移ε输入到最小化成本函数的方向上。

Kurakin等人(2016)通过多次应用FGSM,提出了一种简单的FGSM扩展,它生成了具有更高攻击率的对抗性示例,但基本思想是相同的。

Papernot等人介绍了另一种称为基于雅可比的显著性图攻击(JSMA)的方法。(2016b)。与FGSM不同,JSMA通过贪婪地修改输入实例的特性来生成对手。计算具有梯度的显著性图,以指示每个特征对预测的重要性,并且重复修改最重要的特征,直到实例改变结果分类。

此外,在实践中观察到,针对一个模型设计的对抗性示例通常有可能成功地攻击未被访问的执行同一任务的另一个模型。对抗性示例的这种可转移性使得在现实场景中攻击和评估已部署的机器学习系统更具实用性(Papernot et al.,2016a;2017)。

以上所有这些攻击都是基于梯度的,可以访问可微分类器的参数。

Moosavi-Dezfooli .等人(2017)试图在大多数数据点上找到一个可以引起难以察觉的变化的单一噪声矢量 ,同时显著降低了分类器的准确率。

我们的方法能够针对黑盒分类器生成对手,即使是那些没有梯度的分类器,如随机森林。此外,上述方法添加的噪声是无法解释的,而我们的方法生成的自然对抗样本为分类器的决策行为提供了信息性的见解。

讨论和未来工作

我们的框架建立在GANs作为生成模型的基础上,因此GANs的能力直接影响生成示例的质量。在视觉领域,尽管GANs已经产生了很多吸引人的结果,但众所周知,训练是脆弱的。

最近的许多方法都涉及如何提高GANs的训练稳定性和目标功能(Salimans等人,2016;Arjovsky等人,2017)。

Gulrajani等人(2017)通过梯度惩罚的正则化而不是权重裁剪,进一步改进了WGAN的训练。

在我们的实践中,我们注意到,我们需要仔细平衡生成器、critic和我们引入的逆变器的性能,以避免出现模型崩溃等情况。

鉴于人们对GANs是否真的学习了分布存在一些担忧(Arora&Zhang,2017),值得注意的是,我们还可以将其他生成模型,如V变量自动编码器(V AE)(Kingma&Welling,2014)纳入我们的框架中。(即即使人们担心GAN没有真正的学习到分布,我们也可以用其他的生成模型替代GAN网络)

但是我们依然关注GANs,因为基于GAN的对抗性训练通常会产生更高质量的图像,而基于VAE的训练往往会产生更模糊的图像(Goodfellow,2016)。我们还计划应用VAE和GAN的融合和变体,就像Rosca等人(2017)提出的α-GAN和Tolstikhin等人(2018)提出的Wasserstein自动编码器。请注意,随着更先进的Gan被引入来解决这些问题,它们可以直接合并到我们的框架中。

在我们的实验中,我们发现用固定的GAN微调逆变器产生的潜在矢量可以进一步细化生成的对抗性示例,我们将在未来研究搜索的其他此类扩展。

这项工作中有一个隐含的假设,即如果添加的扰动足够小,则生成的样本属于同一类,而当扰动很大时,生成的样本看起来似乎属于不同的类。

然而,请注意,FGSM和其他此类方法也是如此,当他们的扰动ε很小,噪音是无法察觉的;但当他们的扰动ε很大,人们经常发现一些可能在不同类中的嘈杂实例。当我们在某些情况下确实观察到了这种行为时,相应的分类器需要对输入进行更实质性的更改,这就是为什么我们可以利用我们的方法来评估黑盒分类器。

结论:

在本文中,我们提出了一个针对黑盒分类器生成自然对抗样本的框架,并将相同的方法应用于视觉和文本领域。我们得到的对抗样本是易读的、语法上的,并且与输入有相似的意义。

我们表明,即使在没有标记的训练数据的情况下,这些自然的对抗样本也可以帮助解释决策行为并评估黑盒分类器的准确性。

我们使用我们的方法,建立在GANs的最新工作基础上,为包括图像分类、文本蕴涵和机器翻译(通过Google Translate API)在内的广泛应用生成对手。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值