论文阅读—Meta Gradient Adversarial Attack

摘要:

近年来,对抗性攻击的研究成为一个热点。虽然目前的基于转移的对抗性攻击研究在提高对不可见黑箱模型的transferability取得了很好的成果,但仍有很长的路要走。受元学习思想的启发,本文提出了一种新的体系结构——元梯度对抗性攻击(Meta Gradient Adversarial Attack, MGAA),该体系结构是一种可插即用的攻击方法,可以与任何现有的基于梯度的攻击方法集成,以提高跨模型的transferability。

引言:

近年来,随着神经网络的快速发展,神经网络的可靠性逐渐受到越来越多的关注。神经网络对对抗性的例子非常敏感,即输入的不可察觉的扰动很容易欺骗模型,导致意外错误。例如,在使用人脸识别技术进行支付时,对人脸图像的轻微干扰可能会欺骗人脸识别模型,使其识别为其他人。由于攻击和防御是互补的两个方面,对抗性攻击的研究最终可以提高模型的鲁棒性,从而使模型更加可靠。XXXX当前研究概括。 尽管这些方法在黑盒攻击场景下取得了很好的效果,但是由于白盒模型和不可见的黑盒模型之间的差异,对抗性例子的可移植性仍然受到限制。

相关性工作:

一般根据可以获取的目标模型信息的多少分为四类:white-box attack, score-based
black-box attack, decision-based black-box attack和transfer-based black-box attack。

白盒攻击可以获取目标模型的所有信息,包括模型参数、模型结构(model structure)、梯度等;Score-based black-box attack攻击方法假设它们可以从目标模型中获得给定输入图像的分类概率; Decision-based black-box attack,只有来自目标模型的给定输入图像的预测类可用,这似乎比基于分数的黑盒攻击更困难;Transfer-based black-box attack无法获取目标模型的任何信息,这是最具挑战性的设置。

防御方法可分为五类: adversarial training, input transformation, randomization, model ensemble, and certified defenses. Adversarial training 基于生成的对抗性例子进行模型训练。Input transformation利用JPEG压缩,去噪,并在将图像输入到模型之前额外使用GAN模型。Randomization是指在输入例子或模型中加入随机噪声,使模型对对抗性例子更具鲁棒性。Model ensemble是指输出层中多个模型的集成。与单一模型相比,它可以减少对抗性例子中分布的影响。另外,一些工作证明了在特定的目标模型下,经过certified defenses model 可以确保对对抗性例子的鲁棒性。

方案介绍

算法过程具体介绍:

首先,从 M 1 , M 2 , ⋯   , M N {M_1},{M_2}, \cdots ,{M_N} M1,M2,,MN个模型中,随机采样 n + 1 n+1 n+1个模型 M k 1 , M k 2 , ⋯   , M k N {M_k}_1,{M_{k2}}, \cdots ,{M_{kN}} Mk1,Mk2,,MkN

其次,计算n个模型的交叉熵损失,并计算这些模型的esmble 的梯度,如下,在这里插入图片描述
迭代上述过程 K K K次,得到对抗样本 x i , K {x_{i,K}} xi,K.
再次,在模型 M k n + 1 {M_{kn+1}} Mkn+1上计算 x i , K {x_{i,K}} xi,K的交叉熵损失,得到对抗样本 x i , m t {x_{i,mt}} xi,mt

在这里插入图片描述
最后,为增强对抗样本的迁移性,在meta-test step 阶段中添加到 x i x_i xi生成的对抗性示例中,以更新对抗样本:

在这里插入图片描述
以上过程的伪代码如下图所示

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
Fast Gradient Sign Attack (FGSM) 是一种广泛应用于对抗样本攻击的方法,它通过在输入数据的梯度方向上添加一个小的扰动来欺骗分类器模型。在本文中,我将介绍如何使用 FGSM 对 MNIST 数据集中的手写数字分类器进行攻击,并分享我的实验心得。 首先,我们需要准备一个 MNIST 分类器模型。这可以通过使用 Keras 和 TensorFlow 框架中的内置模型来实现,如下所示: ``` from keras.datasets import mnist from keras.utils import to_categorical from keras.models import Sequential from keras.layers import Dense, Flatten, Conv2D, MaxPooling2D # 加载 MNIST 数据集 (x_train, y_train), (x_test, y_test) = mnist.load_data() # 将像素值缩放到 0-1 范围内 x_train = x_train.astype('float32') / 255. x_test = x_test.astype('float32') / 255. # 将标签转换为 one-hot 编码 y_train = to_categorical(y_train, num_classes=10) y_test = to_categorical(y_test, num_classes=10) # 构建模型 model = Sequential() model.add(Conv2D(32, kernel_size=(3, 3), activation='relu', input_shape=(28, 28, 1))) model.add(Conv2D(64, (3, 3), activation='relu')) model.add(MaxPooling2D(pool_size=(2, 2))) model.add(Flatten()) model.add(Dense(128, activation='relu')) model.add(Dense(10, activation='softmax')) # 编译模型 model.compile(loss='categorical_crossentropy', optimizer='adam', metrics=['accuracy']) ``` 接下来,我们可以使用 FGSM 来生成对抗样本。FGSM 的核心思想是沿着输入数据的梯度方向添加一定的扰动,使得分类器模型将其错误分类。我们可以通过以下代码实现: ``` import tensorflow as tf # 定义 FGSM 攻击函数 def fgsm(model, x, eps): # 计算输入数据的梯度 grad = tf.gradients(model.output, model.input)[0] # 计算扰动 signed_grad = tf.sign(grad) perturbation = eps * signed_grad # 生成对抗样本 adv_x = x + perturbation # 将像素值裁剪到 0-1 范围内 adv_x = tf.clip_by_value(adv_x, 0, 1) return adv_x # 定义 FGSM 攻击参数 eps = 0.1 # 选择一个样本进行攻击 x = x_test[0] y_true = y_test[0] # 将输入数据转换为 TensorFlow 张量 x_tf = tf.convert_to_tensor(x.reshape((1,28,28,1))) # 生成对抗样本 adv_x_tf = fgsm(model, x_tf, eps) # 将对抗样本转换为 Numpy 数组 adv_x = adv_x_tf.eval(session=tf.Session()) ``` 在生成对抗样本后,我们可以将其输入到分类器模型中进行测试,以验证是否能欺骗模型。我们可以通过以下代码实现: ``` # 对抗样本的预测结果 y_pred_adv = model.predict(adv_x) # 打印真实标签和对抗样本的预测结果 print('True label:', y_true.argmax()) print('Adversarial label:', y_pred_adv.argmax()) ``` 通过反复调整 eps 参数的大小,我们可以生成不同程度的扰动,从而得到不同的对抗样本,进而观察分类器模型的鲁棒性。在我的实验中,我发现当 eps 取值较小时,生成的对抗样本与原始图像非常接近,分类器模型很容易被欺骗;而当 eps 取值较大时,生成的对抗样本与原始图像差异较大,分类器模型的准确率反而得到提高。 总的来说,使用 FGSM 对 MNIST 分类器进行攻击是一项非常有趣的实验。通过实验,我深刻认识到了对抗样本的威胁,并对如何提高深度学习模型的鲁棒性有了更深入的理解。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值