【论文笔记】Content-based Unrestricted Adversarial Attack

xhyu61

已于 2024-09-13 22:28:54 修改

阅读量1.1k

点赞数 11

分类专栏：论文笔记学习笔记机器学习文章标签：论文阅读

于 2024-06-03 20:51:04 首次发布

本文链接：https://blog.csdn.net/xhyu61/article/details/139424305

版权

机器学习同时被 3 个专栏收录

42 篇文章

订阅专栏

学习笔记

37 篇文章

订阅专栏

论文笔记

28 篇文章

订阅专栏

1 Introduction

现有的生成对抗性样本的方法具有以下限制：

感知相似性方面并不理想，仍易被人类感知。
对抗扰动不够自然，与自然界中的噪声发生不可避免的域转移，导致对抗样本不同于现实世界中出现的困难样本。
当前针对 $l_p$ 范数对抗样本的防御方法高估了他们的能力，被称为Dunning-Kurger effect（弱者高估自己的实力，强者低估自己的实力）。这些防御方法可以有效对抗 $l_p$ 范数对抗性样本，但面对新型攻击不具有防御鲁棒性。
由此，不受限制的对抗攻击(unrestricted adversarial attacks)开始出现，使用不受限制但是非常自然的变化去替代 $l_p$ 范数扰动，变得更加有意义。

不受限制的对抗攻击根据图像内容（如形状shape，纹理texture，颜色color）生成对抗样本。
基于形状的不受限制对抗攻击通过梯度下降步骤对图像施加小变形。
基于纹理的不受限制对抗攻击对图像的一般属性（质地或风格）进行操作，生成对抗样本。然而，基于纹理的攻击会导致不自然的结果，并且具有较低的对抗性迁移能力。
后来发现，沿着维度操作像素值会产生更自然的样本，从而产生基于颜色的无限制攻击的工作。
基于颜色的不受限制对抗攻击倾向于在无约束设置中妥协灵活性，以保证对抗样本的真实感。
这些方法要么通过依赖主观直觉和客观度量来实现，要么通过实现微小的修改来实现，从而限制了它们的潜在对抗性迁移能力。

本文认为，不受限制对抗攻击应当符合三个要求：

维持人类视觉的不可感知以及图像的真实感。
攻击内容具有多样性，允许对图像内容（纹理、颜色）进行不受限制的修改，同时保证语义一致性。
具有较高的攻击性能，以便能够在不同的模型之间进行迁移。

为了实现上述目标，本文提出基于内容的不受限制对抗攻击(Content-based Unrestricted Adversarial Attack)。
首先，将图像映射到扩散模型的潜在空间上。在潜在空间上优化对抗目标使得实现更多样化的对抗内容。

本文提出对抗内容攻击(Adversarial Content Attack, ACA)，用Image Latent Mapping将图像编码到潜在空间，利用对抗潜空间优化(Adversarial Latent Optimization, ALO)优化潜变量，生成具有高可转移性的对抗性样本。

3 Adversarial Content Attack

在这里插入图片描述图2：Adversarial Content Attack的流程。首先使用Image Latent Mapping将图像映射到潜变量空间。然后，用Adversarial Latent Optimization生成对抗性样本。最后，生成的对抗性样本可以欺骗到目标分类模型。

3.1 Image Latent Mapping

对于扩散模型，最简单的图像映射是DDIM采样的逆过程，使用prompt $\mathcal{P}$ 的条件嵌入 $\mathcal{C}=\psi(\mathcal{P})$ ，基于常微分方程过程可以在小步长限制下反转：
$z_{t+1}=\sqrt{\frac{\alpha_{t+1}}{\alpha_t}}z_t+\sqrt{\alpha_{t+1}}(\sqrt{\frac{1}{\alpha_{t+1}}-1}-\sqrt{\frac{1}{\alpha_t}-1})\cdot\epsilon_\theta(z_t,t,\mathcal{C})\tag{2}$
其中 $z_0$ 是给定的真实图像。图像的描述prompt通常由图像描述模型（如BLIP v2）自动生成。

给定 $w$ 作为引导比例参数， $\varnothing=\psi\text{("")}$ 是空文本的嵌入表示，无分类器引导(classifier-free guidance)预测可以表示为：
$\tilde{\epsilon}_\theta(z_t,t,\mathcal{C},\varnothing)=w\cdot\epsilon_\theta(z_t,t,\mathcal{C})+(1-w)\cdot\epsilon_\theta(z_t,t,\varnothing)\tag{3}$
Stable Diffusion中 $w = 7.5$ 。噪声是通过 $\epsilon_\theta$ 预测出来的，用于去噪过程，因此每一步都会有细微的误差，随着许多步去噪，导致误差累积越来越大，破坏了噪声的高斯分布，诱发不真实的视觉效果。

为减小累计误差，对每一步 $t$ 优化空文本嵌入 $\varnothing$ 。首先使用 $w = 1$ 在DDIM的逆过程输出一系列潜变量表示 $\{z_0^*,\cdots,z_T^*\}$ ，其中 $z_0^*=z_0$ 。然后对于时间戳 $\{T,\cdots,1\}$ ，使用 $w = 7.5$ ， $\bar{z}_T=z_t$ 在 $N$ 次迭代中进行了如下优化：
$\min_{\varnothing_t}||z_{t-1}^*-z_{t-1}(\bar{z}_t,t,\mathcal{C},\varnothing)||_2^2\tag{4}$
$z_{t-1}(\bar{z}_t,t,\mathcal{C},\varnothing)=\sqrt{\frac{\alpha_{t-1}}{\alpha_t}}\bar{z}_t+\sqrt{\alpha_{t-1}}(\sqrt{\frac{1}{\alpha_{t-1}}-1}-\sqrt{\frac{1}{\alpha_t}-1})\cdot\tilde{\epsilon}_\theta(z_t,t,\mathcal{C},\varnothing)\tag{5}$
在每一步的最后，将 $\bar{z}_{t-1}$ 更新为 $z_{t-1}(\bar{z}_t,t,\mathcal{C},\varnothing_t)$ 。最后得到原始图像在潜变量空间内的表示，包含噪声 $\bar{z}_T$ ，空文本嵌入 $\varnothing_t$ 和文本嵌入 $\mathcal{C}=\psi(\mathcal{P})$ 。

3.2 Adversarial Latent Optimization

本节提出了一种针对潜变量的优化方法，最大化在非限制对抗样本上的攻击性能。经过image latent mapping后得到的潜变量空间中，空文本嵌入 $\varnothing_t$ 确保了重建的图像的质量，条件嵌入 $\mathcal{C}$ 保证了图像的语义信息。同时优化两种嵌入并不现实，考虑到噪声 $\bar{z}_T$ 很大程度上表示了潜变量空间中图像的信息，因此选择优化噪声 $\bar{z}_T$ 。但是这种优化的复杂梯度计算和取值范围溢出的问题仍然是挑战。

基于image latent mapping生成的潜变量，将扩散模型中的去噪过程Eq.5定义为 $\Omega(\cdot)$ ，其包含 $T$ 次迭代：
$\Omega(z_T,T,\mathcal{C},\{\varnothing_t\}_{t=1}^T)=z_0(z_1(\cdots,(z_{T-1},T-1,\mathcal{C},\varnothing_{T-1}),\cdots,1,\mathcal{C},\varnothing_1),0,\mathcal{C},\varnothing_0)\tag{6}$
由此，重新构建的模型可表示为 $\bar{z}_0=\Omega(z_T,T,\mathcal{C},\{\varnothing_t\})$ 。结合Eq.7，对抗性目标优化可以表示为：
$\max_\delta \mathcal{L}(\mathcal{F}_\theta(\bar{z}_0,y)),\ s.t.||\delta||_\infty\leq\kappa,\ \bar{z}_0=\Omega(z_T+\delta,T,\mathcal{C},\{\varnothing_t\})\tag{7}$
其中 $\bar{z}_0$ 是自然图像， $\delta$ 是潜变量空间中的对抗性扰动。

损失函数包含两部分：

交叉熵损失 $\mathcal{L}_{ce}$ ，用于引导对抗性样本误导分类器；
均方误差损失 $\mathcal{L}_{mse}$ ，用于引导对抗性样本在 $l_2$ 距离上尽可能接近真实的干净样本。
由此，完整的损失函数 $\mathcal{L}$ 可以表示为：

$\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y,z_0)=\mathcal{L}_{ce}(\mathcal{F}_\theta(\bar{z}_0),y)-\beta\cdot\mathcal{L}_{mse}(\bar{z}_0,z_0)$
本文中 $\beta=0.1$ ，损失函数的目标是最大化交叉熵损失冰最小化和干净样本的 $l_2$ 距离。为保证 $z_0$ 和 $\bar{z}_0$ 的一致性，假设当 $\delta$ 很小时（即 $||\delta||_\infty\leq\kappa$ 时）， $\delta$ 不会改变 $z_0$ 和 $\bar{z}_0$ 的一致性，关键在于产生最大分类损失的 $\delta$ 。

类似于传统的对抗攻击，使用基于梯度的技术，通过 $\delta\simeq\eta\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y)$ 来估计噪声 $\delta$ ，其中 $\eta$ 是发生在梯度方向上的扰动量。利用链式规则对 $\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y)$ 进行展开，可以得到如下的导数项：
$\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y)=\frac{\partial\mathcal{L}}{\partial\bar{z}_0}\cdot\frac{\partial\bar{z}_0}{\partial z_1}\cdot\frac{\partial z_1}{\partial z_2}\cdots\frac{\partial z_{T-1}}{\partial z_T}\tag{9}$

Skip Gradient
尽管梯度是可导的，通过此式推导出完整的计算图是不可行的。

$\frac{\partial\mathcal{L}}{\partial\bar{z}_0}$ 是分类器关于重构图像 $\bar{z}_0$ 的导数，并提供对抗梯度方向。
$\frac{\partial z_t}{\partial z_{t+1}}$ ，每一次导数的计算都代表一次反向传播的计算。
一个完整的去噪过程累积了 $T$ 个计算图，导致内存溢出。

本文提出了Skip Gradient来估计 $\frac{\partial\mathcal{L}}{\partial\bar{z}_0}\cdot\frac{\partial\bar{z}_0}{\partial z_1}\cdot\frac{\partial z_1}{\partial z_2}\cdots\frac{\partial z_{T-1}}{\partial z_T}$ 。去噪过程旨在消除DDIM采样中加入的高斯噪声，DDIM利用重参数化技巧，在任意第 $t$ 步下进行闭式采样：
$z_t=\sqrt{\alpha_t}z_0+\sqrt{1-\alpha_t}\varepsilon,\ \varepsilon\sim\mathcal{N}(0,I)\tag{10}$
对Eq.10变形，得到 $z_0=\frac{1}{\sqrt{\alpha_t}}z_t-\sqrt{\frac{1-\alpha_t}{\alpha_t}}\varepsilon$ 。由此，得到 $\frac{\partial z_0}{\partial z_t}=\frac{1}{\sqrt{\alpha_t}}$ 。Stable Diffusion中，步长 $t$ 最多是1000，因此有 $\lim_{t\rightarrow 1000}\frac{\partial z_0}{\partial z_t}=\lim_{t\rightarrow 1000}\frac{1}{\sqrt{\alpha_t}}\approx 14.58$ 。总结而言， $\frac{\partial z_0}{\partial z_t}$ 可以被看做常数 $\rho$ ，Eq.9可以变为 $\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta(\bar{z}_0),y)=\rho\frac{\partial\mathcal{L}}{\partial\bar{z}_0}$ 。综上所述，Skip Gradients估计了去噪过程的梯度，减少了计算和存储需求。

Differentiable Boundary Processing
扩散模型没有严格限制 $\bar{z}_0$ 的数值取值范围， $z_T$ 的修改可能会导致其取值范围被超出。由此引入differentiable boundary processing $\varrho(\cdot)$ 。 $\varrho(\cdot)$ 将超出 $[0, 1]$ 范围的数值压缩到 $[0, 1]$ 中：
$\varrho(x) = \begin{cases} \tanh(1000x)/10000 \qquad & x<0 \\ x \qquad & 0\leq x<1 \\ \tanh(1000(x-1))/10001 \qquad & x > 1 \end{cases}\tag{11}$
接下来定义 $\Pi_\kappa$ 为对抗扰动 $\delta$ 在 $\kappa$ 球面上的投影。引入动量 $g$ ，将优化对抗性潜变量为：
$g_k\leftarrow \mu\cdot g_{k-1}+\frac{\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta((\varrho(\bar{z}_0),y)))}{||\nabla_{z_T}\mathcal{L}(\mathcal{F}_\theta((\varrho(\bar{z}_0),y)))||_1}\tag{12}$
$\delta_k\leftarrow\Pi_\kappa(\delta_{k-1}+\eta\cdot\text{sign}(g_k))\tag{13}$
综上所述，adversarial latent optimization采用跳跃梯度来确定去噪过程的梯度，结合可微边界处理来调节对抗样本的取值范围，根据梯度进行迭代优化。结合图像潜在映射，算法1中说明了adversarial content attack的详细过程。
在这里插入图片描述