文章目录
前言
本文主要是计算机视觉中的,关于对抗性补丁攻击的论文,欢迎感兴趣和正在研究本方向的小伙伴们前来讨论学习。
本文摘要
深度神经网络(dnn)在对抗性示例中的脆弱性引起了越来越多的关注。已经提出了许多算法来制作强大的对抗性示例。然而,这些算法大多修改了像素的全局或局部区域,而没有考虑网络解释。因此,扰动是冗余的,很容易被人眼检测到。本文提出了一种产生局部扰动的新方法。其主要思想是通过模拟人的注意力机制,找到图像的贡献特征区域,然后在CFR中加入扰动。在激活图的基础上,设计了一个软掩模矩阵,以精细地表示每个像素在CFR中的贡献。利用这种软掩模,我们开发了一种新的具有逆温度的损失函数来搜索CFR中的最优扰动。由于网络的解释,加到CFR的扰动比加到其他区域的扰动更有效。在CIFAR-10和ILSVRC2012上进行的大量实验证明了该方法的有效性,包括攻击成功率、不可感知性和可移植性。
一、创新点及方法
1. 语义敏感区域定位(Grad-CAM引导的对抗扰动生成)
提出背景
传统对抗攻击方法(如FGSM、PGD)通常在全图范围内添加扰动,导致两个问题:
- 扰动冗余: 大量扰动被添加到与分类无关的区域(如背景),效率低下。
- 视觉显眼性: 全局扰动易被人类察觉,违背对抗样本的隐蔽性要求。
技术思路
核心思想: 仅攻击模型决策依赖的关键语义区域(如分类器关注的物体主体部分),减少无效扰动。
实现方法:
- 定位关键区域: 利用Grad-CAM(梯度加权类激活映射)生成类别相关的热力图 Ly,量化每个像素对分类决策的贡献度。
- 动态区域选择: 通过阈值 τ 筛选显著区域(Ly≥τ 的像素),确保扰动集中在高贡献区域。
实现步骤
- 梯度计算: 前向传播获取Logits层输出 Zy(对应真实类别 y 的未归一化得分)。反向传播计算 Zy对最后一个卷积层特征图的梯度。
- 权重分配: 对每个特征图的梯度进行全局平均池化,得到权重:
-
**生成热力图:**加权叠加特征图:
ReLU过滤负贡献。 -
区域筛选: 归一化 Ly后,应用阈值 τ 生成二值化掩码,保留高贡献区域。
2. 软掩码精细化扰动(连续权重分配)
提出背景
传统区域攻击方法使用硬掩码(0-1二值化),导致两个缺陷:
- 权重均一化: 同一区域内所有像素的扰动强度相同,忽略局部重要性差异。
- 边界不连续: 硬掩码的突变边界可能引入高频噪声,易被防御模型检测。
技术思路
核心思想:将硬掩码改进为软掩码(Soft Mask),允许对关键区域内的像素分配连续权重(w∈(0,1]),实现:
- 精细化扰动分配:高贡献像素分配更大权重,强化攻击效果。
- 平滑过渡: 掩码权重渐变,减少高频噪声。
实现方法
- 权重归一化: 将Grad-CAM生成的热力图 Ly归一化为概率分布:
归一化后权重反映像素的相对重要性。
- 掩码约束: 扰动生成时,通过哈达玛积 δ⊙ M~ 限制扰动仅在掩码区域内生效,且强度与权重成正比。
技术优势
- 攻击效率提升:相同扰动范数下,软掩码使关键像素的扰动强度更高。
- 隐蔽性增强: 避免硬掩码边界的高频噪声,更符合自然图像统计特性。
3. 温度缩放损失函数(优化稳定性设计)
提出背景
传统对抗攻击直接最大化交叉熵损失 −log(Sy),但当模型对原始样本的置信度 Sy接近1时,梯度趋于饱和(梯度消失),导致优化陷入局部最优。
技术思路
核心思想:引入逆温度参数T∈(0,1) 平滑softmax输出分布,缓解梯度消失问题。
温度缩放原理:修改softmax函数为:
实现方法
- 损失函数设计:
- 第一项(对抗损失):通过 T 放大低置信度类别的梯度,避免陷入平坦区域。
- 第二项(正则化):约束扰动范数,平衡攻击强度与隐蔽性。
- 梯度上升优化:
迭代更新扰动:
技术优势
梯度稳定性:T 参数避免softmax饱和,使优化过程更稳定。
攻击成功率提升:低置信度类别被激活,更容易找到有效对抗方向。
二、整体实现流程
- 输入预处理:归一化原始图像 X 至 [0,1] 范围。
- 关键区域定位:
使用Grad-CAM生成热力图 Ly,通过阈值 τ 生成软掩码 M~。 - 扰动初始化: 在掩码区域内随机初始化扰动 δ0。
- 迭代优化:
(1)前向计算对抗样本 X′=X+δ⊙M~ 。
(2)计算温度缩放后的损失 J。
(3)反向传播获取梯度 ∇δJ,更新扰动 δ。
(4)重复直至满足终止条件(如达到最大迭代次数或成功攻击) - 输出结果: 裁剪扰动至 ℓp -范数约束范围内,生成最终对抗样本 X′。
三、实验
原图、热图、Adv-CFR(除CFR区域其他像素都赋值为0)和Adv-non-CFR(CFR区域的像素赋值为0)。
三种图像的准确度,可见Adv-non-CFR的准确度最低,攻击效果最好。
三种攻击算法在CIFAR-10上的区别。
本文的攻击方式与其他攻击方式的比较,对比的评价指标为ASR(攻击的成功率)、SSIM(加入扰动之后的图像质量)。
本文提出的攻击方式在不同模型上与其他攻击算法的对比。
总结
本文创新点通过语义定位→软掩码加权→温度优化的三阶段设计,实现了高效、隐蔽的对抗攻击:
Grad-CAM定位解决“往哪里攻击”的问题;
软掩码解决“如何分配扰动”的问题;
温度缩放损失解决“如何稳定优化”的问题。
三者协同作用,在减少扰动量的同时提升攻击成功率,为对抗样本生成提供了新的技术路径。