【论文精读】Visually imperceptible adversarial patch attacks-CSDN博客

本文链接：https://blog.csdn.net/weixin_45977237/article/details/146052396

文章目录

前言
本文摘要
一、创新点及方法
二、整体实现流程
三、实验
总结

前言

本文主要是计算机视觉中的，关于对抗性补丁攻击的论文，欢迎感兴趣和正在研究本方向的小伙伴们前来讨论学习。

本文摘要

深度神经网络(dnn)在对抗性示例中的脆弱性引起了越来越多的关注。已经提出了许多算法来制作强大的对抗性示例。然而，这些算法大多修改了像素的全局或局部区域，而没有考虑网络解释。因此，扰动是冗余的，很容易被人眼检测到。本文提出了一种产生局部扰动的新方法。其主要思想是通过模拟人的注意力机制，找到图像的贡献特征区域，然后在CFR中加入扰动。在激活图的基础上，设计了一个软掩模矩阵，以精细地表示每个像素在CFR中的贡献。利用这种软掩模，我们开发了一种新的具有逆温度的损失函数来搜索CFR中的最优扰动。由于网络的解释，加到CFR的扰动比加到其他区域的扰动更有效。在CIFAR-10和ILSVRC2012上进行的大量实验证明了该方法的有效性，包括攻击成功率、不可感知性和可移植性。

一、创新点及方法

1. 语义敏感区域定位（Grad-CAM引导的对抗扰动生成）

提出背景
传统对抗攻击方法（如FGSM、PGD）通常在全图范围内添加扰动，导致两个问题：

扰动冗余： 大量扰动被添加到与分类无关的区域（如背景），效率低下。
视觉显眼性： 全局扰动易被人类察觉，违背对抗样本的隐蔽性要求。

技术思路

核心思想： 仅攻击模型决策依赖的关键语义区域（如分类器关注的物体主体部分），减少无效扰动。

实现方法：

定位关键区域： 利用Grad-CAM（梯度加权类激活映射）生成类别相关的热力图 Ly，量化每个像素对分类决策的贡献度。
动态区域选择： 通过阈值 τ 筛选显著区域（Ly≥τ 的像素），确保扰动集中在高贡献区域。

实现步骤

梯度计算： 前向传播获取Logits层输出 Zy（对应真实类别 y 的未归一化得分）。反向传播计算 Zy对最后一个卷积层特征图的梯度。
权重分配： 对每个特征图的梯度进行全局平均池化，得到权重：

在这里插入图片描述

**生成热力图：**加权叠加特征图:

ReLU过滤负贡献。
区域筛选： 归一化 Ly后，应用阈值 τ 生成二值化掩码，保留高贡献区域。

2. 软掩码精细化扰动（连续权重分配）

提出背景

传统区域攻击方法使用硬掩码（0-1二值化），导致两个缺陷：

权重均一化： 同一区域内所有像素的扰动强度相同，忽略局部重要性差异。
边界不连续： 硬掩码的突变边界可能引入高频噪声，易被防御模型检测。

技术思路
核心思想：将硬掩码改进为软掩码（Soft Mask），允许对关键区域内的像素分配连续权重（w∈(0,1]），实现：

精细化扰动分配：高贡献像素分配更大权重，强化攻击效果。
平滑过渡： 掩码权重渐变，减少高频噪声。

实现方法

权重归一化： 将Grad-CAM生成的热力图 Ly归一化为概率分布：

(i,j)≥τ）
归一化后权重反映像素的相对重要性。

掩码约束： 扰动生成时，通过哈达玛积 δ⊙ M~ 限制扰动仅在掩码区域内生效，且强度与权重成正比。

技术优势

攻击效率提升：相同扰动范数下，软掩码使关键像素的扰动强度更高。
隐蔽性增强： 避免硬掩码边界的高频噪声，更符合自然图像统计特性。

3. 温度缩放损失函数（优化稳定性设计）

提出背景

传统对抗攻击直接最大化交叉熵损失 −log(Sy)，但当模型对原始样本的置信度 Sy接近1时，梯度趋于饱和（梯度消失），导致优化陷入局部最优。

技术思路

核心思想：引入逆温度参数T∈(0,1) 平滑softmax输出分布，缓解梯度消失问题。

温度缩放原理：修改softmax函数为：
在这里插入图片描述

实现方法

损失函数设计：

第一项（对抗损失）：通过 T 放大低置信度类别的梯度，避免陷入平坦区域。
第二项（正则化）：约束扰动范数，平衡攻击强度与隐蔽性。

梯度上升优化：

迭代更新扰动：
在这里插入图片描述
技术优势

梯度稳定性：T 参数避免softmax饱和，使优化过程更稳定。
攻击成功率提升：低置信度类别被激活，更容易找到有效对抗方向。

二、整体实现流程

输入预处理：归一化原始图像 X 至 [0,1] 范围。
关键区域定位：
使用Grad-CAM生成热力图 Ly，通过阈值 τ 生成软掩码 M~。
扰动初始化： 在掩码区域内随机初始化扰动 δ0。
迭代优化：
（1）前向计算对抗样本 X′=X+δ⊙M~ 。
（2）计算温度缩放后的损失 J。
（3）反向传播获取梯度 ∇δJ，更新扰动 δ。
（4）重复直至满足终止条件（如达到最大迭代次数或成功攻击）
输出结果： 裁剪扰动至 ℓp -范数约束范围内，生成最终对抗样本 X′。

三、实验

原图、热图、Adv-CFR(除CFR区域其他像素都赋值为0)和Adv-non-CFR(CFR区域的像素赋值为0)。
在这里插入图片描述
三种图像的准确度，可见Adv-non-CFR的准确度最低，攻击效果最好。

三种攻击算法在CIFAR-10上的区别。

本文的攻击方式与其他攻击方式的比较，对比的评价指标为ASR（攻击的成功率）、SSIM（加入扰动之后的图像质量）。
在这里插入图片描述
本文提出的攻击方式在不同模型上与其他攻击算法的对比。