【论文精读】Visually imperceptible adversarial patch attacks

前言

本文主要是计算机视觉中的,关于对抗性补丁攻击的论文,欢迎感兴趣和正在研究本方向的小伙伴们前来讨论学习。

本文摘要

深度神经网络(dnn)在对抗性示例中的脆弱性引起了越来越多的关注。已经提出了许多算法来制作强大的对抗性示例。然而,这些算法大多修改了像素的全局或局部区域,而没有考虑网络解释。因此,扰动是冗余的,很容易被人眼检测到。本文提出了一种产生局部扰动的新方法。其主要思想是通过模拟人的注意力机制,找到图像的贡献特征区域,然后在CFR中加入扰动。在激活图的基础上,设计了一个软掩模矩阵,以精细地表示每个像素在CFR中的贡献。利用这种软掩模,我们开发了一种新的具有逆温度的损失函数来搜索CFR中的最优扰动。由于网络的解释,加到CFR的扰动比加到其他区域的扰动更有效。在CIFAR-10和ILSVRC2012上进行的大量实验证明了该方法的有效性,包括攻击成功率、不可感知性和可移植性。


一、创新点及方法

1. 语义敏感区域定位(Grad-CAM引导的对抗扰动生成)

提出背景​
传统对抗攻击方法(如FGSM、PGD)通常在全图范围内添加扰动,导致两个问题:

  • 扰动冗余: 大量扰动被添加到与分类无关的区域(如背景),效率低下。
  • 视觉显眼性: 全局扰动易被人类察觉,违背对抗样本的隐蔽性要求。

​技术思路​

核心思想: 仅攻击模型决策依赖的关键语义区域​(如分类器关注的物体主体部分),减少无效扰动。

实现方法:

  1. 定位关键区域: 利用Grad-CAM(梯度加权类激活映射)生成类别相关的热力图 Ly,量化每个像素对分类决策的贡献度。
  2. 动态区域选择: 通过阈值 τ 筛选显著区域(Ly≥τ 的像素),确保扰动集中在高贡献区域。

​实现步骤​

  1. ​梯度计算: 前向传播获取Logits层输出 Zy(对应真实类别 y 的未归一化得分)。反向传播计算 Zy对最后一个卷积层特征图的梯度。
  2. 权重分配: 对每个特征图的梯度进行全局平均池化,得到权重:

在这里插入图片描述

  1. **生成热力图:**加权叠加特征图:
    在这里插入图片描述
    ReLU过滤负贡献。

  2. ​区域筛选: 归一化 Ly后,应用阈值 τ 生成二值化掩码,保留高贡献区域。

2. 软掩码精细化扰动(连续权重分配)

提出背景​

传统区域攻击方法使用硬掩码​(0-1二值化),导致两个缺陷:

  1. 权重均一化: 同一区域内所有像素的扰动强度相同,忽略局部重要性差异。
  2. 边界不连续: 硬掩码的突变边界可能引入高频噪声,易被防御模型检测。

​技术思路​
核心思想:将硬掩码改进为软掩码​(Soft Mask),允许对关键区域内的像素分配连续权重(w∈(0,1]),实现:

  1. 精细化扰动分配:高贡献像素分配更大权重,强化攻击效果。
  2. 平滑过渡: 掩码权重渐变,减少高频噪声。

​实现方法​

  1. 权重归一化: 将Grad-CAM生成的热力图 Ly归一化为概率分布:

(i,j)≥τ)
归一化后权重反映像素的相对重要性。

  1. ​掩码约束: 扰动生成时,通过哈达玛积 δ⊙ M~ 限制扰动仅在掩码区域内生效,且强度与权重成正比。

​技术优势​

  • 攻击效率提升:相同扰动范数下,软掩码使关键像素的扰动强度更高。
  • 隐蔽性增强: 避免硬掩码边界的高频噪声,更符合自然图像统计特性。

3. 温度缩放损失函数(优化稳定性设计)

提出背景​

传统对抗攻击直接最大化交叉熵损失 −log(Sy),但当模型对原始样本的置信度 Sy接近1时,梯度趋于饱和(梯度消失),导致优化陷入局部最优。

​技术思路​

核心思想:引入逆温度参数T∈(0,1) 平滑softmax输出分布,缓解梯度消失问题。

​温度缩放原理:修改softmax函数为:
在这里插入图片描述

实现方法​

  1. 损失函数设计:
    在这里插入图片描述
  • ​第一项(对抗损失)​:通过 T 放大低置信度类别的梯度,避免陷入平坦区域。
  • ​第二项(正则化)​:约束扰动范数,平衡攻击强度与隐蔽性。

  1. 梯度上升优化:

迭代更新扰动:
在这里插入图片描述
​技术优势​

​梯度稳定性:T 参数避免softmax饱和,使优化过程更稳定。
​攻击成功率提升:低置信度类别被激活,更容易找到有效对抗方向。


二、整体实现流程

  1. 输入预处理:归一化原始图像 X 至 [0,1] 范围。
  2. 关键区域定位:
    使用Grad-CAM生成热力图 Ly,通过阈值 τ 生成软掩码 M~。
  3. 扰动初始化: 在掩码区域内随机初始化扰动 δ0。
  4. 迭代优化:
    (1)前向计算对抗样本 X′=X+δ⊙M~ 。
    (2)计算温度缩放后的损失 J。
    (3)反向传播获取梯度 ∇δJ,更新扰动 δ。
    (4)重复直至满足终止条件(如达到最大迭代次数或成功攻击)
  5. 输出结果: 裁剪扰动至 ℓp -范数约束范围内,生成最终对抗样本 X′。

三、实验

原图、热图、Adv-CFR(除CFR区域其他像素都赋值为0)和Adv-non-CFR(CFR区域的像素赋值为0)。
在这里插入图片描述
三种图像的准确度,可见Adv-non-CFR的准确度最低,攻击效果最好。
在这里插入图片描述
三种攻击算法在CIFAR-10上的区别。
在这里插入图片描述
本文的攻击方式与其他攻击方式的比较,对比的评价指标为ASR(攻击的成功率)、SSIM(加入扰动之后的图像质量)。
在这里插入图片描述
本文提出的攻击方式在不同模型上与其他攻击算法的对比。
在这里插入图片描述


总结

本文创新点通过语义定位→软掩码加权→温度优化的三阶段设计,实现了高效、隐蔽的对抗攻击:

​Grad-CAM定位解决“往哪里攻击”的问题;
​软掩码解决“如何分配扰动”的问题;
​温度缩放损失解决“如何稳定优化”的问题。
三者协同作用,在减少扰动量的同时提升攻击成功率,为对抗样本生成提供了新的技术路径。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值