Visual Adversarial Attacks and Defenses in the Physical World: A Survey

本文探讨了计算机视觉中的物理攻击和防御,区分了数字与物理攻击的实施方式,介绍了攻击任务、形式和方法,以及物理防御的预处理、内处理和后处理策略。作者概述了当前研究挑战和未来发展方向,关注了如人脸识别、无人驾驶等关键任务的物理攻击案例和防御措施。
摘要由CSDN通过智能技术生成


论文笔记

摘要

  1. 文章聚焦于CV方向,并且涉及到了物理攻击和物理防御两个方面
  2. 物理攻击和数字攻击的区别
    1. 数字攻击和物理攻击的实施时间:数字攻击表示在相机成像之后对数字像素进行攻击,物理攻击表示在相机成像之前对物理对象进行攻击。
    2. 数字攻击效果很好,因为数字扰动通常是全球性的,不明显的,很难被相机清晰地捕捉到,但是在现实生活中太难实现。
      数字攻击和物理攻击的差异举例
      在这里插入图片描述
  3. 主要贡献:
    1. 当前计算机视觉中的对抗性攻击根据攻击形式的不同可分为数字攻击和物理攻击。物理攻击在现实世界中更加实用。
    2. 物理攻击:分别从攻击任务、攻击形式和攻击方法来组织。
    3. 物理防御,我们从预处理、内处理和后处理三个方面对DNN模型进行分类,以实现对抗性防御的全覆盖。
    4. 讨论了该研究领域面临的挑战,并进一步展望了未来的发展方向。

重要概念

对抗性攻击和对抗性示例

只有一个微小的扰动才能推翻最先进的DNN模型的正确预测,这种恶意行为被定义为对抗性攻击,被操作过的图像称为对抗性示例。

introduce

该部分首先说明了DNN不安全,随后提出DNN安全的重要性,随之给出了物理对抗面临的挑战,紧接着回顾了前任的工作,并说明了与之不同之处,最后给出了文章框架。

物理攻击面临以下几个关键挑战:

  1. 物理对抗实例应抵抗相机成像的影响,相机成像主要受光学透镜和图像传感器处理器的影响。
  2. 物理对抗的例子需要对不同的转换保持鲁棒性,比如拍摄距离的变化、角度的变化和光照的变化。
  3. 物理对抗的例子应该是隐形的。数字图像是在像素级进行修改的,难以被感知。因此,实现物理攻击的不显著性是一个挑战。

物理攻击和防御

  1. 物理攻击
    • 我们首先从攻击任务、攻击形式和攻击方式三个方面对当前的物理攻击进行分类。
    • 对于攻击任务,我们引入了五个安全关键任务,研究者通常在这些任务中进行物理攻击。
    • 对于攻击形式,我们总结出当前物理攻击所涉及的三种主要方式。
    • 对于攻击方法,我们从白盒和黑盒透视图总结了四种攻击设置。
  2. 我们从DNN模型的预处理、内处理和后处理三个阶段建立了当前物理防御的分类。每个阶段包含防御方法的多个细粒度分类。
  3. 最后,讨论了该领域存在的七个尚未解决的挑战,并进一步展望了未来的发展方向。

文章框架

在这里插入图片描述

本文三个主要贡献

  1. 我们从攻击任务、攻击形式和攻击方式三个方面对当前的物理攻击进行分类。我们相信这三个方面可以给读者一个清晰的描述。
  2. 我们从预处理、中处理和后处理三个角度对当前的物理防御进行分类,以实现防御过程的全覆盖。
  3. 物理攻击与防御仍然是一个快速发展的研究领域,有许多问题需要解决。因此,我们总结了这一领域的挑战,并对未来的方向进行了展望。

物理攻击

攻击任务

人脸识别

攻击类型分为dodging 和 impersonation。
dodging:和无目标攻击一样,dodging 的目的是将一个人的脸误认为其他脸。攻击者需要最小化原始类出现的可能性。

impersonation:和有针对性的攻击一样,impersonation的目的是欺骗FR系统,使其将一张脸识别为另一张特定的脸。为了解决这个问题,攻击者将模型输出与目标类之间的距离最小化。

后面是说了一下前人的工作,首先说了白盒方面,眼镜,补丁,红外二极管,投影仪补丁投射到脸上。

紧接着说了黑盒方面,开发黑盒方法比白盒方法更有价值。一些人脸识别应用程序需要调用商业api。这个时候,敌手其实相当于掌握了模型输出。通过查询模型更新对抗模式。后面说寻找脆弱点位置也是人脸识别研究中的一个重要问题。攻击薄弱环节不仅可以提高效率,还可以避免过拟合。有人设计了通过查询,搜索卡通贴纸位置和角度的算法,但是短时间大量询问会让管理员注意,但是有人优化了,同时优化了位置和扰动。

但是生活中很难直接接触到模型,所以大家都先在自己本地模型上生成对抗实力,再迁移到目标模型中,许多模型训练一个生成器产生难以察觉的对抗例子。它们不依赖于可访问性,但显著提高了商业模型的可移植性。

无人驾驶

交通标志识别

自动驾驶汽车将在不同的距离、角度和天气条件下拍摄交通标志识别的照片。在数字和物理领域,引入了期望转换技术(EOT)来提高鲁棒性。

其他的还是一些前人工作,在此不再赘述。

交通信号灯识别

由于模型本身会微调,因此有人投毒,后续有人使用贴纸造成摄像头失焦。

车辆检测

及时、正确地检测周围车辆是安全的关键要求之一。敌对模式可能会因为隐藏车辆而导致极大的危险

道路线路检测

车道线检测是保证车辆不偏离右车道的一项重要技术

单目深度估计

是基于全视觉的ADS的关键辅助手段,它可以将感知从二维空间扩展到三维空间。用来估算车辆之间的距离。

激光雷达感知

除了视觉自动驾驶仪外,一些现代自动驾驶系统(ADS)都依赖于激光雷达的感知。LiDAR点云不会受到图像级对抗例子的干扰,因此攻击基于LiDAR的ADS更加困难。目前,针对LiDAR感知系统的主流物理攻击有两种。一种是构建三维对抗网格[1,133],另一种是发射对抗激光干扰正常的LiDAR扫描过程[81,129]。

安全监控

人员检测

这个可能会被犯罪分子用来逃避违法行为监测。行人检测主要可以分为基于可见光图像的方法和用于补偿夜间和照明条件差的红外图像识别方法。

Person re-ID

目的是在不同的相机视图下匹配感兴趣的人。它是图像检索的一个子问题,目的是在不同的相机视图下匹配感兴趣的人。由于拍摄视角和距离的不同,服装的变化,环境条件的变化,攻击重新识别模型成为一个具有挑战性的问题。

人员跟踪

人跟踪与人检测不同,人跟踪需要对移动的人做出快速反应,通常被建模为相似匹配问题[9,78]。以往的单目标跟踪攻击大多是在数字领域实现的[22,153,161],在物理环境中传输不好。

动作识别

动作识别模型以时间序列图像为输入。因此攻击者需要在每帧中更新对抗例,但物理对抗例很难立即改变。

遥感

遥感与公共安全和国家安全密切相关。遥感图像由无人机或卫星拍摄,大气条件和相机与物体之间的距离对图像质量提出了挑战。
对抗性贴纸(Adversarial Patches)被认为更实际,可以用来解决图像对抗性攻击的问题。

其他

这段话讨论了与多模态技术和虚拟环境相关的"具身化代理"(embodied agent)的应用,这些代理被用来模拟与人类和周围环境的真实交互。

攻击形式

在实现物理攻击之前,需要适当地制造对抗示例。攻击者通常关注的是一种方法在真实环境中是否可行,包括如何抵抗不利的环境影响,如何促进制造,以及如何防止敌对模式被人眼发现。本节主要介绍对抗补丁、光学对抗攻击和3d打印对抗对象的攻击形式。

对抗补丁

对抗性补丁是物理攻击中最常用的方法。数字攻击在整个图像中产生扰动,在现实世界中进行对抗性攻击是不现实的,而patch只对局部像素进行修改。打印方便,可直接粘贴在目标物上。往后会把数字攻击进行优化成补丁

Meaningless patches

无意义的斑块并不对应现实世界中的物体。

Meaningful patches

有意义的斑块对应现实世界中的物体。现有的大部分有意义的patch都是由GAN生成的。敌人通常会训练生成器生成现实或自然风格的对抗补丁

光学对抗性攻击

CV系统必须有光学感知模块,这为物理对抗攻击留下了一个“漏洞”。敌人可以利用相机的成像原理和图像传感器处理器的特点进行攻击。在现有研究的基础上,将光学对抗攻击分为对抗光攻击和干扰相机成像。

对抗之光

通过光投影把补丁变成了可见光投影

干扰相机成像

摄像机镜头和图像传感器处理器(ISP)对最终的图像质量起着重要作用,它们可以作为实现物理攻击的后门。干扰相机成像是利用光学成像的原理,而不是破坏硬件的功能和结构。

对抗性3d打印

3d打印对抗攻击包括两个步骤:(1)生成3d打印的对抗网格。首先,将一个干净的网格渲染为点云。其次,对一个点增加偏移量或插入新的点并优化参数,实现数字域的攻击。再次,将点云重构为对抗性网格。最后,根据对抗性网格打印3D对象;(2)对LiDAR感知进行物理攻击。3d打印的物体将被激光雷达传感器重新采样,这可能会掉落一些对抗点云。
在这里插入图片描述

攻击方法

白盒攻击

知晓模型信息

基于梯度的攻击

大多数白盒攻击会根据目标模型的梯度信息产生扰动。
基于梯度的方法在白盒设置下可以获得较高的成功率,但在转移到其他黑盒模型时,其性能往往会下降。

基于优化的攻击

基于梯度的方法对于具有防御机制的模型是无效的,如对抗训练和知识蒸馏。在这种情况下,可以使用基于优化的攻击。

虽然C&W攻击对各种视觉任务模型都是有效的,但对抗性实例仍然缺乏可转移性和不显著性。目前基本所有的都是基于C&W

黑盒攻击

Query-based attacks

对于基于查询的攻击,我们假设训练数据和目标模型是未知的,但允许攻击者获取目标模型的输出,例如概率或分类。

进化算法

传统的进化算法[135]通过双亲中随机个体之间的交叉和变异产生后代,这保证了双亲的多样性,但导致收敛速度较慢。基于区域启发式微分进化算法(RHDE),利用攻击成功的小块的位置聚集现象,对标签参数进行高效求解,在每一代的优解附近找到后代。

强化学习

强化学习(RL)专注于agent如何在一个环境中采取行动,以最大化某些累积奖励。

粒子群算法(PSO)

粒子群优化算法是一种通过模拟群体觅食行为来寻找最优解的启发式算法。

贪婪策略
分配优化

前人工作中,将有效的位置被视为一个要优化的分布,而不是单个的点。

基于可移动性的攻击

就是拿到训练集,训练一个相近模型,生成反例,最终将反例应用于真正的模型上

集合攻击

集成训练被广泛用于提高DNN模型的泛化和鲁棒性。同样,这个想法也可以扩展到对抗性攻击。采用集合攻击提高可转移性,在不同模型上取得了均衡的效果。

生成对抗的例子

其实就是使用对抗生成网络

元攻击

元学习可以通过设计一系列的训练任务来获得良好的模型初始化参数。因此,它可以提高模型在新任务上的性能。在对抗性攻击中,元学习可以用来增强生成对抗性实例的可移动性。

物理防御

对抗补丁目前是物理对抗攻击的主要形式。因此大多防御大多针对补丁。

不同时间攻击运用的防御策略
在这里插入图片描述

Pre-processing

数据预处理可以减少物理扰动的影响。目前的预处理方法可分为图像补全和图像平滑两大类。

图像补全

图像完成防御首先通过对抗斑块与其相邻区域的差异来定位对抗补丁区域。然后,防御者可以根据局部区域完成这些区域。

图像平滑

将补丁区域进行平滑操作

In-processing

预处理防御通常很耗时。因此,有必要提高DNN模型本身的鲁棒性。现有的方法主要从对抗训练、体系结构修改和认证鲁棒性三个方面进行研究。

对抗性训练

对抗训练(对抗性训练,AT)使用对抗例子作为训练数据,以提高模型的鲁棒性

架构修改

真就修改神经网络框架以削弱对抗补丁对最终分类的影响。现有的方法主要有两个方面:1)缩小接受域。2)引入新的神经单元。

收窄接收域

收窄接收域的灵感来源于BagNet,采用ResNet-50的结构。BagNet通过将3×3卷积核替换为1×1卷积核来减少接收域的大小

引入新的神经单位

引入新的神经单元可以有效地解决模型结构变化时的优化问题。
如,Ad-YOLO在YOLO-v2的最后一层添加了“Patch”类,而其他层保持不变。通过这种方式,Ad-YOLO可以同时识别对抗补丁和恢复正确的预测。

认证的鲁棒性

输入输出满足此条件时,认为满足鲁棒性
在这里插入图片描述

Post-processing

在做出初步预测之后,模型必须全面分析更多的证据来确认自己的预测没有错误。

展望

可转移的物理对抗性攻击

稳定的物理对抗攻击

不易察觉的物理对抗性攻击

自然物理对抗攻击

通用物理对抗防御

有效的物理对抗防御

平衡鲁棒性和可用性的物理对抗防御

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Adversarial attacks are a major concern in the field of deep learning as they can cause misclassification and undermine the reliability of deep learning models. In recent years, researchers have proposed several techniques to improve the robustness of deep learning models against adversarial attacks. Here are some of the approaches: 1. Adversarial training: This involves generating adversarial examples during training and using them to augment the training data. This helps the model learn to be more robust to adversarial attacks. 2. Defensive distillation: This is a technique that involves training a second model to mimic the behavior of the original model. The second model is then used to make predictions, making it more difficult for an adversary to generate adversarial examples that can fool the model. 3. Feature squeezing: This involves converting the input data to a lower dimensionality, making it more difficult for an adversary to generate adversarial examples. 4. Gradient masking: This involves adding noise to the gradients during training to prevent an adversary from estimating the gradients accurately and generating adversarial examples. 5. Adversarial detection: This involves training a separate model to detect adversarial examples and reject them before they can be used to fool the main model. 6. Model compression: This involves reducing the complexity of the model, making it more difficult for an adversary to generate adversarial examples. In conclusion, improving the robustness of deep learning models against adversarial attacks is an active area of research. Researchers are continually developing new techniques and approaches to make deep learning models more resistant to adversarial attacks.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值