【论文精读】Adversarial Patch Attack on Multi-Scale Object Detection for UAV Remote Sensing Images-CSDN博客

本文链接：https://blog.csdn.net/weixin_45977237/article/details/146163246

文章目录

前言
摘要
一、介绍
- 1、背景
- 2、贡献
二、相关工作
三、方法
四、实验
总结

前言

论文题目：Adversarial Patch Attack on Multi-Scale Object Detection for UAV Remote Sensing Images
论文原文：https://doi.org/10.3390/rs14215298
论文来源：Remote sensing SCI 2区
发表时间：2022

在这里插入图片描述

摘要

尽管深度学习在各种场景中受到了广泛关注，并取得了出色的性能，但它在一定程度上受到了对抗性样本的影响。特别是，物理攻击比数字攻击更具威胁。然而，现有的研究在无人机遥感图像（RSIs）的物理攻击方面关注较少。在本文中，我们仔细分析了遥感领域中针对多尺度对象的通用对抗性补丁攻击。RSIs 中对抗性攻击面临的挑战有两个方面。一方面，遥感图像中的对象数量多于自然图像。因此，当攻击 RSIs 的检测器时，一个对抗性补丁很难对所有对象显示出对抗性效果。另一方面，拍摄平台的宽高度范围导致对象尺寸发生了很大变化，这为多尺度对象的通用对抗性扰动生成带来了挑战。为此，我们提出了一种遥感数据的对抗性目标检测攻击方法。所提出方法的关键之一是新颖的对抗性补丁优化。我们通过制定一个联合优化问题，旨在攻击尽可能多的对象。此外，我们提高缩放因子以生成适应于多尺度对象的通用对抗性补丁，从而确保对抗性补丁在现实世界的多尺度对象上有效。大量实验证明了我们的方法在 YOLO-v3 和 YOLO-v5 上优于最先进的方法。此外，我们还验证了我们的方法在实际应用中的有效性。

一、介绍

1、背景

1、无人机遥感技术的应用与重要性

无人机技术推动了高分辨率遥感图像的获取，广泛应用于分类、分割和目标检测等任务。
目标检测是遥感领域的核心任务，依赖深度学习模型（如YOLO系列）实现高精度，但其安全性问题尚未被充分研究。

2. 对抗攻击的威胁

对抗样本（Adversarial
Examples）：通过微小扰动使模型错误预测，分为数字攻击（直接在数字图像中添加扰动）和物理攻击（如打印对抗补丁）。
物理攻击的挑战：现有研究多关注自然图像（如人脸识别、行人检测），而遥感图像中目标数量多、尺度变化大，导致传统方法难以有效攻击所有目标。

3. 遥感场景的独特挑战

目标数量多：遥感图像通常包含密集目标（如车辆群），攻击需同时影响所有目标。
多尺度问题：无人机拍摄高度差异（25m-120m）导致目标尺寸差异显著，需生成适应不同尺度的通用对抗扰动。

4. 现有研究的不足

多数对抗攻击方法针对分类任务，目标检测攻击研究较少。
现有物理攻击方法（如对抗补丁）在遥感场景中效果有限，尤其是对多尺度目标的泛化能力不足。
5. 本文的解决方案
提出联合优化方法，结合目标损失（降低所有目标的平均置信度）和检测损失（破坏检测模型性能），提升攻击覆盖率。
引入尺度因子，根据拍摄高度动态调整对抗补丁尺寸，适应多尺度目标。
通过数字和物理实验验证方法在YOLO-v3/v5上的有效性，首次评估不同高度（尺度）下的攻击效果。

2、贡献

1、首次针对多尺度物体的物理对抗攻击评估
本文是首个在无人机遥感场景中对多尺度物体进行物理对抗攻击评估的研究。通过在不同飞行高度（25m-120m）采集数据，验证了对抗补丁在真实物理环境中对多尺度目标（如不同尺寸的车辆）的攻击有效性，填补了现有研究在物理攻击和多尺度适应性方面的空白。

2、联合优化的对抗补丁生成方法
提出了一种新的优化框架，结合两种关键损失函数：

目标损失（Object Loss）：通过最小化所有检测框的平均置信度，确保攻击尽可能多的目标。
检测损失（Detection Loss）：通过最大化检测模型的训练损失（如边界框回归和分类损失），降低模型整体精度。
实验表明，这种联合优化策略显著提升了攻击成功率（ASR），尤其在目标密集的遥感图像中效果突出。

3、尺度自适应的对抗补丁生成
引入尺度因子（Scale Factor）机制，根据拍摄高度动态调整补丁尺寸。通过公式：
在这里插入图片描述
（Sp为补丁原始尺寸，Sh为当前高度下目标尺寸），确保补丁与目标尺寸匹配。这一设计解决了因无人机高度变化导致的目标尺度差异问题，使生成的补丁能有效适应多尺度场景。

二、相关工作

本文的第二节主要回顾了对抗性攻击方法，并将其分为数字攻击和物理攻击两大类。

1、数字攻击

数字攻击是指在数字空间中对输入图像的像素值进行修改，从而生成对抗性样本。常见的数字攻击方法包括：

快速梯度符号法 (FGSM): 基于梯度信息，通过迭代更新图像像素值，使其逐渐偏离原始图像，并欺骗模型做出错误预测。
投影梯度下降法 (PGD): 一种基于梯度的优化算法，通过在梯度方向上不断更新图像像素值，最终生成对抗性样本。
深度欺骗 (DeepFool): 估计输入图像到最近决策边界的距离，并生成对抗性样本，使其位于决策边界的另一侧。
通用对抗性扰动 (UAP): 生成一种通用的对抗性扰动，可以欺骗多种不同的模型。
C&W 攻击: 通过最小化相似度度量 (L0、L2、L∞) 来寻找对抗性扰动。
基于雅可比矩阵的显著性图攻击 (JSMA): 利用雅可比矩阵计算图像中每个像素对模型输出的影响，并选择对模型输出影响最大的像素进行修改。

2、物理攻击

物理攻击是指将生成的对抗性样本应用于现实世界中，例如打印成对抗性贴纸并贴在物体上，从而欺骗目标检测模型。常见的物理攻击方法包括：

对抗性眼镜: 生成带有对抗性图案的眼镜，欺骗人脸识别系统。
对抗性 T 恤: 生成带有对抗性图案的 T 恤，欺骗行人检测系统。
对抗性补丁: 生成带有对抗性图案的贴纸，可以贴在车辆、建筑物等物体上，欺骗目标检测系统。

3、遥感领域的对抗性攻击

除了上述对抗性攻击方法，近年来也有一些研究开始关注遥感图像中的对抗性样本。例如：

Czaja 等人首次生成针对遥感图像分类模型的对抗性样本。
Xu 等人提出生成通用对抗性样本，实现对不同模型的黑盒攻击。
Chen 等人设计了针对合成孔径雷达 (SAR) 图像的对抗性攻击实验。
Xu 等人指出高光谱图像也受到对抗性样本的影响。
Lu 等人设计了一种自适应尺度的补丁，用于攻击遥感图像中的目标检测。
Du 等人对 Thys 等人的方法进行改进，并进行了针对空中监控模型的数字和物理攻击实验。

4、研究现状和挑战

尽管对抗性攻击在遥感领域取得了一些进展，但仍存在一些局限性：

数字攻击的有效性有限: 大多数现有方法主要关注数字攻击，但其在物理攻击中的应用受到限制。
多尺度目标的攻击难度: 遥感图像中物体的数量通常比地面图像中的数量多，因此对抗性补丁难以对所有物体产生对抗性效果。
多尺度目标的通用扰动生成: 遥感图像是通过地球观测摄影平台获取的，平台的高度范围很广，导致物体的大小不一，这给生成通用对抗性扰动带来了挑战。

三、方法

在这里插入图片描述

1、方法流程图

上图展示了本文方法的流程图，主要分为两部分：

1、检测模型训练：使用干净数据（含目标标签）训练高精度检测模型。本文的目标模型为YOLO-v3和YOLO-v5。

2、生成对抗性补丁：

初始化：随机生成初始对抗性补丁。

图像扰动：通过应用函数（apply function）将补丁缩放、旋转后粘贴至干净图像上，生成对抗样本。

补丁变换：根据比例因子（scale factor）调整补丁尺寸，使其适应目标对象的尺度；随机旋转补丁（±20°）以增强物理鲁棒性。

补丁位置：基于目标真实框（ground truth）定义补丁掩膜（patch mask），确定补丁在目标上的粘贴位置（如车顶）。

损失计算与优化：将对抗样本输入检测器，计算由四部分组成的损失函数（对象损失、检测损失、总变差损失、非可打印性评分损失），并通过梯度上升算法更新补丁参数。

2、问题定义

针对YOLO-v3和YOLO-v5检测器，定义对抗性补丁攻击的数学形式：
输入输出: $\subseteq \mathbb{R}^{N \times H \times W}$ ，检测器f(⋅)输出候选框集合 $\widehat{B}(x) = \left\{ \widehat{b}_1, \widehat{b}_2, \widehat{b}_3, \ldots, \widehat{b}_n \right\}$ ，其中每个候选框 $\widehat{b}_i = \left\{ \widehat{x}_i, \widehat{y}_i, \widehat{w}_i, \widehat{h}_i , \widehat{C}_i, \widehat{P}_i\right\}$ 包含中心坐标、宽高、置信度及类别概率。
对抗样本生成：通过应用函数 A(⋅) 将对抗性补丁 P 粘贴至目标对象上，生成对抗样本：
在这里插入图片描述
式中，Xadv表示对抗示例，P表示对抗patch, A(·)表示apply函数，目的是将对抗patch附加到对象上。

优化目标：最小化非极大值抑制（NMS）后的检测框数量，即：
在这里插入图片描述
其中NMS(·)表示非最大值抑制，Σ(·)是输出检测对象数量的计数函数。 ${conf}_{th}$ 和 ${iou}_{th}$ 分别是置信度阈值和IOU阈值。

3、对抗性补丁的变换

为了增强对抗性补丁在物理世界中的鲁棒性并适应多尺度目标检测的挑战，本节提出两种关键变换操作：补丁旋转和动态缩放。这些变换通过应用函数（apply function）实现，确保生成的对抗性补丁在数字和物理域中均能有效攻击不同尺度的目标。

1. 补丁旋转（Patch Rotation）

目的： 提升补丁对物理世界视角变化的鲁棒性。
实现方法： 在对抗样本生成过程中，对补丁施加随机旋转（角度范围为±20°）。

例如，若补丁粘贴在车顶，旋转操作可模拟车辆停放时的不同朝向，避免因固定角度导致攻击失效。

作用：

增加补丁纹理的多样性，降低检测模型对特定方向补丁的敏感性。
增强物理攻击的泛化能力，使补丁在不同观测角度下均能隐藏目标。

2. 动态缩放（Dynamic Scaling）
背景：
无人机摄影平台的高度范围广（25 m至120 m），导致同一目标在图像中的尺寸差异显著（如图4所示）。
若补丁尺寸固定，可能无法适配不同高度下的目标尺度（如近景大目标和远景小目标）。

实现方法：
比例因子计算：根据摄影高度动态调整补丁尺寸。
公式为：
在这里插入图片描述

其中 Sp为补丁原始尺寸，Sh为高度 h 对应的目标尺寸，εh为比例因子。
高度分组与适配：

将测试数据按摄影高度划分为5组（如25–40 m、45–60 m等），每组对应不同的 εh 。
生成比例因子向量 ${ε}_h= \left\{ {ε}_{h1}, {ε}_{h2},{ε}_{h3}, \ldots, {ε}_{hm}\right\}$ ，其中m为高度维数
数字攻击时，根据图像的高度标签选择对应的εh，对补丁进行缩放。

作用：
确保补丁尺寸与目标实际物理尺寸匹配（如车顶大小）。
避免因补丁过大（遮挡过多背景）或过小（攻击无效）导致的攻击失败。

3.补丁位置与掩膜生成（Patch Placement & Mask Generation）
位置选择：
补丁需粘贴在目标的合理位置（如车顶而非车窗），以符合物理可行性。
依据目标真实框（ground truth）定义补丁的粘贴区域，确保攻击的精准性。
掩膜生成：
通过应用函数生成补丁掩膜（patch mask），确定补丁在图像中的具体位置。
掩膜中非零像素区域被替换为对抗性补丁的像素值，生成最终对抗样本（如图3所示）。

4. 变换流程总结
**输入：**干净图像、初始对抗补丁、目标真实框。
变换步骤：

按高度标签计算比例因子εh，缩放补丁至适配尺寸。
对补丁施加随机旋转（±20°）。
根据真实框生成补丁掩膜，将变换后的补丁粘贴至目标位置。

输出： 包含对抗性补丁的扰动图像，用于后续损失计算与优化。

在这里插入图片描述

4、对抗性补丁的优化

本节提出一种联合优化策略，通过组合多种损失函数生成高效的对抗性补丁，旨在同时攻击多尺度目标并增强物理攻击的鲁棒性。优化过程包括以下四部分损失函数的设计与平衡：

1. 对象损失（Object Loss）
目标： 降低所有候选框的平均置信度，使更多目标无法通过检测器的置信度阈值过滤。
原理： 检测器通过非极大值抑制（NMS）筛选候选框，若单个目标的多个候选框置信度均低于阈值，则该目标会被成功隐藏。
公式：
在这里插入图片描述
其中 M 为单张图像中所有候选框的数量，confidence 为各框的置信度。

作用： 通过平均所有候选框的置信度，迫使补丁同时攻击图像中的多个目标，尤其适用于遥感图像中目标密集的场景。

2. 检测损失（Detection Loss）
目标： 最大化检测模型的训练损失，直接降低模型的整体检测精度（如平均精度AP、召回率等）。
组成： 检测损失基于YOLO模型的训练损失，包含三部分：

置信度损失（Lconf：惩罚检测框是否存在目标的预测误差。
边界框损失（Lbbox：计算预测框与真实框的中心坐标、宽高误差
类别损失（Lcls：惩罚目标类别预测错误。

公式： 在这里插入图片描述

超参数 α,β,γ 用于平衡各部分权重。

作用： 通过反向优化检测模型的训练目标，使检测器在对抗样本上的性能显著下降。

3. 总变差损失（Total Variation Loss, TV Loss）
目标： 平滑补丁的局部纹理，减少打印后因噪声或模糊导致的对抗效果退化。

公式：
在这里插入图片描述
其中 ${ {P}_{i,j}}$ 表示补丁在位置 (i，j) 的像素值。

作用： 约束相邻像素间的差异，避免补丁出现高频噪声（如尖锐边缘或斑点），确保物理打印后的纹理连续性。

4. 非可打印性评分损失（Non-Printability Score Loss, NPS Loss）
目标： 限制补丁颜色在打印机色域内，减少数字设计到物理打印的颜色失真。

公式：
在这里插入图片描述
其中 C 为打印机可呈现的颜色集合， ${{p}_{patch}}$ 为补丁的像素值。

作用： 强制补丁颜色接近打印机的实际色域，避免因色彩偏移导致攻击失效。

5. 总损失函数与超参数设置
联合优化公式：

在这里插入图片描述
**超参数 λ 的作用：**平衡检测损失与对象损失的权重。
优化方法： 通过梯度上升算法迭代更新补丁参数，最大化总损失以降低检测性能。

四、实验

在Yolo-V3和Yolo-V5上使用我们的方法OBJ、DPatch和Patch-Noobj进行数字攻击实验来测试ASR。结果如下表（针对Yolo-V3）：（粗体为最优，下划线为次优）
在这里插入图片描述
下图是比较了我们的方法对Yolo-V3的Dpatch、OBJ、patch - noobj和随机补丁的攻击效果。该图所示的图像是在30米、60米和90米的高度拍摄的。

在这里插入图片描述

作者还做了物理攻击的实验，将补丁打印出来进行攻击，得到随着高度越高攻击的成功率越低。还做了消融实验来验证联合优化函数的作用。感兴趣的同学可以去看原文。

总结

本文提出了针对无人机遥感图像多尺度目标检测的对抗性补丁攻击方法：

首次评估了对抗性攻击对不同尺度目标的影响，并进行了多尺度目标的物理对抗性攻击。 实验数据涵盖了从25 米到120 米的高度范围，验证了该方法的有效性。
提出了一个联合优化问题，并引入了物体损失和检测损失来生成更有效的对抗性补丁。 物体损失有助于攻击图像中的更多物体，而检测损失旨在降低目标检测模型的精度。实验结果表明，两者结合可以获得更好的攻击效果。
为了使生成的补丁在现实世界中有效，根据图像的高度标签使用缩放因子来调整对抗性补丁的大小。 这样可以保证补丁在不同高度下都能够有效地攻击目标。
通过与基线方法进行对比实验，验证了本文方法在数字攻击中的优越性。 实验结果表明，本文方法在 Yolo-V3 和 Yolo-V5 模型上的攻击效果优于现有方法。
进行了物理世界中的实验，测试了本文方法的有效性。 实验结果表明，本文方法在物理世界中也具有一定的攻击效果，但受限于图像分辨率和打印精度等因素，攻击效果有所下降。