论文分享（三）——加权采样音频对抗样本攻击

最新推荐文章于 2025-04-02 23:26:25 发布

2020拯救世界

最新推荐文章于 2025-04-02 23:26:25 发布

阅读量4.3k

点赞数 7

分类专栏：论文阅读文章标签：音频对抗样本深度学习

本文链接：https://blog.csdn.net/xunbaobao123/article/details/103118743

版权

本文提出加权采样音频对抗样本攻击，通过WPT和SPT技术解决现有音频对抗样本的计算资源消耗大、鲁棒性差、准则选择不确定等问题。实验表明，该方法能快速生成鲁棒的对抗样本，提高攻击效率和噪声抵抗力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文链接：https://arxiv.org/abs/1901.10300

一.介绍

文章提出了加权音频对抗样本的概念，着重于样本失真的数量及权重来加强攻击。此外，在损失函数中应用了降噪方法，以使对抗性攻击更加难以察觉。

音频对抗样本已经被证明可以很好的扰乱ASR（Automatic speech recognition）系统，使任何输入的音频翻译为目标句子。然而生成音频对抗样本的过程要比图像对抗样本难的多，仍旧存在一些技术挑战需要去被解决：

C1. 生成一个音频对抗样本，需要大量的计算资源和时间
C2. 录音和重放这些常见的音频操作都很容易引起额外的噪声，因此音频对抗样本的健壮性很差。
C3. 不同于图像领域，基于p范数的准则被拿来作为损失函数的一部分去产生对抗样本，在音频领域还没有一个研究来找到哪一种准则更加合适。

为此，在这篇论文中通过提出两种新的技术，WPT（Weighted Perturbation Technology）和 SPT( Sampling Perturbation Technology）来构建一个针对ASR系统快速，鲁棒的对抗样本攻击。

在生成对抗样本的过程中，WPT通过调整音频在不同位置时失真的权重，并因此更快的产生对抗样本，还提高了攻击效率。（解决C1）

同时，通过基于语音识别模型中上下文相关性的特征减少干扰点的数量，SPT可以提高音频对抗性示例的鲁棒性。（解决C2）

更深层次，论文调查了不同的准则作为损失函数的一部分来生成音频对抗样本并且提供了一个参考给未来的相关领域的研究者。（解决C3）

最后，论文指出，相比现在最先进的方法，所提出的方法可以产生更加鲁棒的音频对抗样本在4-5分钟的较短时间内，这是一个很大的提升。

二.相关工作

音频对抗样本主要被分为两类：

音频—>标签（speech-to-label）：这种方法主要被图像领域相似的一种方法所启发¹^,²。由于目标句子只能从特定的标签中被选择，这种方法的实际应用是由局限性的。

音频—>对应文本翻译（speech-to-text）³： Carlini & Wagner⁴首先将音频对抗样本应用于音频到文本的模型中，并且能够使得ASR将任何输入的音频输出为特定的目标句子。然而，音频的鲁棒性受到了损害并且它们的大多数音频对抗样本在添加了不可察觉的随机噪声后会失去对抗标签。

随后，在CommanderSong⁵中实现了实用的透过空气的音频对抗攻击，但是他们的方法只是在音乐片段上有效；另外，Yakura & Sakuma⁶提出了另一种物理世界的攻击方法。无论如何，这两种方法都会在原始音频中引入不可忽略的噪声。不幸的是，所有这些方法都需要几个小时才能生成一个音频对抗示例，包括最新的工作⁷。

PS：相关工作这个模块，放以前我是基本略过，或者粗略的看一眼。但是音频对抗样本这个部分，刚开始接触，自己觉得多了解一些有助于拓展思路，理解整体的这个领域的发展。看了几篇相关工作后，发现对于我这种论文还没有读多少的人来说，简直是“横财收集处”。发现以前的自己太浮躁了，之前的看过的论文相关工作部分我日后也一定都补上。