论文链接:https://arxiv.org/abs/1901.10300
一.介绍
文章提出了加权音频对抗样本的概念,着重于样本失真的数量及权重来加强攻击。此外,在损失函数中应用了降噪方法,以使对抗性攻击更加难以察觉。
音频对抗样本已经被证明可以很好的扰乱ASR(Automatic speech recognition)系统,使任何输入的音频翻译为目标句子。然而生成音频对抗样本的过程要比图像对抗样本难的多,仍旧存在一些技术挑战需要去被解决:
C1. 生成一个音频对抗样本,需要大量的计算资源和时间
C2. 录音和重放这些常见的音频操作都很容易引起额外的噪声,因此音频对抗样本的健壮性很差。
C3. 不同于图像领域,基于p范数的准则被拿来作为损失函数的一部分去产生对抗样本,在音频领域还没有一个研究来找到哪一种准则更加合适。
为此,在这篇论文中通过提出两种新的技术,WPT(Weighted Perturbation Technology)和 SPT( Sampling Perturbation Technology)来构建一个针对ASR系统快速,鲁棒的对抗样本攻击。
在生成对抗样本的过程中,WPT通过调整音频在不同位置时失真的权重,并因此更快的产生对抗样本,还提高了攻击效率。(解决C1)
同时,通过基于语音识别模型中上下文相关性的特征减少干扰点的数量,SPT可以提高音频对抗性示例的鲁棒性。(解决C2)
更深层次,论文调查了不同的准则作为损失函数的一部分来生成音频对抗样本并且提供了一个参考给未来的相关领域的研究者。(解决C3)
最后,论文指出,相比现在最先进的方法,所提出的方法可以产生更加鲁棒的音频对抗样本在4-5分钟的较短时间内,这是一个很大的提升。
二.相关工作
音频对抗样本主要被分为两类:
音频—>标签(speech-to-label):这种方法主要被图像领域相似的一种方法所启发1,2。由于目标句子只能从特定的标签中被选择,这种方法的实际应用是由局限性的。
音频—>对应文本翻译(speech-to-text)3: Carlini & Wagner4首先将音频对抗样本应用于音频到文本的模型中,并且能够使得ASR将任何输入的音频输出为特定的目标句子。然而,音频的鲁棒性受到了损害并且它们的大多数音频对抗样本在添加了不可察觉的随机噪声后会失去对抗标签。
随后,在CommanderSong5中实现了实用的透过空气的音频对抗攻击,但是他们的方法只是在音乐片段上有效;另外,Yakura & Sakuma6提出了另一种物理世界的攻击方法。无论如何,这两种方法都会在原始音频中引入不可忽略的噪声。 不幸的是,所有这些方法都需要几个小时才能生成一个音频对抗示例,包括最新的工作7。
PS:相关工作这个模块,放以前我是基本略过,或者粗略的看一眼。但是音频对抗样本这个部分,刚开始接触,自己觉得多了解一些有助于拓展思路,理解整体的这个领域的发展。看了几篇相关工作后,发现对于我这种论文还没有读多少的人来说,简直是“横财收集处”。发现以前的自己太浮躁了,之前的看过的论文相关工作部分我日后也一定都补上。
三.背景
3.1 威胁模型
在对攻击进行更加细节的描述之前,我们需要选择一个ASR模型作为可能的威胁模型。通常需要满足下面3个条件:
- 核心组成应该是RNNs,如LSTM,这被目前的ASR系统广泛接受。
- 目前最先进的音频对抗攻击方法应该能够应用在上面,相应的实验结果可以被用来作为一个本文方法的baseline。
- 需要是开源的,这样可以在上面进行白盒测试。
基于以上条件,选择Deepspeech8模型作为实验的威胁模型,开源的ASR系统使用CTC方法9和LSTM作为主要组成。进行的是白盒攻击。