语音识别攻击总结

槑!

已于 2023-09-22 16:25:52 修改

阅读量2.2k

点赞数

分类专栏：深度学习文章标签：深度学习语音识别人工智能生成对抗网络

于 2022-03-02 16:21:22 首次发布

本文链接：https://blog.csdn.net/weixin_45688580/article/details/123233449

版权

11 篇文章 18 订阅

订阅专栏

为了对深度学习在语音中的应用有个大体了解，可以查看博主写的李宏毅老师DLHLP 2020课程笔记
DLHLP 课程笔记

攻击目的

二分类器：我们假定一个二分类 $\left\{\begin{matrix}>0: cat\\ <0: dog \end{matrix}\right.$ ，则我们想要需找扰动 $\delta$ ,使得 $f(x+\delta)和f(x)$ 恰好异号即可。
多分类器：假定x的正确分类为 $\hat{k}$ ，我们要让分类器判定为k的的置信度大于分类为 $\hat{k}$ 的置信度。定义 $f_{k}(x)$ 为分类器对于“x属于k类的置信度”。则目标为 $f_{k}(x+\delta)-f_{\hat{k}}(x+\delta)>0\ k\neq \hat{k}$ 。
我们还期望符合要求的 $\delta$ 尽可能的小。

FGSM是仅仅走一大步，PGD是每次都走一小步
$x_{0}^{*}=x\\x_{t+1}^{*}=clip(x_{t}^{*}+\alpha\cdot sign( \triangledown_{x}J(x_{t}^{*},y)))$
以上两个算法都很容易陷入局部最大值和对模型“过拟合”

新一轮扰动=当前梯度方向+之前梯度
$g_{t+1}=\mu g_{t}+\frac{\triangledown_{x}J(x_{t}^{*},y)}{\left \| \triangledown_{x}J(x_{t}^{*},y)\right \|}_{1}\\x_{t+1}^{*}=x_{t}^{*}+\alpha \cdot sign(g_{t+1})$

$minimize\ ||\delta||_{p}+c\cdot f(x+\delta,t)\\ such\ that \ x+\delta \in [0,1]^{n}$
为保证 $\ x+\delta \in [0,1]^{n}$ ，使用 $\delta = \frac{1}{2}(tanh(w_{i})+1)-x_{i}$ 限制，其中 $tanh(x)=\frac{e^{x}-e^{-x}}{e^{x}+e^{-x}}\in (-1,1)$
常选 $p=2,\ c=6,\ f(x')=max(\underset{i\neq t}{max}(Z(x)_{i})-Z(x')_{t},-k)$ ，其中 $k 为置信度, Z 为 l o g i s t i c 输出 (未经过 so f t ma x)$
超参数：k越大，那么模型分错，且错成的那一类的概率越大。常数c协调了对抗性和保持接近原始样本的相对重要性。
$f (x^{'})$ 是衡量 $F (X^{'})$ 和目标label t之间距离的损失函数，越小则越有可能分类成t，常见的如下图。
实际上损失函数的选择会使得对抗性样本的失真率差三倍以上

C&W算法应用于DeepSpeech模型（端到端语音识别）
量化扰动后失真，使用分贝之差， $dB(\delta)$ 越小代表越安静。 $dB(x)=\underset{i}{max} 20\cdot log_{10}(x_{i})\\ dB(\delta)=dB(\delta)-dB(x)$
之前工作已经做到 $minimize\ dB_{x}(\delta)+c\cdot l(x+\delta,t),其中l(x',t)\leq 0 \Leftrightarrow f(x')=t$ 了，对于语音有两个问题：
- 如果使用 $l (x^{'}, t) = CTC L oss (x^{'}, t)$ ，可以保证 $l(x',t)\leq 0\Rightarrow C(x')=t$ ，但反过来却不行。
- 当使用 $l_{\infty }$ 作为尺度时，优化过程会在结果附近不断摆动而不集中，因此采用 $l_{2}$ ，即优化 $|\delta|_{2}^{2}+c\cdot l(x+\delta,t)$ 。
在使用贪心解码(greedy decoding) 方案时，完整的攻击方案如下：
- 使用的损失函数 $l(y,t)=max(y_{t}-\underset{t'\neq t}{max}\ \ y_{t'},0)$ ，对于目标序列 $\pi , L(x,\pi)=\sum_{i}l(f(x)^{i},\pi_{i})$ 。
- 这里我存疑，我觉得应该是 $l(y,t)=max(\underset{t'\neq t}{max}\ y_{t'}-y_{t}\ ,0)$
- $minimize\ ||\delta||_{2}^{2}+\sum_{i} c_{i}\cdot L_{i}(x+\delta,\pi_{i})\\ such\ that \ dB_{x}(\delta)<\tau$
- 我们先通过使用CTCLoss找到对抗样本 $x_{0},计算\pi = arg\ max_{i}\ f(x_{0})^{i}$ 为使用的目标序列。