Rethinking the Backdoor Attacks’ Triggers A Frequency Perspective
尚未发布,收录于arxiv—— 论文链接
本文指出,现有的后门攻击在频域领域上的研究不足。因此本文提出通过频域信息来辨别后门样本,并以此构建了频域不可见的后门样本。
一个直观的想法就是,后门样本与自然图像的概率分布不同。由于后门样本相比自然图像需要添加特定的trigger pattern,从而触发深度模型给出指定的输出结果。这种添加的特定的trigger pattern,也许能够在频域上表达出来。
本文结果也证实了这一点,后门样本相比正常样本,会在频域上存在高频伪影。通过高频伪影能够达到98.50%的后门检出率。
高频伪影
本文首先使用DCT(离散余弦变换)将样本转换到频域。然后绘制热力图。研究发现,自然图像的能量大多集中在低频部分,而后门样本中往往存在较多的高频部分信息。
将一个trigger pattern添加到图像上,就相当于将trigger pattern的频域信息插入正常图像的频域。
比如下图就是正常样本与后门样本的频域对比。下图中,上半部分是从cifar10中取10000张图片生成获得的平均频域图。下半部分从PubFig中取1000张获得的平均频域图。