【黑盒对抗攻击】SPADE: A Spectral Method for Black-Box Adversarial Robustness Evaluation
论文地址:
https://arxiv.org/abs/2102.03716
代码地址:
https://github.com/Feng-Research/SPADE
论文摘要:
这篇文章介绍了一种黑盒谱方法来评估给定机器学习模型的对抗性鲁棒性,作者将该方法方法命名为SPADE,该方法利用了输入/输出图之间的双射距离映射,其中这些图被构造为近似与输入/输出数据对应的流形
利用广义的考特-费舍尔定理(Courant-Fischer theorem),作者提出了一个评价给定模型对抗鲁棒性的 SPADE 分数,并证明了它是流形设置下最佳利普希茨常数(Lipschitz constant)的上界
为了揭示最容易受到对抗性攻击的非鲁棒数据样本,作者开发了一个利用优势广义特征向量的谱图嵌入算法,这个嵌入算法允许为每个数据样本分配一个鲁棒性评分,可以进一步用于更有效的对抗性训练
作者的实验表明,所提出的 SPADE 方法为使用MNIST和CIFAR-10数据集进行反向训练
本文介绍了一种名为SPADE的黑盒方法,用于评估机器学习模型的对抗性鲁棒性。通过分析输入/输出数据的双射距离映射,SPADE使用谱图理论量化模型的鲁棒性。它计算输入/输出图的拉普拉斯矩阵的最大广义特征值作为对抗性鲁棒性的度量,该值还是最佳利普希茨常数的上界。此外,SPADE还能为每个数据样本分配鲁棒性评分,用于指导对抗性训练和增强模型的鲁棒性。实验结果表明,SPADE在MNIST和CIFAR-10数据集上表现出色。
订阅专栏 解锁全文
588

被折叠的 条评论
为什么被折叠?



