蒸馏作为对抗深度神经网络对抗性扰动的防御

想为祖国献石油

已于 2024-07-09 23:15:52 修改

阅读量485

点赞数 15

分类专栏：视觉对抗文章标签： dnn 机器学习人工智能

于 2024-07-09 23:15:37 首次发布

本文链接：https://blog.csdn.net/weixin_47208848/article/details/140308190

版权

背景

精心设计的输入是为了迫使深度神经网络（DNN）提供对手选择的输出。此类攻击可能会严重破坏 DNN 支持的系统的安全性，有时会带来毁灭性的后果。例如，自动驾驶车辆可能会崩溃，非法或非法内容可能会绕过内容过滤器，或者生物识别系统可能会被操纵以允许不当访问。在这项工作中，我们引入了一种称为防御蒸馏的防御机制，以降低 DNN 上对抗性样本的有效性。我们分析研究了在训练 DNN 时使用防御蒸馏所赋予的通用性和稳健性。我们还实证研究了我们的防御机制在对抗环境中的两个 DNN 上的有效性。研究表明，在所研究的 DNN 上，防御性蒸馏可以将样本创建的有效性从 95% 降低到 0.5% 以下。

原理

在本文中，我们通过分析和经验探索了使用蒸馏作为对抗性样本的防御机制。我们使用蒸馏过程中提取的知识来减少对手用来制作对抗性样本的网络梯度的幅度。如果对抗梯度很高，制作对抗样本就会变得更容易，因为小的扰动会引起 DNN 输出的高变化。为了抵御这种扰动，我们必须减少输入周围的变化，从而减少对抗梯度的幅度。换句话说，我们使用防御性蒸馏来平滑 DNN 架构在训练期间学习的模型，帮助模型更好地泛化到其训练数据集之外的样本。

本文贡献

（1）阐明了对抗性样本 DNN 防御的设计要求。这些指南强调了 DNN 的防御鲁棒性、输出准确性和性能之间的内在张力。
（2）引入了防御蒸馏，这是一种训练基于 DNN 的分类器模型的过程，该模型对扰动更加鲁棒。蒸馏提取有关训练点的额外知识，作为 DNN 生成的类概率向量，并将其反馈到训练方案中。这与过去使用蒸馏的目的有很大不同，蒸馏的目的是减少 DNN 架构以提高计算性能，