对抗训练fast gradient sign method

1 简介

本文根据2015年《EXPLAINING AND HARNESSING ADVERSARIAL EXAMPLES》翻译总结的。文章对对抗样本进来了解释和治理。

在本文之前,认为对抗样本造成的错误分类可能是因为深度神经网络的极度非线性,或者是没有集成足够多的模型,或者是没有足够的正则化。

但我们发现这些推测是非必要的。因为在高维空间的线性行为足以引起对抗样本。依此,我们设计了一个快速的生成对抗样本的方法,并可以进行对抗训练。我们显示了进行对抗训练相当于提供了一个额外的正则项。而一般的正则策略,如dropout, pretraining, model averaging,没有很好的减少模型对于对抗样本的脆弱性。而非线性模型,如RBF网络却有很好的对抗性。

2 对抗样本的线性解释

在这里插入图片描述

这种解释显示了如果一个简单线性模型的输入有足够的维度,它就可能拥有对抗样本。以前的假说认为是对抗样本由于模型的高非线性。而我们的假说基于非常简单的线性,可以解释为什么softmax 回归是对对抗样本脆弱的。

3 非线性模型的线性干扰

在这里插入图片描述

如上图,主要是引入了下面公式,我们取名生成对抗样本的fast gradient sign method。模型将熊猫+线虫(“nematode”)的干扰,识别成长臂猿(gibbon)。

在这里插入图片描述

4 线性模型的对抗训练

原模型:
在这里插入图片描述

加入对抗训练后模型:

在这里插入图片描述

可以看到类似加入了L1正则惩罚项。但是L1实验结果和对抗训练的实验结果相比,L1并没有带来很好的对抗收益。

5 深度网络的对抗训练

引入了基于 fast gradient sign method的正则项,如下,
在这里插入图片描述

6 RBF网络

含有二次项。RBF是对对抗样本免疫的。公式如下:
在这里插入图片描述

7 总结

1对抗样本可以解释为高维点积的属性,它们是模型过于线性而不是非线性的结果。
2可以将对抗样本在不同模型之间的泛化解释为:对抗性扰动与模型的权重向量高度对齐,并且不同模型在训练以执行相同任务时会学习相似的功能。
3扰动的方向最重要,而不是空间中的特定点。
4因为最重要的是方向,所以对抗性扰动可以在不同的干净样本中推广。
5介绍了一系列用于生成对抗样本的快速方法。(高维空间中的线性行为足以造成对抗样本。对抗样本的线性观点。逻辑回归下的对抗样本。深度网络,扰动隐藏层,不扰动最终隐藏层获得对抗样本。)
6对抗训练可以进行正则化,甚至比dropout更正规。
7我们进行的控制实验未能使用更简单但效率更低的正则器(包括L1权重衰减和添加噪声)来重现此效果。
8易于优化的模型很容易受到干扰。(如线性模型)
9 RBF网络可抵抗对抗样本。(欺骗时信心不足,所以它会通过大幅降低其对“无法理解”的点的置信度来做出正确的响应)
10经过训练可对输入分布进行建模的模型不能抵抗对抗样本。
11 模型的集成也不足以抵抗对抗样本。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值