本文提出一种简单而有效的对抗权重扰动(AWP)来明确规范化权重损失图的平滑度,在对抗训练框架中形成双重扰动机制(输入扰动和权值扰动)。大量实验表明,AWP确实使权重损失图更加平缓,并且可以很容易地融入各种现有的对抗训练中,以进一步提高对抗鲁棒性。
目录
文章主要贡献
1.通过使用动态生成的对抗样本来表征权重损失图,发现在对抗训练中更平坦的权重损失图通常会导致更小的鲁棒泛化差距。
2.提出一种简单而有效的对抗权重扰动(AWP)来明确规范化权重损失图的平滑度,在对抗训练框架中形成双重扰动机制(输入扰动和权值扰动)。
3.通过实验,发现AWP对持续提高对抗鲁棒性有显著优势
相关工作
在对抗训练中,有两种类型的损失:
1).输入损失图,即损失相对于输入的变化。描述了训练样本附近的损失变化。AT通过反向扰动的样本进行训练,显示的扁平化输入损失图(通过梯度正则化,曲率正则化,局部线性正则化可以实现这一点,这些方法训练速度快,但只有在AT 条件下才能达到同等的鲁棒性)
2).权重损失图,即权重变化,揭示了模型权重周围损失图的几何形状。
权重损失情况与鲁棒泛化差距的关系
从以下两个方向来研究权重损失:
1).在对抗训练的过程中,
2).在不同的对抗训练方法中,导致了权重损失和鲁棒泛化差距之间的明确相关性。
可视化
通过绘制权重w沿随即方向d以量级移动时的对抗性损失来可视化权重损失情况。
对抗训练学习过程中的联系
先展示了权重损失函数如何随着对抗训练学习过程中鲁棒泛化误差而变化。我们使用vanilla AT和分段学习率计划在CIFAR上训练PreAct ResNet18。学习曲线和权重损失图如图所示。可发现,“最佳点”(最高测试鲁棒性)在第103次迭代,在最佳之前,测试鲁棒性和训练鲁棒值很接近,因此鲁棒泛化误差很小。同时,最佳之前的权重损失(每20次迭代绘制一次)也非常平坦。随着训练的继续,鲁棒泛化误差增大,同时权重损失逐渐变得尖锐
不同对抗训练方法之间的联系
一种方法实现的泛化鲁棒差距越小,它的权重损失越平坦,这证实了权重损失平坦度与鲁棒泛化误差有很强相关性。
更平坦的权重损失函数确实会导致较小的鲁棒泛化误差,但只有在训练过程足够的情况下(即训练鲁棒性高)才有利于最终测试的鲁棒性。
为什么需要权重损失图?
对抗样本是通过在每个单独的样本上加入扰动以获得最高的对抗损失来生成的。这是一种基于样本的局部最坏情况,未考虑多个样本的整体影响。DNN的权重会影响所有样本的损失,因此可能会受到干扰以获得基于模型的全局最坏情况(多个对抗样本的最高对抗损失)。权重扰动可以作为输入扰动的良好补充。此外,优化扰动的权重可能会导致平坦的权重损失图,这将进一步缩小鲁棒泛化误差。
提出的对抗权重扰动
权重扰动
本节提出了对抗权重扰动AWP,通过将最坏的情况扰动加入到DNN中来显式地平坦化权重损失函数。要同时关注训练鲁棒性和鲁棒泛化误差。目标函数如下
是原始对抗损失,
表征权重损失平坦度。v是需要选择的权重扰动
扰动方向:
与常用的随机权重扰动 (随机方向取样)不同,AWP方向为沿着对抗损失急剧增加的方向。双扰动对抗训练目标函数如下:
这其中V是v的可行域,与对抗输入扰动类似,AWP也在fw的附近小区域加入权重最坏情况,最内层是输入的max问题,中间层是权重的max问题。
采用双层max的原因是:生成对抗样本时,模型是固定的(相当于固定)这样求出的对抗样本对当前模型而言是一个local worst。但实际上是一个batch或是一个whole size,这时去调整
,得到的是一个global worst
扰动大小
与对抗输入扰动固定的限制不同,本文通过使用第l层权重
的相对大小来限制权重扰动;
是权重扰动大小的约束。
使用相对大小来约束权重扰动的原因为:
1)层与层之间权重的数值分布不同,因此无法使用固定值来约束不同层的权重。
2)权重存在尺寸不变性,例如,当使用ReLU激活函数时,如果我们将一层中的权重乘以10,然后在下一次除以10,网络保持不变。
优化
对于上面两个式子中的两个max问题,循环生成对抗样本xi'.然后使用PGD根据经验更新权重扰动v,这种基于AWP的对抗训练,命名为AT-AWP,
输入扰动:我们在fw+v上使用PGD攻击来制造对抗的例子xi',:
式中Π(·)为投影函数,第一次迭代v为0。
权重扰动:根据生成的对抗样本xi’计算对抗性权重扰动:
其中m是批量大小,v为逐层更新。同用FGSM或PGD方法生成对抗样本 x’类似,v也可以用一步或多步方法求解。
模型训练:
最终,使用SGD更新扰动模型fw+v的参数。在优化了损失图上的一个扰动点的损失后,我们应该回到这个中心点以进行下一次启动。实验参数更新如下:

理论分析
在3个基准数据集和两个威胁模型中对Vanilla AT和AT-AWP进行了实验。可以看出AWP提高了所有情况下的测试鲁棒性。这表明AWP是通用的,可以用于各种威胁模型和数据集。
实验
主要使用两种对抗训练方法:一种是基于原始数据:AT、TRADES、MART另一种使用额外的数据:Pre-training、RST可以看出,与每种方法的基准方法相比,AWP可以进一步提高它们的鲁棒性。
权重扰动分析:
扰动不能太小而无法有效地减小权重损失函数的平坦度,也不能过大而使DNN难以训练。
权重损失图和鲁棒泛化差距的影响
通过平衡训练鲁棒性和损失函数平坦度来改进测试鲁棒性。
AWP与RWP的比较:
AWP可以在一个小区域内找到最坏情况的扰动,而RWP则需要一个较大的扰动。
RWP仅在У≥0.6才使权重损失图平坦。甚至RWP在У=1时才能获得一个和AWP在У=5*10-3时差不多平坦的图。
对于RWP,由于权重损失图未改变,测试鲁棒性在У≤0.3时几乎没有提高,甚至在У≥0.6时测试鲁棒性降低。这是因为如此大的权重扰动使DNN难以训练,并严重降低了训练鲁棒性(蓝色虚线),这反过来又降低了测试鲁棒性,尽管权重损失函数此时平坦。综上所述,AWP在权重扰动方面比RWP好得多
权重正则化和数据增强的比较:
AWP算法与其他加权正则化和数据增强方法相比具有一定的优越性,并与早期停止相比进一步提高了最佳鲁棒性