论文阅读:A Fourier Perspective on Model Robustness in Computer Vision

Google Brain team 2019年发表在NeurIPS上的文章。

实现 distributional shift (分布变化) 的鲁棒性是计算机视觉任务中具有挑战性的目标。数据增强是常用于提升鲁棒性的方法,但是鲁棒增益在不同的 corruption 之间是不统一的。如,在存在随机噪声的情况下提高性能通常会降低模型对其他 corruption (如对比度变化) 的性能,了解何时以及为何发生此类 trade-off 是关键一步。作者调查了最近观察到的由高斯数据增强和对抗训练 (adversarial training) 引起的 trade-off,并发现这两种方法都提高了对集中在高频信息中的 corruption 的鲁棒性,同时降低对集中在低频信息中的 corruption 的鲁棒性。作者表示通过数据增强减轻这些 trade-off 的一种方法是使用更多样化的增强集,如 AutoAugment。

[Adversarial examples are a natural consequence of test error in noise] 中观察到高斯数据增强和对抗训练能够提升模型在 CIFAR-10 和 ImageNet-C 上对噪声和模糊的鲁棒性,而当应用雾化(fog) 和对比度变换时,模型性能有大幅下降。

这引入了一个问题:

What is different about the corruptions for which augmentation strategies improve performance vs. those which performance is degraded? 能够提高性能的增强方法和降低性能的增强方法有什么不同?

通过在傅里叶频域中应用扰动,作者证明了这两种增强策略使模型偏向于利用输入中的低频信息,这种低频偏差导致了模型对高频信息中的 corruption 更具鲁棒性,同时若 corruption 出现在低频信息中,则模型鲁棒性降低。

初步设定

∣ ∣ ⋅ ∣ ∣ || · || 表示向量的 ℓ 2 \ell ^2 2 范数。对于一个向量 x ∈ R d x \in \mathbb R^d xRd,令 x [ i ] , i ∈ { 0 , . . . , d − 1 } x[i],i \in \{0,...,d-1\} x[i],i{0,...,d1} 表示其某个具体值,对于一个矩阵 X ∈ R d 1 × d 2 X \in \mathbb R^{d_1 \times d_2} XRd1×d2,用 X [ i , j ] , i ∈ { 0 , . . . , d 1 − 1 } , j ∈ { 0 , . . . , d 2 − 1 } X[i,j], i \in \{0,...,d_1-1\},j \in \{0,...,d_2-1\} X[i,j],i{0,...,d11},j{0,...,d21} 表示其某个具体值。通过 F : R d 1 × d 2 → C d 1 × d 2 \mathcal F: \mathbb R^{d_1 \times d_2} \rightarrow \mathbb C^{d_1\times d_2} F:Rd1×d2Cd1×d2 表示 2D DFT, F − 1 \mathcal F^{-1} F1 表示 IDFT。

用参数 σ \sigma σ 定义高斯数据增强:在每次迭代中,在输入图像的每个像素点上增加高斯噪声 N ( 0 , σ ~ 2 ) \mathcal{N}\left(0, \widetilde{\sigma}^{2}\right) N(0,σ 2),其中 σ ~ 2 \widetilde \sigma^2 σ 2是从 [ 0 , σ ] [0,\sigma] [0,σ] 中随机均匀选择的。实验中,Cifar-10上的评估 σ = 0.1 \sigma=0.1 σ=0.1,骨干网络选用 Wide ResNet-28-10;ImageNet 上的评估 σ = 0.4 \sigma=0.4 σ=0.4,骨干网络选用 ResNet-50。另外,基础的数据增强方法有翻转和裁剪。

Fourier heat map:在傅里叶频域中分析模型对高频和低频扰动的敏感性。令 U i , j ∈ R d 1 × d 2 U_{i,j} \in \mathbb R^{d_1 \times d_2} Ui,jRd1×d2 为实值矩阵,使得 ∣ ∣ U i , j ∣ = 1 ∣ ||U_{i,j}|=1| Ui,j=1 F ( U i , j ) \mathcal F(U_{i,j}) F(Ui,j) 最多只有两个非零元素位于 ( i , j ) (i, j) (i,j),称这些矩阵为傅里叶基矩阵。

给定一个模型和一副验证图像 X X X,可以生成带有傅里叶基噪声(加性噪声)的扰动图像:通过计算 X ~ i , j = X + r v U i , j \widetilde X_{i,j}=X + rvU_{i,j} X i,j=X+rvUi,j,其中$ r$ 为从 { − 1 , 1 } \{-1,1\} {1,1} 中随机均匀选择的, v > 0 v>0 v>0 是扰动的范数。对于多通道图像,对每个通道执行同样的扰动操作。之后,可以利用傅里叶基噪声评估该模型,并可视化测试误差如何作为 ( i , j ) (i,j) (i,j) 的函数变化,将测试误差的可视化结果称为模型的傅里叶热图。

鲁棒性问题

为什么模型能够在训练和测试数据的标准设置中达到很高的性能,而在仅存在细微分布变化的情况下性能下降如此严重?最简单的解释是模型缺乏对分布变化的鲁棒性。在自然产生的数据中,输入和目标之间存在许多相关性,模型可以利用这些相关性很好的泛化;然而,如果这些相同的统计数据在测试时被破坏,那么使用这些统计数据进行泛化将导致性能的大幅下降。

在 [ImageNet-trained CNNs are biased towards texture; increasing shape bias improves accuracy and robustness] 中提出一个纹理假说 (texture hypothesis),其表示模型可以依赖自然图像上与纹理相关的局部统计数据得到较高的分类性能(如下图所示,当仅提取猫的纹理时,模型有很大的置信度将其分类为大象)。但是,由于光线或数字伪影引起的自然损坏,此类纹理信息很容易失真,导致鲁棒性较差。
在这里插入图片描述
在图像空间域中,输入和目标之间存在大量相关性。简单的统计数据如颜色、局部纹理、形状、甚至是不直观的高频模式也可以通过某种方式实现显着的 i.i.d (independent and identically distributed,独立同分布) 泛化。为证明,作者将输入图像转换至傅里叶域后应用频域滤波,在 ImageNet 上训练和测试模型。适度滤波可用于模型压缩、图像压缩等领域,但作者也尝试了极端滤波以测试模型泛化的局限性。如下图所示,当在输入上应用低频滤波时,即使图像看起来像是简单的色团,模型也可以达到30%以上的准确率。当应用高频滤波时,利用人类几乎不可见的高频特征,模型仍可达到50%的准确率。这也验证了,低频、高频信息对模型泛化均有一定的作用,当应用数据增强操作时,此类特征以某种程度被增强,模型则可以利用这些非稳健的统计数据进行泛化。
在这里插入图片描述

扰动之间的权衡和相关性:傅里叶视角
针对低频信息的高斯数据增强和对抗训练偏差模型

[Adversarial examples are a natural consequence of test error in noise] 中研究了三个模型在 CIFAR-10-C 上的鲁棒性:原始训练的模型、高斯数据增强训练的模型、对抗训练的模型。其观察到,高斯数据增强和对抗训练提升了模型对所有噪声和大部分模糊扰动的鲁棒性,然而对雾化和对比度调整的鲁棒性大幅下降。如对抗训练的模型在面对对比度调整的扰动时,其准确率从85.66%下降至55.29%。

作者假设此类权衡可以通过不同扰动的傅里叶谱来解释。用 C : R d 1 × d 2 → R d 1 × d 2 C: \mathbb R^{d_1 \times d_2} \rightarrow \mathbb R^{d_1 \times d_2} C:Rd1×d2Rd1×d2 表示扰动函数。下图为自然图像的傅里叶谱以及常见扰动的平均增量可视化图。能够观察到,自然图像在低频中具有更高的浓度 (concentrations)。高斯噪声在傅里叶频率上表现为均匀分布,因此相对于自然图像具有更高的频率统计。另外,许多模糊类的扰动移除或改变了图像的高频内容,因此, C ( X ) − X C(X)-X C(X)X 将具有更高比例的高频能量。对于对比度和雾化扰动,损坏的能量更多集中于低频分量上。
在这里插入图片描述
以上观察到的傅里叶统计数据的不同解释了为什么这两种增强方法提高了加性噪声的性能,而雾化和对比度这两种增强方法更多的是保持高频信息不变,改变低频信息,因此对于此类扰动鲁棒性较差。

作者进一步通过多种扰动研究该假设:首先,测试模型对沿每个傅里叶基向量的扰动的敏感型,在 CIFAR-10 上的评估结果如下图所示(加性噪声固定为 ℓ 2 \ell2 2 范数4,底部图像为扰动后的图像,指标为 Error Rate,表示分类错误的样本占总样本数的比例),能够观察到,自然训练的模型对除最低频之外的所有加性扰动都高度敏感,而高斯数据增强和对抗训练都显着提高了模型对较高频率的鲁棒性,同时牺牲自然训练模型在最低频率下的鲁棒性(表现为,对抗训练和高斯数据增强的模型中,中间的蓝色区域相对于自然训练的模型更小)。
在这里插入图片描述
下图为在 ImageNet 上的评估结果(基向量固定为 ℓ 2 \ell2 2 范数15.7,错误率在整个验证集上取平均值),结果与CIFAR-10上类似,自然训练的模型对除最低频率之外的所有加性噪声都高度敏感,高斯数据增强提高了模型对高频扰动的鲁棒性,同时减少了对低频扰动的性能。对于AutoAgument,其傅里叶热图在中心周围具有最大的蓝色/黄色区域,这表明其对中低频扰动相对稳健
在这里插入图片描述
为进一步测试,添加具有固定 ℓ 2 \ell2 2 范数但以原点为中心的不同频率带宽的噪声。考虑两个设定:一种是原点以最低频率为中心,另一种是原点以最高频率为中心。结果如下图所示(对 i.i.d 高斯噪声进行采样,应用低/高通滤波器,并将滤波后的噪声归一化为 ℓ 2 \ell2 2 范数8,然后再加到输入图像上,即对噪声进行滤波),对于大小为3的低频中心带宽,自然训练的模型错误率不到其他模型的一半,且对低频噪声更加鲁棒。对于高频带宽,使用数据增强训练的模型性能显着优于自然训练的模型,对高频噪声更加鲁棒。这也证明了使用噪声增强训练的模型偏向低频信息的假设一致。(即,模型的判决更加依赖于低频信息,高频信息被扰动了也无关)
在这里插入图片描述
最后一组测试为,对输入图像应用低/高通滤波后评估模型的性能。与前面的实验一致,作者发现应用低通滤波后会降低雾化和对比度扰动的性能,同时提高加性噪声和模型扰动的性能。如果应用高通滤波器则会观察到相反的结果,应用高通滤波器会降低所有扰动的性能,高频扰动的性能下降更加严重。

为更好量化各种模型在频率和鲁棒性之间的关系,作者测量高频域和低频域中的能量比。对于每个扰动 C C C,在扰动的增量 (即 C ( X ) − X C(X)-X C(X)X) 上应用带宽为27的高通滤波 (用 H ( ⋅ ) H(·) H()表示此操作),使用 ∥ H ( C ( X ) − X ) ∥ 2 ∥ C ( X ) − X ∥ 2 \frac{\|H(C(X)-X)\|^{2}}{\|C(X)-X\|^{2}} C(X)X2H(C(X)X)2 作为衡量扰动中高频能量比例的指标。在CIFAR-10-C上评估6个模型:自然训练、高斯数据增强训练、对抗训练、带宽15的低通滤波训练、带宽31的高通滤波训练、使用AutoAugment数据增强训练。结果如下图所示(x轴表示扰动类型的高频能量分数,y轴表示与自然训练模型相比测试精度的变化,底部的图例为每条拟合直线的斜率k和差值r),能够观察到,高斯数据增强、对抗训练和低通滤波器训练提高了模型对高频损坏的鲁棒性,并降低对低频损坏的鲁棒性。AutoAugment提高了几乎所有扰动的鲁棒性。
在这里插入图片描述

低频数据增强是否可以提高对低频损坏的鲁棒性?

作者尝试应用与频域雾化扰动的统计数据相匹配的加性噪声,以测试低频数据增强能否提高模型对低频损坏的鲁棒性。将 ‘‘雾噪声’’ 定义为加性噪声分布 ∑ i , j N ( 0 , σ i , j 2 ) U i , j \sum_{i,j} \mathcal N(0, \sigma^2_{i,j})U_{i,j} i,jN(0,σi,j2)Ui,j,其中选择 σ i , j \sigma_{i,j} σi,j 以匹配基向量 U i , j U_{i,j} Ui,j 上雾化的典型范数。下表为测试结果,结果表明雾噪声的数据增强会降低雾化损坏的性能。
在这里插入图片描述
作者假设,由于自然图像中高频和低频信息之间的不对称性,低频扰动的情况更加复杂。而且由于自然图像更多的集中在低频,模型很容易学会忽略高频信息。

更多样化的数据增强提供了更通用的鲁棒性

如何提高模型对更多样化扰动集的鲁棒性?一种直觉的方法是利用多种增强策略训练模型。作者采用AutoAugment,一种通过学习获得增强参数的自动增强方法,进行模型的评估。下表为不同增强方法在CIFAR-10-C上的评估结果,能够看到AutoAugment平均扰动测试准确率为86%,几乎提升了所有扰动的鲁棒性。
在这里插入图片描述

对抗样本并不是严格意义上的高频现象

一个常见的假设是对抗扰动主要位于高频域。

作者采用 PGD (Projected Gradient Descent,基于梯度的攻击,来自论文 Towards Deep Learning Models Resistant to Adversarial Attacks) 为测试集中的图像构建对抗性扰动,之后分析自然图像与扰动图像之间的差值,并将这些差值投影到傅里叶域中。通过聚合成功的攻击图像,可以了解构建的对抗性扰动的频率特性,结果如下图所示。

对于自然训练的模型,相当于自然图像的统计数据,对抗性扰动确实在高频域中表现出更高的浓度。然而,经过对抗训练的模型则不是这种情况。对抗训练模型的增量类似于自然数据的增量。首先,虽然自然训练模型的对抗性扰动确实在高频域中表现出更高的浓度,但这并不意味着从输入中去除高频信息会产生一个健壮的模型。如同上面的实验结论,自然训练的模型在任何频率上均没有表现出最坏的情况(除了极低频率)。这也解释了,如果在低频域中进行增强,不会得到较好的鲁棒结果。其次,对抗训练的扰动更加偏向较低频率。最后,作者观察到添加某些具有大范数的傅里叶基向量会在保留语义的同时将测试准确度降低到10%以下,扰动图像如下图右边两幅子图所示,这些傅里叶基向量可被视为一种黑盒攻击的方法。
在这里插入图片描述

总结

本文利用傅里叶谱,建立起扰动频率与模型性能之间的联系。这种联系对于高频扰动最强,高斯数据增强和对抗训练使模型偏向于输入中的低频信息,这导致了提高了高频域中较高浓度的扰动的鲁棒性,代价是降低了对低频扰动和原始测试错误的鲁棒性。基于实验数据,仅通过数据增强来提升鲁棒性是极具挑战的,如果只是单纯的增加不同的扰动类型通常不会有较好的结果。本文通过实验证明了AutoAugment在正确添加数据增强后能够较好的提升模型鲁棒性。另外,在利用数据增强时,需结合数据集以及实际情况合理添加,以免模型过拟合。训练模型的目的是学习域不变特征,而不是简单的对一组特定的扰动鲁棒。

  • 5
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值