基本信息
题目:Training behavior of deep neural network in frequency domain
作者:Zhi-Qin John Xu, Yaoyu Zhang, and Yanyang Xiao
期刊:ICONIP
发表日期:Originally submitted to arxiv.org on 3 Jul 2018. To appear in 2019 26th-International conference of neural information processing (ICONIP)
论文链接:论文链接
内容
摘要
重点研究DNNs训练过程中隐含的bias,在这项工作中,经验性地认为DNN先快速捕获占主导的低频components,然后相对更慢的捕获高频部分。将这种现象称为Frequency Principle (F-Principle)。通过不同的DNN结构、激活函数、优化算法做了相关实验。这个F-Principle提供了深入了解DNN优化和泛化的一般原理。
核心:DNNs with common settings first quickly capture the dominant low-frequency compo- nents while keeping the amplitudes of high-frequency components small, and then relatively slowly captures those high-frequency components
Introduction
对于DNN,网络结点值和参数是可见的,可以在训练过程记录DNN参数变化轨迹。但是,对于DNN的高度非凸优化问题一般principle还是不清楚的。因此,DNN经常被称为黑盒优化。在实验中,即使对于一维函数拟合,也难以解释其中principle。例如,DNN拟合一维三阶多项式,即使训练过拟合,也能在训练后泛化性能好,这样的现象也存在于更复杂的数据集中,对于一个广义的DNN,其零训练误差的解存在于一个非常大的空间中,而泛化性能好的DNN只占据一个小的子集。因此,DNN优化往往忽略了大量的过拟合解,这是很神秘的。为了研究这种机制,这片paper从频率域来分析DNN优化过程中的behavior。
实验
Methodology
Result on MNIST and CIFAR10
Synthetic data
Understanding the training behavior of DNNs by the F-Principle
对于以低频为主的一类函数,在训练数据点有限的情况下,该训练集存在一个有效的频率范围,其定义为Nyquist-Shannon采样定理1所限定的频率域内的范围。当一个DNN的参数个数大于训练集的大小时,DNN可以对这些采样数据点(即在有效频率范围之外的不同功率。By the F-Principle, the training process will implicitly bias the DNN towards a solution with a low power at the high-frequencies outside the effective frequency range. For functions dominated by low frequencies, this bias coincides with their intrinsic feature of low power at high frequencies, thus naturally leading to a well- generalized solution after training. By the above analysis, we can predict that, in the case of insufficient training data, when the higher-frequency components are not negligible, e.g., there exists a significant frequency peak above the effective frequency range, the DNN cannot generalize well after training.
Conclusion
频率原则可以粗糙地表述成:DNN 在拟合目标函数的过程中,有从低频到高频的先后顺序。
DNN 从目标函数的低频成分开始学习。当它学到训练数据的最高频率的时候,此时频率空间误差趋近于零。因为频率空间的误差等于实域空间的误差,所以它的学习也基本停止了。这样深度学习学到的函数的最高频率能够被训练数据给限制住。对于小的初始化,激活函数的光滑性很高,高频成分衰减很快,从而使学习到的函数有更好的泛化能力。
对于低频占优的目标函数,小幅度的高频成分很容易受到噪音的影响。基于频率原则,提前停止训练(early-stopping)就能在实践中提高 DNN 的泛化能力。
从低频到高频的学习原则并不总是对的。因为这个优先级不只是由频率决定,它也依赖于拟合函数与目标函数的差的幅度。
所讨论的频率是反映频率(response frequency),即输入输出映射的频率,而不是相邻像素的变化强度的变化率。因此,高频是指图像中的像素强度的微小变化可能会引起输出的较大变化。实验发现,如果特意设计噪音,DNN就不再进行有效识别,由于映射发生了变化,从而产生了不一样的频率。这也就是说,在DNN中,图像的改变对识别结果的影响本质上是频率的影响作用。结合傅里叶分析、离散化、低通滤波器、卷积定理等数学方法可以有效说明输入输出同时高维的实际问题中的频率原则。实验与理论并行一致验证DNN低频先收敛的性质。
Shannon, C.E.: Communication in the presence of noise. Proceedings of the IRE 37(1), 10–21 (1949) ↩︎