提出一种轻量级 的MLP-like架构。该架构基于全局滤波器网络,并引入一个核心模块,称为动态低频变换(ALOFT),用于模拟训练过程中可能出现的域漂移。ALOFT主要是对不同样本中的低频成分进行分布建模,从中生成包含多样化局部纹理特征的新低频谱。文章提出两个ALOFT变体,一种是按元素建模的ALOFT-E,另一种是按统计建模的ALOFT-S
高频成分保留更多全局特征(例如形状),这些特征在不同域之间是不变的,低频成分包含了更多的局部特征(例如纹理),这些特征是特定于域的。因此,使用离散傅里叶变换(DFT)对测试样本的某些频率成分评估了MLP和CNN方法的性能。
提取高频和低频成分
首先通过对输入特征进行傅里叶变换得到频率域表示。然后使用一个二值掩码来区分高频和低频成分,其中低频成分被移到频谱的中心。通过逐元素乘法,将频率域表示域掩码相乘,得到低频滤波后的频率和高通滤波后的频率。最后,通过逆傅里叶变换将频率域转换回空域,得到低通滤波后的图像和高通滤波后的图像。
以图像为例,低频成分可以表示图像的整体轮廓、大致结构或者平滑的区域,而高频成分则代表了图像的细节、边缘、纹理等局部变化。
在频域分析中,低频和高频的划分是基于频率的,低频对应着较小的频率范围,而高频对应着较大的频率范围。
在PACS数据集上,我们比较了使用ResNet-18的CNN方法和MLP方法的性能。结果如图2所示。DeepAll、FACT和MVDG在原始PACS测试集上的准确率分别为79.68%、84.51%和86.56%。而RepMLP、GFNet和ViP的准确率分别为84.12%、87.76%和88.27%。从图2中可以观察到,在高频成分上,MLP方法的表现明显优于CNN方法,而在低频成分上,两者的性能相对接近。由于高频成分主要保留了在不同域之间一致的全局结构特征,MLP方法可以比CNN方法更具鲁棒性,实现更好的泛化能力。同时,MLP方法通过注意力机制可以学习不同补丁之间的长程空间依赖关系,这可以减少纹理偏差并促进模型的形状偏差,这也是有意义的
ALOFT
促进模型学习全局结构信息。由于高频成分保留了更多全局结构特征,该方法通过扰动低频成分来帮助模型强调高频成分。该方法将来自不同样本的低频频谱分布建模为高斯分布,从中重新