Fredformer: Frequency Debiased Transformer for Time Series Forecasting KDD 2024
Transformer 模型在时间序列预测方面表现出领先的表现。然而,在一些复杂的场景中,它往往会学习数据中的低频特征,而忽略高频特征,从而显示出频率偏差。这种偏差会阻止模型准确捕获重要的高频数据特征。在本文中,我们进行了实证分析来理解这种偏差,并发现频率偏差是由于模型不成比例地关注具有更高能量的频率特征而产生的。根据我们的分析,我们制定了这种偏差,并提出了Fredformer,这是一个基于Transformer的框架,旨在通过平均学习不同频段的特征来减轻频率偏差。这种方法可防止模型忽略对准确预测至关重要的较低振幅特征。大量的实验表明,我们提出的方法的有效性,在不同的真实世界时间序列数据集中,该方法可以优于其他基线。此外,我们还介绍了具有注意力矩阵近似的 Fredformer 的轻量级变体,它实现了相当的性能,但参数更少,计算成本更低
一背景
结合上面的图得到论文面临的主要问题:频域学习偏差
低频通常在频谱中携带很大一部分能量,并且在时间序列中占主导地位。这些低频分量的幅度远远超过高频分量的幅度[51],这为transformer提供了更多的观测值。这可能会增加时间序列预测中频率偏差的可能性,因为模型可能会不成比例地从这些占主导地位的低频成分中学习
这个图说明 transformer 会学习 振幅值高的频率分量
论文中的数学定义就跳过了,直接看模型
二模型
Fredformer由四个主要组件组成:(i) dft - idft骨干,(ii)频域优化,(iii)局部频率独立学习,(iv)全局语义频率汇总。
关注如何去除主要频率影响:
然后,我们通过(1)减轻高比例性的影响和(2)为Transformer提供细粒度的频率信息,来进行两个去偏置的可行性分析。
(1) Frequency normalization:
我们首先分解频域并归一化频率的幅度以消除它们的比例差异。具体来说,我们应用DFT,对振幅进行归一化,然后使用IDFT将频率表示转换回时域,然后再将其输入到变换中
(2) Frequency domain modeling
我们进一步直接在频域上部署 Transformer 来对 DFT 矩阵进行建模。随后,我们应用IDFT将预测结果返回到时域。这里的目的是为Transformer 提供更精细、更解缠的频率特性。值得注意的是,第二频率分量(60-75 Hz)中的偏置被有效消除。这些发现表明,在实现去偏置方面,具有直接频域建模和比例缓解的潜力。
具体模块:
1. Frequency Refinement and Normalization
我们建议频率细化和归一化。具体而言,沿C轴(即信道)对A施加非重叠的修补操作,从而产生如下的局部子频率序列
这个部分主要是对频率进行 patch, 然后进行标准化
2. Frequency Local Independent Modeling
这部分是特征提取了,主要是利用attention. 比较容易理解
3. Frequency-wise Summarization
这部分就是投影和反向DFT
实验
总结 :这篇论文是挺有意思的 发现了频率上的这个特点,但是整个论文没有数学上的详细论证和保证,结论的发现更多是从实验观察而来,采用的两个消去偏差的方法,在理论上没有看出合理性。
从具体的方法上说,利用Transformer模型,在加上基于patch的处理方法,得到的效果确实比sota效果好,但是在实验部分,没有看到模型训练的时间差异。