Fredformer: Frequency Debiased Transformer for Time SeriesForecasting

西西弗的小蚂蚁

已于 2024-07-25 10:36:33 修改

阅读量608

点赞数 24

分类专栏：时间序列预测时间序列数据表征学习文章标签： transformer 深度学习人工智能

于 2024-07-13 14:08:12 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/140398488

版权

时间序列预测同时被 2 个专栏收录

48 篇文章 19 订阅

订阅专栏

时间序列数据表征学习

20 篇文章 5 订阅

订阅专栏

Fredformer: Frequency Debiased Transformer for Time Series Forecasting KDD 2024

Transformer 模型在时间序列预测方面表现出领先的表现。然而，在一些复杂的场景中，它往往会学习数据中的低频特征，而忽略高频特征，从而显示出频率偏差。这种偏差会阻止模型准确捕获重要的高频数据特征。在本文中，我们进行了实证分析来理解这种偏差，并发现频率偏差是由于模型不成比例地关注具有更高能量的频率特征而产生的。根据我们的分析，我们制定了这种偏差，并提出了Fredformer，这是一个基于Transformer的框架，旨在通过平均学习不同频段的特征来减轻频率偏差。这种方法可防止模型忽略对准确预测至关重要的较低振幅特征。大量的实验表明，我们提出的方法的有效性，在不同的真实世界时间序列数据集中，该方法可以优于其他基线。此外，我们还介绍了具有注意力矩阵近似的 Fredformer 的轻量级变体，它实现了相当的性能，但参数更少，计算成本更低

一背景

结合上面的图得到论文面临的主要问题：频域学习偏差

低频通常在频谱中携带很大一部分能量，并且在时间序列中占主导地位。这些低频分量的幅度远远超过高频分量的幅度[51]，这为transformer提供了更多的观测值。这可能会增加时间序列预测中频率偏差的可能性，因为模型可能会不成比例地从这些占主导地位的低频成分中学习

这个图说明 transformer 会学习振幅值高的频率分量

论文中的数学定义就跳过了，直接看模型

二模型

Fredformer由四个主要组件组成:(i) dft - idft骨干，(ii)频域优化，(iii)局部频率独立学习，(iv)全局语义频率汇总。

关注如何去除主要频率影响：

然后，我们通过（1）减轻高比例性的影响和（2）为Transformer提供细粒度的频率信息，来进行两个去偏置的可行性分析。

(1) Frequency normalization:

我们首先分解频域并归一化频率的幅度以消除它们的比例差异。具体来说，我们应用DFT，对振幅进行归一化，然后使用IDFT将频率表示转换回时域，然后再将其输入到变换中

(2) Frequency domain modeling

我们进一步直接在频域上部署 Transformer 来对 DFT 矩阵进行建模。随后，我们应用IDFT将预测结果返回到时域。这里的目的是为Transformer 提供更精细、更解缠的频率特性。值得注意的是，第二频率分量（60-75 Hz）中的偏置被有效消除。这些发现表明，在实现去偏置方面，具有直接频域建模和比例缓解的潜力。

具体模块：

1. Frequency Refinement and Normalization

我们建议频率细化和归一化。具体而言，沿C轴（即信道）对A施加非重叠的修补操作，从而产生如下的局部子频率序列

这个部分主要是对频率进行 patch, 然后进行标准化

2. Frequency Local Independent Modeling

这部分是特征提取了，主要是利用attention. 比较容易理解

3. Frequency-wise Summarization

这部分就是投影和反向DFT

实验

总结：这篇论文是挺有意思的发现了频率上的这个特点，但是整个论文没有数学上的详细论证和保证，结论的发现更多是从实验观察而来，采用的两个消去偏差的方法，在理论上没有看出合理性。

从具体的方法上说，利用Transformer模型，在加上基于patch的处理方法，得到的效果确实比sota效果好，但是在实验部分，没有看到模型训练的时间差异。

西西弗的小蚂蚁

关注

24
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Fredformer: Frequency Debiased Transformer for Time SeriesForecasting

大量的实验表明，我们提出的方法的有效性，在不同的真实世界时间序列数据集中，该方法可以优于其他基线。总结：这篇论文是挺有意思的发现了频率上的这个特点，但是整个论文没有数学上的详细论证和保证，结论的发现更多是从实验观察而来，采用的两个消去偏差的方法，在理论上没有看出合理性。从具体的方法上说，利用Transformer模型，在加上基于patch的处理方法，得到的效果确实比sota效果好，但是在实验部分，没有看到模型训练的时间差异。然而，在一些复杂的场景中，它往往会学习数据中的低频特征，
复制链接

扫一扫

专栏目录