FEDformer:一种用于长期时间序列预测的频率增强分解Transformer-CSDN博客

本文链接：https://blog.csdn.net/zuiyishihefang/article/details/139457255

1 文章信息

文章题目为“FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting”，该文于2022年发表于ICML会议。文章提出了一种用于长期时间序列预测的频率增强分解Transforme

2 摘要

模虽然基于Transformer的方法显著提升了长时间序列预测的最新成果，但它们不仅计算开销高，更重要的是无法捕捉时间序列的全局视图（例如整体趋势）。为了解决这些问题，我们提出将Transformer与季节-趋势分解方法相结合，其中分解方法捕捉时间序列的全局概貌，而Transformer则捕捉更详细的结构。为了进一步提升Transformer在长期预测中的性能，我们利用了大多数时间序列在诸如傅里叶变换等知名基底中具有稀疏表示的事实，并开发了一种频率增强Transformer。所提出的方法称为频率增强分解Transformer（FEDformer），不仅更有效，而且相较于标准Transformer具有线性复杂度的序列长度效率。我们的实证研究基于六个基准数据集表明，FEDformer相比于最新方法，可以分别减少多变量和单变量时间序列的预测误差14.8%和22.6%。

3 介绍

长期时间序列预测在多个应用领域（如能源、天气、交通、经济等）中是一个长期存在的挑战。尽管RNN类方法取得了令人印象深刻的成果，但它们常常遭遇梯度消失或爆炸问题，严重限制了其性能。受NLP和CV领域近期成功的启发，Transformer被引入以捕捉时间序列预测中的长期依赖关系，并显示出良好的结果。由于高计算复杂度和内存需求使得Transformer难以应用于长序列建模，许多研究致力于降低Transformer的计算成本。

尽管基于Transformer的方法在时间序列预测中取得了进展，但在某些情况下，它们往往无法捕捉时间序列的整体特征/分布。在图1中，本文将真实时间序列与Vanilla Transformer方法在真实世界ETTm1数据集上的预测结果进行了比较。显然，预测的时间序列与真实值的分布不同。这种差异可以通过Transformer中的点对点注意力和预测来解释。由于每个时间步的预测是独立进行的，模型可能无法保持时间序列的全局属性和统计特征。为了解决这一问题，本文在这项工作中采用了两个思路。第一个思路是将广泛应用于时间序列分析的季节趋势分解方法引入基于Transformer的方法。尽管这一思路之前已经被利用，本文提出了一种特殊的网络设计，根据Kolmogorov-Smirnov分布检验，这种设计在使预测分布接近真实分布方面非常有效。本文的第二个思路是将傅里叶分析与基于Transformer的方法结合。本文不是将Transformer应用于时间域，而是应用于频率域，这有助于Transformer更好地捕捉时间序列的全局特性。结合这两个思路，本文提出了一种用于长期时间序列预测的频率增强分解Transformer（FEDformer）。对于FEDformer，一个关键问题是傅里叶分析应使用哪些频率成分子集来表示时间序列。一个常见的做法是保留低频成分，丢弃高频成分。这可能不适用于时间序列预测，因为一些趋势变化与重要事件相关，如果简单地移除所有高频成分，可能会丢失这些信息。本文通过有效利用时间序列在傅里叶基底上的稀疏表示来解决这个问题。根据本文的理论分析，随机选择一部分频率成分，包括低频和高频成分，将为时间序列提供更好的表示，这也通过广泛的实验证明了其有效性。除了更适合长期预测外，将Transformer与频率分析结合还使本文能够将Transformer的计算成本从二次复杂度降低到线性复杂度。本文注意到，这不同于之前加速Transformer的努力，这通常会导致性能下降。本的关键贡献如下：

1.提出了一种频率增强分解Transformer架构，通过专家混合实现季节趋势分解，从而更好地捕捉时间序列的全局特性。

2.在Transformer结构中引入了傅里叶增强块和小波增强块，使本文能够通过频率域映射捕捉时间序列中的重要结构。它们可以替代自注意力和交叉注意力块。

3.通过随机选择固定数量的傅里叶成分，所提出的模型实现了线性计算复杂度和内存成本。该选择方法的有效性在理论和实证上均得到了验证。

4 模型结构

长期时间序列预测是一个序列到序列的问题。我们用I表示输入长度，用o表示输出长度，用D表示序列的隐藏状态。编码器的输入维度I × D，解码器输入维度：(I/2 + O) × D。受前1节中讨论的季节趋势分解和分布分析的启发，我们将Transformer改造为下图所示的深度分解架构，包括频率增强块(FEB)，频率增强注意(FEA)连接编码器和解码器，以及混合专家分解块(MOEDecomp)。

编码器采用多层结构：，表示第l层编码器的输出。为历史时间序列。编码器表示为：

分别表示第l层第i个分解块后的季节分量。对于FEB模块，它有两个不同的版本(FEB-f和FEB-w)，分别通过离散傅立叶变换(DFT)和离散小波变换(DWT)机制实现，可以无缝地替换自关注块。

解码器也采用多层结构：，解码器表示为：

分别表示第l层第i个分解块后的季节分量和趋势分量。表示第i次提取趋势的投影。与FEB类似，FEA有两个不同的版本(FEA-f和FEA-w)，分别通过DFT和DWT投影实现，并采用注意设计，可以替代交叉注意块。

最后的预测是两个分解组件的和：。

离散小波变换（DWT）:当傅里叶变换在频域中创建信号的表示时，小波变换在频域和时域中创建表示，允许有效地访问信号的局部信息。多小波变换综合了正交多项式和小波的优点。跨尺度的分解/重构定义为:

本文采用非标准的小波表示来降低模型的复杂度。对于映射函数：多小波域下的映射可以写成：

基于小波变换的频率增强块（FEB-w）：整个FEB-w体系结构如图5所示。它与FEB-f的递归机制不同:输入被递归地分解为3部分，并单独操作。对于小波分解部分，我们实现了固定的勒让德小波基分解矩阵。使用三个FEB-f模块分别对小波分解得到的高频部分、低频部分和剩余部分进行处理。对于每个周期L，它产生一个处理过的高频张量Ud(L)，一个处理过的低频张量UU(L)和一个原始的低频张量X(L+1)。这是一种阶梯向下的方法，分解阶段将信号按1/2的因子抽取，最多运行L个周期，其中对于大小为M的给定输入序列，L<log2(M)。在实践中，L被设置为一个固定参数参数。在不同的分解周期l中，这三组FEB-f块是共享的。对于小波重构部分，我们也递归地建立我们的输出张量。对于每个循环L，我们将分解部分产生的X(L+1)、Us(L)和U d(L)结合起来，产生下一个重构周期的X(L)。对于每一个周期，信号张量的长度维数增加2倍。

基于小波变换的频率增强注意力(FEA-w)：FEA-w与FEB-w一样包含分解阶段和重构阶段。这里我们保持重建阶段不变。唯一的区别在于分解阶段。使用同一个分解矩阵分别分解q、k、v信号，并且q、k、v共享同一组模块来处理它们。如上所示，带有小波分解块的频率增强块(FEB-w)包含三个用于信号处理的FEB-f块。可以把FEB-f看作是一种自我注意机制的替代。使用一种简单的方法用小波分解来构建频率增强交叉注意，将每个FEB-f替换为FEA-f模块。此外，还增加了另一个FEA-f模块，对剩余最粗的q(L)、k(L)、v(L)信号进行处理。

季节性趋势分解的混合专家：由于在实际数据中常见的复杂周期模式与趋势分量相结合，使用固定窗口平均池化很难提取趋势。为了克服这一问题，本文设计了一个混合专家分解块(MOEDecomp)。它包含一组不同大小的平均滤波器，用于从输入信号中提取多个趋势分量，并包含一组与数据相关的权重，用于将它们组合为最终趋势。形式上，有：

5 实验

为了评估所提出的FEDformer，本文在六个流行的现实世界数据集上进行了广泛的实验，这些数据集包括能源、经济、交通、天气和疾病。由于经典模型如ARIMA和基础RNN/CNN模型的表现相对较差，本文主要包括四种最新的基于Transformer的模型进行比较，即Autoformer、Informer、LogTrans和Reformer作为基线模型。需要注意的是，由于Autoformer在所有六个基准上表现最佳，因此它被用作主要的基线模型进行比较。为了更好地进行比较，本文遵循Autoformer的实验设置，其中输入长度固定为96，训练和评估的预测长度分别固定为96、192、336和720。

多变量预测结果：对于多变量预测，FEDformer在所有水平上的所有六个基准数据集上都达到了最佳性能，如表2所示。与Autoformer相比，所提出的FEDformer总体上相对MSE降低了14.8%。值得注意的是，对于某些数据集，如Exchange和ILI，改进更为显著(超过20%)。请注意，Exchange数据集在其时间序列中没有显示出明显的周期性，但是FEDformer仍然可以实现优越的性能。总的来说，FEDformer的改进与不同的预测范围是一致的，这意味着它在长期预测方面的优势。

单变量预测结果：单变量时间序列预测结果如表3所示。与Autoformer相比，FEDformer的总体相对MSE降低了22.6%，在某些数据集(如交通和天气)上，改进幅度可以超过30%。再次验证了FEDformer在长期预测中更为有效。注意，由于傅里叶基和小波基之间的差异，FEDformer-f和FEDformer-w在不同的数据集上表现良好，使它们成为长期预测的互补选择。

6 总结

本文提出了一种频率增强Transformer模型用于长期序列预测，该模型在计算复杂度和内存成本方面具有线性表现，并且实现了最新的性能。本文提出了一种基于频率的低秩近似注意机制和一种专家混合分解方法来控制分布漂移。所提出的频率增强结构将输入序列长度和注意力矩阵维度解耦，从而实现线性复杂度。此外，从理论和实证上证明了采用的随机模式选择策略在频域中的有效性。最后，大量实验表明，与四种最新算法相比，所提出的模型在六个基准数据集上实现了最佳的预测性能。

Attention

欢迎关注微信公众号《当交通遇上机器学习》！如果你和我一样是轨道交通、道路交通、城市规划相关领域的，也可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！