FEDformer:一种用于长期时间序列预测的频率增强分解Transformer

1 文章信息

文章题目为“FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting”,该文于2022年发表于ICML会议。文章提出了一种用于长期时间序列预测的频率增强分解Transforme

2 摘要

模虽然基于Transformer的方法显著提升了长时间序列预测的最新成果,但它们不仅计算开销高,更重要的是无法捕捉时间序列的全局视图(例如整体趋势)。为了解决这些问题,我们提出将Transformer与季节-趋势分解方法相结合,其中分解方法捕捉时间序列的全局概貌,而Transformer则捕捉更详细的结构。为了进一步提升Transformer在长期预测中的性能,我们利用了大多数时间序列在诸如傅里叶变换等知名基底中具有稀疏表示的事实,并开发了一种频率增强Transformer。所提出的方法称为频率增强分解Transformer(FEDformer),不仅更有效,而且相较于标准Transformer具有线性复杂度的序列长度效率。我们的实证研究基于六个基准数据集表明,FEDformer相比于最新方法,可以分别减少多变量和单变量时间序列的预测误差14.8%和22.6%。   

3 介绍

长期时间序列预测在多个应用领域(如能源、天气、交通、经济等)中是一个长期存在的挑战。尽管RNN类方法取得了令人印象深刻的成果,但它们常常遭遇梯度消失或爆炸问题,严重限制了其性能。受NLP和CV领域近期成功的启发,Transformer被引入以捕捉时间序列预测中的长期依赖关系,并显示出良好的结果。由于高计算复杂度和内存需求使得Transformer难以应用于长序列建模,许多研究致力于降低Transformer的计算成本。

尽管基于Transformer的方法在时间序列预测中取得了进展,但在某些情况下,它们往往无法捕捉时间序列的整体特征/分布。在图1中,本文将真实时间序列与Vanilla Transformer方法在真实世界ETTm1数据集上的预测结果进行了比较。显然,预测的时间序列与真实值的分布不同。这种差异可以通过Transformer中的点对点注意力和预测来解释。由于每个时间步的预测是独立进行的,模型可能无法保持时间序列的全局属性和统计特征。为了解决这一问题,本文在这项工作中采用了两个思路。第一个思路是将广泛应用于时间序列分析的季节趋势分解方法引入基于Transformer的方法。尽管这一思路之前已经被利用,本文提出了一种特殊的网络设计,根据Kolmogorov-Smirnov分布检验,这种设计在使预测分布接近真实分布方面非常有效。本文的第二个思路是将傅里叶分析与基于Transformer的方法结合。本文不是将Transformer应用于时间域,而是应用于频率域,这有助于Transformer更好地捕捉时间序列的全局特性。结合这两个思路,本文提出了一种用于长期时间序列预测的频率增强分解Transformer(FEDformer)。对于FEDformer,一个关键问题是傅里叶分析应使用哪些频率成分子集来表示时间序列。一个常见的做法是保留低频成分,丢弃高频成分。这可能不适用于时间序列预测,因为一些趋势变化与重要事件相关,如果简单地移除所有高频成分,可能会丢失这些信息。本文通过有效利用时间序列在傅里叶基底上的稀疏表示来解决这个问题。根据本文的理论分析,随机选择一部分频率成分,包括低频和高频成分,将为时间序列提供更好的表示,这也通过广泛的实验证明了其有效性。除了更适合长期预测外,将Transformer与频率分析结合还使本文能够将Transformer的计算成本从二次复杂度降低到线性复杂度。本文注意到,这不同于之前加速Transformer的努力,这通常会导致性能下降。本的关键贡献如下:

1.提出了一种频率增强分解Transformer架构,通过专家混合实现季节趋势分解,从而更好地捕捉时间序列的全局特性。

2.在Transformer结构中引入了傅里叶增强块和小波增强块,使本文能够通过频率域映射捕捉时间序列中的重要结构。它们可以替代自注意力和交叉注意力块。

3.通过随机选择固定数量的傅里叶成分,所提出的模型实现了线性计算复杂度和内存成本。该选择方法的有效性在理论和实证上均得到了验证。      

4 模型结构

长期时间序列预测是一个序列到序列的问题。我们用I表示输入长度,用o表示输出长度,用D表示序列的隐藏状态。编码器的输入维度I × D,解码器输入维度:(I/2 + O) × D。受前1节中讨论的季节趋势分解和分布分析的启发,我们将Transformer改造为下图所示的深度分解架构,包括频率增强块(FEB),频率增强注意(FEA)连接编码器和解码器,以及混合专家分解块(MOEDecomp)。

b9cfb8ede96459eec72cb83420831fd1.png

编码器采用多层结构:6d95361c65e305970041370947fee1a6.png836524099b1ccedb9c0dc409ca7a4e88.png,表示第l层编码器的输出。cc1c213e7c80fe5b326ee09a8d1804f3.png为历史时间序列。编码器表示为:

e203367e11a4736d9a52fdb069b642f0.png

27110d66060d0b1a087e2efff3236434.png分别表示第l层第i个分解块后的季节分量。对于FEB模块,它有两个不同的版本(FEB-f和FEB-w),分别通过离散傅立叶变换(DFT)和离散小波变换(DWT)机制实现,可以无缝地替换自关注块。

解码器也采用多层结构:ff2312f9ab325aedfc7978da59ec4e89.png,解码器表示为:

8b33c28925d97d9dd7c826f2f1a4dd15.png

bd6eb33c824a837e48298ca4d5432234.png分别表示第l层第i个分解块后的季节分量和趋势分量。5343cbafa75a0465e4aa7fa7da9f059f.png表示第i次提取趋势的投影28c84f1d457d6bd66671642f33b85fe6.png。与FEB类似,FEA有两个不同的版本(FEA-f和FEA-w),分别通过DFT和DWT投影实现,并采用注意设计,可以替代交叉注意块。

最后的预测是两个分解组件的和:4c6dfe9fd11a9eee24aa29a6b785f90f.png

离散小波变换(DWT):当傅里叶变换在频域中创建信号的表示时,小波变换在频域和时域中创建表示,允许有效地访问信号的局部信息。多小波变换综合了正交多项式和小波的优点。跨尺度的分解/重构定义为:

60963fe1606db052814b3fb747c3fb5e.png

本文采用非标准的小波表示来降低模型的复杂度。对于映射函数f28824f74eddc1e45f01c1ff5dd2ea0e.png:多小波域下的映射可以写成:

bcebb25e438bf642242f6413a34beae8.png

基于小波变换的频率增强块(FEB-w):整个FEB-w体系结构如图5所示。它与FEB-f的递归机制不同:输入被递归地分解为3部分,并单独操作。对于小波分解部分,我们实现了固定的勒让德小波基分解矩阵。使用三个FEB-f模块分别对小波分解得到的高频部分、低频部分和剩余部分进行处理。对于每个周期L,它产生一个处理过的高频张量Ud(L),一个处理过的低频张量UU(L)和一个原始的低频张量X(L+1)。这是一种阶梯向下的方法,分解阶段将信号按1/2的因子抽取,最多运行L个周期,其中对于大小为M的给定输入序列,L<log2(M)。在实践中,L被设置为一个固定参数参数。在不同的分解周期l中,这三组FEB-f块是共享的。对于小波重构部分,我们也递归地建立我们的输出张量。对于每个循环L,我们将分解部分产生的X(L+1)、Us(L)和U d(L)结合起来,产生下一个重构周期的X(L)。对于每一个周期,信号张量的长度维数增加2倍。

f86c88fa3c50256d4f569e92ae9a95e6.png

基于小波变换的频率增强注意力(FEA-w):FEA-w与FEB-w一样包含分解阶段和重构阶段。这里我们保持重建阶段不变。唯一的区别在于分解阶段。使用同一个分解矩阵分别分解q、k、v信号,并且q、k、v共享同一组模块来处理它们。如上所示,带有小波分解块的频率增强块(FEB-w)包含三个用于信号处理的FEB-f块。可以把FEB-f看作是一种自我注意机制的替代。使用一种简单的方法用小波分解来构建频率增强交叉注意,将每个FEB-f替换为FEA-f模块。此外,还增加了另一个FEA-f模块,对剩余最粗的q(L)、k(L)、v(L)信号进行处理。

季节性趋势分解的混合专家:由于在实际数据中常见的复杂周期模式与趋势分量相结合,使用固定窗口平均池化很难提取趋势。为了克服这一问题,本文设计了一个混合专家分解块(MOEDecomp)。它包含一组不同大小的平均滤波器,用于从输入信号中提取多个趋势分量,并包含一组与数据相关的权重,用于将它们组合为最终趋势。形式上,有:

e3818be10cd86c147a12c7a6b6662c50.png

5 实验

9cbda45ee892e0087b32ceb26b6f68a7.png

为了评估所提出的FEDformer,本文在六个流行的现实世界数据集上进行了广泛的实验,这些数据集包括能源、经济、交通、天气和疾病。由于经典模型如ARIMA和基础RNN/CNN模型的表现相对较差,本文主要包括四种最新的基于Transformer的模型进行比较,即Autoformer、Informer、LogTrans和Reformer作为基线模型。需要注意的是,由于Autoformer在所有六个基准上表现最佳,因此它被用作主要的基线模型进行比较。为了更好地进行比较,本文遵循Autoformer的实验设置,其中输入长度固定为96,训练和评估的预测长度分别固定为96、192、336和720。

多变量预测结果:对于多变量预测,FEDformer在所有水平上的所有六个基准数据集上都达到了最佳性能,如表2所示。与Autoformer相比,所提出的FEDformer总体上相对MSE降低了14.8%。值得注意的是,对于某些数据集,如Exchange和ILI,改进更为显著(超过20%)。请注意,Exchange数据集在其时间序列中没有显示出明显的周期性,但是FEDformer仍然可以实现优越的性能。总的来说,FEDformer的改进与不同的预测范围是一致的,这意味着它在长期预测方面的优势。

单变量预测结果:单变量时间序列预测结果如表3所示。与Autoformer相比,FEDformer的总体相对MSE降低了22.6%,在某些数据集(如交通和天气)上,改进幅度可以超过30%。再次验证了FEDformer在长期预测中更为有效。注意,由于傅里叶基和小波基之间的差异,FEDformer-f和FEDformer-w在不同的数据集上表现良好,使它们成为长期预测的互补选择。

e30b23341b53e9b2aac9a76cf9160b3d.png

4b7e3d6519d754da453bc4dc3c6800a6.png

6 总结

本文提出了一种频率增强Transformer模型用于长期序列预测,该模型在计算复杂度和内存成本方面具有线性表现,并且实现了最新的性能。本文提出了一种基于频率的低秩近似注意机制和一种专家混合分解方法来控制分布漂移。所提出的频率增强结构将输入序列长度和注意力矩阵维度解耦,从而实现线性复杂度。此外,从理论和实证上证明了采用的随机模式选择策略在频域中的有效性。最后,大量实验表明,与四种最新算法相比,所提出的模型在六个基准数据集上实现了最佳的预测性能。

Attention

欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步! 

  • 5
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
在多对一的时间序列预测中,Transformer可以通过将时间序列数据作为输入序列,并将目标变量作为输出序列,来进行预测。在这种情况下,Transformer的序列建模能力可以帮助捕捉时间序列中的长期依赖和复杂关系。引用\[1\]中提到,时间序列具有自相关性或周期性,这些特点对于Transformer的应用提出了新的挑战。为了解决这些问题,一些研究者提出了改进的Transformer模型。 例如,FEDformer一种Transformer和季节趋势分解方法相结合的模型。它通过引入季节趋势分解和傅里叶变换的方法,帮助Transformer更好地学习时间序列的全局信息,从而提高预测的准确性。引用\[2\]中提到,传统的Transformer预测每个时间点时独立地利用attention,可能会忽略时间序列整体的属性。而FEDformer通过引入季节趋势分解和傅里叶变换,可以更好地捕捉时间序列的周期性和全局信息。 另外,还有一些其他的改进方法,如引入卷积神经网络和注意力机制的结合,以及引入局部性和打破内存瓶颈等。引用\[3\]中的论文提出了一种增强Transformer时间序列预测中局部性和打破内存瓶颈的方法。这些改进方法都旨在提高Transformer在多对一的时间序列预测任务中的性能和效果。 总之,Transformer在多对一的时间序列预测中可以通过序列建模来捕捉时间序列的长期依赖和复杂关系。通过引入不同的改进方法,可以进一步提高Transformer时间序列预测中的准确性和效果。 #### 引用[.reference_title] - *1* *2* *3* [【时序预测Transformer模型在时间序列预测领域的应用](https://blog.csdn.net/FrankieHello/article/details/126552674)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值