First De-Trend then Attend: Rethinking Attention for Time-Series Forecasting
近年来,基于transformer的模型在长期时间序列预测中获得了很大的普及,并取得了很好的结果。除了在时域上学习注意力,最近的工作还探索了在频域(如傅立叶域、小波域)上学习注意力,因为在这些域上可以更好地捕获季节模式。本文试图理解不同时域和频域注意力模型之间的关系。在理论上,不同领域的注意力模型在线性条件下是等效的(即注意力分数的线性核)。实证分析了不同领域的注意力模型如何通过各种具有季节性、趋势性和噪声的合成实验显示出不同的行为,重点分析了softmax操作在其中的作用。这些理论和经验分析激励我们提出了一种新方法:TDformer(趋势分解Transformer),首先应用季节趋势分解,然后将预测趋势分量的MLP与预测季节分量的傅里叶注意力相加组合,以获得最终预测。在基准时间序列预测数据集上的广泛实验表明,TDformer与现有的基于注意力的模型相比取得了最先进的性能。
Our Method: TDformer
TDformer。首先采用季节趋势分解将上下文时间序列分解为趋势部分和季节部分;采用多层感知器(MLP)预测趋势部分,傅里叶注意力(FA)模型预测季节部分,将两者相加得到最终预测。
1)For the trend component
总结:
本文的驱动力是更好地理解注意力模型在时间、傅里叶和小波域的关系和单独的好处。理论上,在线性假设下,这三个注意力模型是等效的。然而,根据经验,由于softmax的作用,这些模型在应用于具有特定属性的数据集时具有各自的优势。此外,所有注意力模型在趋势数据上的泛化能力较差。基于这些性能差异分析,本文提出了TDformer,该模型在季节趋势分解后,分别使用MLP和傅里叶注意力模型对趋势和季节性进行建模。TDformer在时间序列预测基准上与当前的注意力模型相比取得了最先进的性能。未来,我们计划探索更复杂的模型来预测趋势(如自回归模型),并探索其他季节性趋势分解方法。
本文在模型设计上基于FEDformer模型,比较简单的设计框架。不同之处是将时域分解和频域分解结合起来,利用多种attention,实现融合,以达到预测时间序列的目的。