Fredformer: Frequency Debiased Transformer for Time Series Forecasting

最新推荐文章于 2024-09-13 22:01:30 发布

萧宛亦

最新推荐文章于 2024-09-13 22:01:30 发布

阅读量286

点赞数

文章标签： transformer 深度学习人工智能

原文链接：https://arxiv.org/abs/2406.09009

版权

系列文章目录

KDD 2024 Fredformer：用于时间序列预测的频率去偏变压器

摘要

Transformer 模型在时间序列预测方面表现出了领先的性能。然而，在一些复杂的场景中，它往往会学习数据中的低频特征而忽略高频特征，表现出频率偏差。这种偏差导致模型无法准确捕获重要的高频数据特征。在本文中，我们进行了实证分析来理解这种偏差，并发现频率偏差是由于模型不成比例地关注具有较高能量的频率特征造成的。根据我们的分析，我们制定了这种偏差并提出了 Fredformer，这是一个基于 Transformer 的框架，旨在通过跨不同频段平等地学习特征来减轻频率偏差。这种方法可以防止模型忽略对于准确预测很重要的较低幅度特征。大量的实验证明了我们提出的方法的有效性，该方法可以在不同的现实世界时间序列数据集中优于其他基线。此外，我们引入了带有注意矩阵近似的 Fredformer 的轻量级变体，它实现了可比的性能，但参数更少，计算成本更低。代码位于：https://github.com/chenzRG/Fredformer

一、引言

时间序列数据在日常生活中无处不在。预测时间序列可以为决策支持提供见解，例如潜在的交通拥堵[10]或股市趋势的变化[34]。准确的预测通常涉及辨别历史观测中各种信息丰富的时间变化，例如趋势、季节性和波动，这些变化在未来的时间序列中是一致的[42]。受益于深度学习的进步，社区取得了巨大进步，特别是基于 Transformer 的方法 [39,41,49]。成功的方法通常使用多分辨率标记时间序列，例如时间点[43]或子序列[48]，并利用自注意力机制对其依赖关系进行建模。已经提出了几种最先进的（SOTA）基线，即 PatchTST [29]、Crossformer [48] 和 iTransformer [24]，并展示了令人印象深刻的性能。

尽管它们取得了成功，但我们捕获信息时间变化的有效性仍然令人担忧。从数据角度来看，一系列时间观测通常被认为是一组随时间变化的复杂信号或波 [13, 17]。各种时间变化，表现为不同频率的波，例如低频长期周期性或高频波动，在现实世界中经常同时出现和混合[19,21,42]。虽然对时间序列进行标记可以为模型提供细粒度的信息，但生成的标记或子序列中的时间变化也是纠缠在一起的。这个问题可能会使特征提取和预测性能变得复杂。现有的工作提出了频率分解来表示时间序列，并在新的表示上部署 Transformer 以显式学习事件频率特征 [42, 43]。学习通常会结合频域中的特征选择策略，例如 top-K 或 random-K [41, 50]，以帮助 Transformers 更好地识别更相关的频率。然而，这种启发式选择可能会在模型中引入次优频率相关性（如图 1(a) 所示），从而无意中误导学习过程。

从模型的角度来看，研究人员最近注意到 Transformer 中常见的学习偏差问题。也就是说，自注意力机制通常会优先考虑低频特征，而牺牲高频特征[14,30,35,36]。这个微妙的问题也可能出现在时间序列预测中，可能使模型结果产生偏差并导致信息丢失。图 1(b) 显示了一个电力案例，其中预测结果成功捕获了低频特征，忽略了一些一致的中高频。在实践中，如此高的频率代表短期变化，例如短期内的周期性，这可以作为良好的预测指标[10,16,34]。然而，低频通常携带频谱中的大部分能量，并且在时间序列中占主导地位。这些低频分量的幅度远远超过高频分量的幅度[51]，这为 Transformer 提供了更多的观测结果。这可能会增加时间序列预测中出现频率偏差的可能性，因为模型可能会不成比例地从这些主要低频分量中学习。

这项工作探索了通过频域建模捕获信息丰富的复杂变化以进行准确的时间序列预测的一个方向。我们介绍 Fredformer，一种频率去偏变压器模型。 Fredformer 遵循频率分解的路线，但进一步研究了如何促进使用 Transformer 来学习频率特征。为了提高我们方法的有效性，我们对时间序列预测中的频率偏差进行了全面分析，并提供了消除偏差的策略。我们的主要贡献在于三个方面。

问题定义。我们进行实证研究来调查如何将这种偏差引入时间序列预测 Transformer 中。我们观察到主要原因是关键频率分量之间的比例差异。值得注意的是，这些关键组成部分应该与预测的历史事实和基本事实保持一致。我们还研究了影响去偏的目标和关键设计。
算法设计。我们的 Fredformer 具有三个关键组件：频段修补、子频率独立归一化以减轻比例差异，以及每个子频段内的通道注意力，用于所有频率的公平学习和注意力去偏差。
适用性。 Fredformer 采用 Nyström 近似来降低注意力图的计算复杂度，从而实现具有竞争性能的轻量级模型。这为高效时间序列预测带来了新的机会。

评论。这是第一篇研究时间序列预测中频率偏差问题的论文。 8 个数据集上的大量实验结果显示了 Fredformer 的有效性，它在 80 个案例中实现了 60 个 top-1 和 20 个 top-2 案例的卓越性能。

二、 PRELIMINARY ANALYSIS

我们提出两个案例来展示（i）时间序列数据的频率属性如何将偏差引入 Transformer 模型的预测中，以及（ii）对潜在去偏差策略的实证分析。本节介绍了第 2 节中案例研究的符号和度量。 2.1. 案例分析详见第 2 节。 2.2.

2.1 Preliminary

时间序列预测。令 $\mathbf{X} = \{\mathbf{x}_{1}^{(c)},\ldots,\mathbf{x}_{L}^{(c)}\}_{c=1}^{C}$ 表示由 𝐶 个通道组成的多元时间序列，其中每个通道记录一个独立的 𝐿 长度回溯窗口。为了简单起见，我们在后续讨论中省略了通道索引𝑐。预测任务是预测未来数据 $\hat{\mathbf{X}}$ 中的 𝐻 时间步长：

在这里插入图片描述
其中𝑓(·)表示预测函数，这是本工作中基于 Transformer 的模型。我们的目标是减轻 Transformer 中的学习偏差并增强预测结果 X′，即最小化 X′ 和 $\hat{\mathbf{X}}$ 之间的误差。

离散傅立叶变换 (DFT)。我们使用 DFT 来分析 X、 $\hat{\mathbf{X}}$ 和 X′ 的频率内容。例如，给定输入序列 ${x_1,...,x_L\}$ ，DFT 可以表示为
在这里插入图片描述
其中 $f_{k}=e^{-i2\pi k/L}$ 表示第 𝑘 频率分量。 DFT 系数 $\mathbf{A}=\{\boldsymbol{a}_1,\boldsymbol{a}_2,\ldots,\boldsymbol{a}_L\}$ 表示这些频率的幅度信息。如图 2（b，左）所示，在历史观测值 (X) 和预测数据 ( $\hat{\mathbf{X}}$ ) 中观察到四个分量具有较高的振幅。我们将这种一致的组件称为“关键组件”（在第 3.1 节中定义）。这里，逆 DFT（即 IDFT）为 $x_{l}=\sum_{k=1}^{L}a_{k}\cdot f_{k}^{-1}$ ，它根据 DFT 系数重建时间序列数据。

在这里插入图片描述

图 2：图 (a) 显示了两个合成数据集的学习动态和结果，使用折线图来说明频域中的幅度，并使用热图来表示训练历元误差。图 (b) 通过比较时域和频域中的 Transformer（有和没有频率局部归一化），探讨了幅度和域对学习的影响。

频率偏差度量。受 [5, 46] 工作的启发，本研究采用相对误差 Δ𝑘 的傅立叶分析度量来确定频率偏差。给定模型输出 A′ 和真实值 $\hat{\mathbf{A}}$ ，第 𝑘 个分量的均方误差 (MSE) 计算如下： $\mathrm{MSE}_{k}=|a^{\prime}{}_{k}-\hat{a}_{k}|$ ，其中 | · | 表示复数的 L2 范数。然后，应用相对误差来减轻比例差异。换句话说，随着幅度比例的增大，误差可能会变大。
在这里插入图片描述
该指标用于案例研究分析和第 5.2 节中详述的实验。

2.2 Case Studies

这三个分量的比例，如图 2 中的 DFT 可视化所示。在图的左侧，它们的幅度排列为 $a_{k1}<a_{k2}<a_{k3}$ ，而在右侧，排列为 𝒂𝑘1 > 𝒂𝑘2 > 𝒂𝑘3。我们保持这些比例，以便它们在观察到的 A 和真实值 $\hat{\mathrm{A}}$ 之间保持一致（即 $\hat{\mathrm{A}}\mathrm{~(i.e.,~A\approx\hat{\mathrm{A}})}$ ）。然后，我们评估 Transformer 输出 A′ 中不同 𝑘 的偏差。同时，我们跟踪 Δ𝑘 在模型训练过程中的变化以显示学习偏差，使用热图值来表示 Δ𝑘 的数值。

在这里，我们为第二个案例研究（案例 2）生成一个包含四个关键频率分量的数据集。本研究分析了不同的建模策略，以研究它们去偏的灵活性。

2.2.1 研究变压器的频率偏差（案例1）。如图2(a)（左）所示，经过50个epoch的训练，模型成功捕获了低频分量𝑘1的幅度，但未能捕获𝑘2和𝑘3。同时，热图值表明该模型主要侧重于学习 𝑘1 组件。换句话说，在训练过程中相对误差减小到 0.01 左右（红色代码）。但是，它缺乏对 𝑘3 的优化，导致相对误差接近 0.95。这些观察表明，时域中的信号可以由一系列频率波表示，通常以低频分量为主[19,27,31]。当 Transformer 部署在这个混合频率集合上时，大部分频率会出现学习偏差。类似的结果在右子图中的对照实验中也很明显。在这里，我们引入中高频范围内具有较高振幅的合成数据（导致 𝒂𝑘1 < 𝒂𝑘2 < 𝒂𝑘3）。作为响应，模型将焦点转向关键组件 𝑘3，导致 Δ𝑘1 > Δ𝑘2 > Δ𝑘3。这种学习偏差与 Transformer 模型的最新理论分析一致 [30,35,36]。此外，秒。 3.1 提供了这种频率偏差的正式定义。

2.2.2 变压器频率学习去偏（案例2）。基于上述讨论，我们最初对新数据集使用相同的实验设置，如图 2(b)（左）所示。然后，我们通过（1）减轻高比例的影响和（2）为变压器提供细粒度的频率信息来执行两项去偏可行性分析。 (1)频率归一化：我们首先分解频域并对频率的幅度进行归一化以消除它们的比例差异。具体来说，我们应用 DFT，对幅度进行归一化，然后使用 IDFT 将频率表示转换回时域，然后将其输入到 Transformer，公式为 X′ = (IDFT(A𝑛𝑜𝑟𝑚))。

如图 2(b)（中和右）所示，调整四个输入分量，使它们具有相同的幅度值，如蓝色虚线所示。中间的子图显示频率归一化增强了后三个频率的预测性能，但相对误差仍然很高。

(2)频域建模：我们进一步直接在频域上部署Transformer来对DFT矩阵进行建模。随后，我们应用 IDFT 将预测结果返回到时域。此处的目的是为变压器提供更精细、更清晰的频率特性。形式上，X′ = IDFT((A𝑛𝑜𝑟𝑚))。如图2(b)（右）所示，后三个频率分量的预测精度有显着提高。值得注意的是，第二频率分量（60-75 Hz）中的偏差被有效消除。这些发现表明，通过比例缓解的直接频域建模在实现去偏方面具有潜力。

三、 FREQUENCY BIAS FORMULATION

本节定义了 Sec.3.1 中的频率偏差，然后描述了 Sec.3.2 中的研究问题。

3.1 Frequency Bias Definitions

鉴于上述经验分析表明关键频率分量中存在频率偏差，我们首先根据两个属性定义这些关键分量：1）关键分量在频谱内应具有相对较高的幅度，2）它应该在历史观察和未来时间序列中保持一致，并且对时间变化具有鲁棒性[4, 31]。

定义 1. 关键频率分量。给定长度为𝐿的频谱A，A可以被分割成𝑁子频带 $\{w_1,w_2,\ldots,w_N\}$ 通过滑动窗口，其中 $w_n\in\mathbb{R}^{1\times s}$ 。第 𝑛 个窗口中的最大幅度确定如下：

在这里插入图片描述
其中 $w_{n}$ 表示第𝑛窗口中的𝑠振幅。如果 $\boldsymbol{a}_{k}$ 是第 𝑖 个窗口中的关键组件，则：

$\tilde{\mathbf{A}}$ 是所有关键组件的集合。值得注意的是，为了准确预测， $\tilde{\mathbf{A}}$ 应该出现在历史A和地面实况 $\hat{\mathbf{A}}$ 中。

定义 2. 变压器中的频率偏差。假设时间序列 X 包含 𝑁 个关键频率分量振幅 $\tilde{\mathbf{A}}=\{\tilde{\boldsymbol{a}}_1,\ldots,\tilde{\boldsymbol{a}}_N\}$ ，对于第 𝑘 分量 $\tilde{\boldsymbol{a}}_{k}\in\tilde{\mathbf{A}}$ ，我们有 $P(\tilde{\boldsymbol{a}}_k)$ = $\frac{|\tilde{a}_{k}|}{\sum_{n=1}^{N}|\tilde{a}_{n}|}$ ，指的是 $\tilde{\boldsymbol{a}}_k$ 在 $\tilde{\mathbf{A}}$ 的振幅总和中所占的比例。频率偏差可以定义为相对误差 Δ𝑘 。这里，较大的比例 ${P(\tilde{a}_k)}$ 导致较小的 Δ𝑘 并表现出较高的排名：

在这里插入图片描述
最终，Transformer 在训练过程中更加关注排名靠前的组件，如图 2 (a) 热图所示。

3.2 Problem Statement

基于第 2 节中的讨论。如图 2 所示，我们认为，如果 Transformer 在学习过程中将注意力平等地分配给所有关键频率分量 $\tilde{\mathbf{A}}$ ，则可以减轻频率偏差。

问题 1.变压器的去偏频率学习。给定一个 Transformer 输出 $f_{Trans}(X)$ ，其中 𝑋 包含几个关键频率分量 $\tilde{\boldsymbol{a}}_k$ ，我们的目标是对 $f_{Trans}(X)$ 进行去偏并通过使相对误差 $\Delta\tilde{\boldsymbol{a}}_k$ 独立于 $P(\tilde{\boldsymbol{a}}_k)$ ：

在这里插入图片描述
从而确保变压器对不同关键频率分量的平衡响应。

四、 FREDFORMER

在这里，我们讨论如何解决 3.2 节中提出的问题，并提出 Fredformer，一种用于准确时间序列预测的频率去偏 Transformer 模型。

架构概述。 Fredformer 由四个主要组件组成：(i) DFT-to-IDFT 主干，(ii) 频域细化，(iii) 局部频率独立学习，以及 (iv) 全局语义频率汇总。图 3 显示了架构概览。 DFT-to-IDFT 主干网使用 DFT 将输入时间序列 X 分解为其频率分量，并通过模块 ( ii ) ( iii ) 和 ( iv ) 学习关键频率分量的去偏表示。基于第 2 节中的讨论。 2.2.2 (2)，我们注意到频率建模在去偏方面的巨大潜力，我们首先将整个频谱细化为子频率，这是通过对 DFT 系数进行修补操作来实现的。来自同一子频带内不同通道的补丁被嵌入为令牌。即每个子频带独立编码，避免了其他频率分量的影响，如2.2.2(1)节所述。我们部署 Transformer 来提取所有通道中每个子带的局部频率特征。这缓解了 Def 中定义的较高比例的症结。 2.最后，我们总结所有的频率信息，作为IDFT进行预测。 Fredformer 的详细工作流程参见附录 C。下面，我们提供每个模块的描述。

4.1 Backbone

给定 X，我们首先使用 DFT 将 X 分解为所有通道的频率系数 A1。然后，我们使用 Transformer 编码器将去偏频率特征提取到 $\mathbf{A}\in\mathbb{R}^{C\times L}$ 。随后通过IDFT将频率输出重构为时域信号X’。

在这里插入图片描述

4.2 Frequency Refinement and Normalization

根据第 2 节中描述的观察结果。 2.2.2，我们得出结论，如果输入数据中不同的 ${\tilde{\mathbf{A}}_{k}}$ 值之间存在显着的比例差异，则会导致模型过度关注幅度较大的分量。为了解决这个问题，我们提出频率细化和标准化。具体来说，沿着 𝐶 轴（即通道）对 A 应用非重叠修补操作，产生如下局部子频率序列：

在这里插入图片描述
其中𝑁是补丁的总数，而𝑆表示每个补丁的长度。减少细粒度频段（例如相邻 1 Hz 和 2 Hz）上的信息冗余，使模型能够学习每个子频率的局部特征。参数 𝑆 可适应现实场景的要求，例如，每日记录的每小时采样或通常发生在 8-12 Hz 的 alpha 波形 [8]。

在这里插入图片描述
图 3：我们的框架概述。 Fredformer 采用 DFT 将输入序列变换到频域，进行局部归一化，并在采用通道注意力之前分割成补丁，通过频率汇总层和 IDFT 产生最终预测。

由于修补操作允许模型独立管理每个 M𝑛，我们进一步沿 𝑁 轴标准化每个 W𝑛：
在这里插入图片描述
其中𝜎(·)表示归一化，进一步将每个 $\tilde{\mathbf{A}}$ 𝑘的数值投影到0-1的范围内。该操作消除了子频带内最大值的成比例差异，从而在所有关键分量 $\tilde{\mathbf{A}}$ 上保持相等的Δ。

引理 1. 频率局部归一化：给定频率块 $\forall{\mathbf{W}}_n, {\mathbf{W}}_m \in \mathbf{W}$ for $\max(\mathbf{W}_{n}) > \max(\mathbf{W}_{m})$ 和 𝜎(·)，归一化策略定义为：

在这里插入图片描述
这确保了在每个局部频率补丁 W𝑛 内，关键频率分量之间的幅度差异最小化，从而促进模型对所有关键频率的同等关注：

在这里插入图片描述
一些研究还引入了时域修补操作，并在这些时域修补内执行归一化[29]。然而，根据 Parseval 定理 [32]，时域补丁内的归一化相当于对所有频率进行归一化。这无法解决关键频率分量之间的幅度偏差问题。更详细的描述可以在附录 G 中找到。

4.3 Frequency Local Independent Modeling

给定归一化的 $\mathbf{W}^{*}$ ，我们部署频率局部独立的 Transformer 编码器来独立学习每个 $\mathbf{W}^{*}$ 𝑛 的重要性。对于 $\mathbf{W}_{n}^{(1:C)}=\{\mathbf{w}_{n}^{(1)},\mathbf{w}_{n}^{(2)},\ldots,\mathbf{w}_{n}^{(C)}\}_{n=1}^{N}$ ，Transformer 编码器 $f_{Trans}(\cdot)$ 接受每个 $w_{n}^{*}(c)$ 作为输入标记：

在这里插入图片描述

其中 $\mathbf{W^{\prime}}_{n}(1{:}C)$ 由通道自注意力编码器编码： Attention(Q𝑛, K𝑛, V𝑛) =

在这里插入图片描述

其中 $KaTeX parse error: Expected '}', got 'EOF' at end of input: …b{R}^{S\times M$ 是用于生成查询矩阵 Q𝑛 、键矩阵 K𝑛 和值矩阵 V𝑛 的权重矩阵。 √ 𝑑 表示缩放操作。注意力模块还包括归一化和具有残差连接的前馈层[12]，注意力 $(\mathbf{Q}_{n},\mathbf{K}_{n},\mathbf{V}_{n})\in\mathbb{R}^{{C}\times M}$ 对第𝑛子频带 $\mathbf{M}_{n}$ 的𝐶通道之间的相关性进行加权。这种设计保证了每个子频率的特征都是独立计算的，防止了学习偏差。
在这里插入图片描述
如果 $\mathbf{W'}_{n}=f_{Trans}(\mathbf{W}_{n}^{*(1:C)})$ ，则通过对不同通道上相同频率 $\boldsymbol{w}_{n}^{c}$ 的关系进行建模，得到第 𝑘 个密钥组件 $\tilde{\boldsymbol{a}}_k$ 出现在 $\boldsymbol{w}_{n}^{c}$ 中，我们有 $-|\Delta_{k}^{(c)}| \propto \{|\Delta_{k}^{(c)}|\}_{c=1}^{C}$ 。 Transformer 编码器将专注于通道相关性，而不是 $\{|\Delta_k^{(c)}|\}_{k=1}^K$ ，即去偏 $-|\Delta_{k}^{(c)}|\not\subset P(\tilde{\boldsymbol{a}}_{k})$

引理 2 表明较低的 $P(\tilde{\boldsymbol{a}}_k)$ 并不一定会导致 $|\Delta\tilde{\boldsymbol{a}}_k|$ 的增加，从而避免对频率分量的过度关注。 [24, 48] 的工作中提出了通道关注。我们将这些研究作为基线和结果包含在第二节中。 5.2. 这项工作有不同的建模目的：我们在对齐的局部特征上部署自注意力，即在跨通道的相同频带中，以进行频率去偏置。

4.4 Frequency-wise Summarization

给定子频率的学习特征 $\mathbf{W}^{\prime}=\{w_{1}^{\prime},w_{2}^{\prime},\ldots,w_{N}^{\prime}\}$ 历史时间序列 X ，频率汇总操作包含线性投影和 IDFT：
在这里插入图片描述
其中 $\mathbf{X}^{\prime}\in\mathbb{R}^{C\times H}$ 是框架的最终输出。

五、 EXPERIMENTS

5.1 协议

数据集。我们对八个真实世界基准数据集进行了广泛的实验：天气、四个 ETT 数据集（ETTh1、ETTh2、ETTm1、ETTm2）、电力（ECL）、交通和太阳能数据集 [19]，所有数据集均发布在 [24]2．表 3 总结了这些数据集提供的信息。图 2 显示了四个选定数据集*的完整结果。附录 B 提供了更多详细信息。
基线。我们选择了 11 项 SOTA 基线研究。由于我们专注于 Transformer，因此我们首先添加七个提出的基于 Transformer 的基线，包括 iTransformer [24]、PatchTST [29]、Crossformer [48]、Stationary [25]、Fedformer [50]、Pyraformer [23]、Autoformer [ 43]。我们还添加了 2 个基于 MLP 和 2 个基于 TCN 的方法，包括 RLinear [22]、DLinear [47]、TiDE [11]、TimesNet [42]。

表 1：所有数据集的预测长度 𝑆 ∈ {96, 192, 336, 720} 和固定回溯长度 𝑇 = 96 的多变量预测结果。突出显示了最佳和次佳结果。四个选定数据集*的完整结果将显示在图 2 中。结果是所有预测长度的平均值。所有数据集的完整结果列于附录 I。
在这里插入图片描述
表 2：四个选定数据集的完整结果，突出显示了最佳结果和次佳结果。我们根据 iTransformer [24] 的设置，比较了不同预测长度下的广泛竞争模型。所有基线的输入序列长度均设置为 96。 Avg 表示所有四个预测长度的平均结果。
在这里插入图片描述
Table 3: Benchmark dataset summary

表 4：4 个补丁长度设置下 ETTh1 数据集的平均预测精度 (MSE)。

表 5：消融研究中每个设置的平均结果。 “No-CW”是指删除通道级关注，“No-FR”是指删除频率细化。

设置和评估。所有基线对所有数据集都使用相同的预测长度 𝐻 ∈ {96, 192, 336, 720}。我们在设置中使用回顾窗口 𝐿 = 96 进行公平比较，参考[24, 50]。我们使用 MSE 和 MAE 作为预测指标。我们进一步分析了时域和频域中模型输出与真实情况之间的预测结果。使用热图，我们跟踪了训练期间 Δ𝑘 的变化方式，以显示 Fredformer 与各种 SOTA 基线相比的去偏结果。

5.2 Results

预测结果。表 1 显示了四个预测长度的平均预测性能。最好的结果以红色突出显示，第二好的结果以蓝色突出显示。使用默认回顾窗口𝐿 = 96，我们的方法在大多数数据集上实现了领先的性能水平，在八个数据集的两个指标中确保了 14 个 top-1 和 2 个 top-2 位置。表 2 显示了 8 个数据集中 4 个的更详细结果，其中我们的方法在四个预测长度的 40 个可能结果中实现了 34 个前 1 名和 6 个前 2 名。关于所有数据集的不同预测长度设置以及扩展回顾窗口的影响的更全面的结果详见附录 D 和 I。

频率偏差评估。图 4 是频域中的案例研究可视化，即 DFT 图。输入、预测输出和地面实况数据系列分别以蓝色、红色和绿色显示。与第 2.2 节类似，热图显示了四个选定的中高频分量在增加的历元内的相对误差。训练后，Fredformer 准确识别了 𝑘1、𝑘2 和 𝑘3，相对误差均匀减小。尽管 𝑘4 的学习误差较大，但 Δ𝑘4 持续减小。该性能与所有基线形成对比，表明在捕获这些频率分量方面缺乏有效性，并且相对误差的减少程度不等。相比之下，PatchTST 在训练的最后阶段表现出组件准确性的突然提高（𝑘2，𝑘3）。 FEDformer 未能捕获这些频率分量，可能是因为其仅针对一组随机的 𝑘 分量选择和学习权重的策略忽略了所有未选择的分量。值得注意的是，iTransformer 忽略了中高频特征，部分学习了分量 𝑘1 和 𝑘3，而忽略了𝑘2 和 𝑘4，这表明存在明显的频率偏差。这可能源于它在时域中使用通道注意力和全局标准化，如引理 1 中所讨论的，并得到我们的消融研究 5.3 的进一步支持。这凸显了频率细化和标准化的有效性。

在这里插入图片描述

5.3 Ablation Study

通道式注意力和频率细化。我们评估通道注意力和频率细化的有效性。为此，我们通过烧蚀去除每个组件，并将其与原始 Fredformer 进行比较。表 5 显示我们的方法在所有实验中始终优于其他方法，强调了在我们的设计中将通道注意力与频率局部归一化相结合的重要性。有趣的是，单独使用频率局部归一化比单独使用通道注意力能够产生更好的准确性。这表明，最小化各个关键频率分量幅度的比例差异对于提高精度至关重要。补丁长度的影响。该消融使用 ETTh1 数据集评估补丁长度的影响。我们使用 𝑆 = [8, 16, 32, 48] 补丁长度和相应的补丁编号 𝑁 = [6, 3, 2, 1] 进行了四次实验。在这种情况下，𝑁 = 1 意味着频率归一化和通道关注应用于整个频谱，而无需修补操作。表 4 显示了每种设置的预测精度。随着补丁长度的增加，模型提取的频率特征的粒度变得更粗，预测精度降低。

5.4 Discussion of Applicability

除了算法考虑之外，我们还进一步讨论了 Fredformer 在现实场景中的实际部署，主要挑战是模型训练期间的内存消耗。自注意力的 𝑂(𝑛2) 复杂性限制了使用较长的历史时间序列进行预测，从而需要创新来减少计算需求 [21,29,49]。通过修补操作，我们将复杂度从 𝑂(𝐿𝐶2) 降低到 𝑂(𝐿 𝑃 𝐶2)。然而，我们的通道注意力随着通道数量的增加而增加了计算成本，可能限制了许多通道的实际适用性。为了解决这个问题，我们提出了一个轻量级的 Fredformer，其灵感来自 NyströmFormer [45]，它将矩阵近似应用于注意力图。这种设计使我们能够进一步将复杂性降低到 𝑂( 𝐿 𝑃 𝐶)，而不需要修改 Transformer 中的特征提取（注意力计算）或数据流结构，这与之前的方法不同 [23, 43, 49, 50] 。图 5 显示了我们的方法和基线中模型效率（VRAM 使用）和准确性之间的权衡。普通的 Fredformer 通过较少的通道实现了高精度、低计算成本，例如具有 7 个通道的 ETTh1。然而，如 ECL 数据集（321 个通道）所示，随着通道数量的增加，计算成本在保持高精度的同时增加。在这里，Nyström-Fredformer 在不影响精度的情况下进一步降低了计算要求（右子图），表明我们的模型可以实现计算效率和预测精度。附录 H 中提供了更多细节和推导。
在这里插入图片描述
图 4：Fredformer 的学习动态和结果以及 ETTh1 数据集上的基线的可视化，使用线图来说明频域中的幅度，使用热图来表示训练时期误差。
图 5：该图比较了基于 Transformer 的方法 Fredformer（我们的）及其优化变体 Nyström-Fredformer（我们的*）之间的预测精度和计算复杂性（VRAM 使用）。

六、 RELATEDWORKS

用于时间序列预测的变压器。预测在时间序列分析中很重要[1, 15]。 Transformer 在时间序列预测方面取得了显着进展[18,29,48]。早期的尝试侧重于提高 Transformer 在时间序列预测任务中的计算效率[3,23,49]。一些研究已经使用 Transformer 来模拟时间序列时域中固有的时间依赖性[21,23,24,29,49]。各种研究将频率分解和频谱分析与 Transformer 集成到时间变化建模中 [41, 43]，以提高时空表示的能力。在[50]中，注意力层被设计为直接在频域中起作用以增强空间或频率表示。

时间序列短期变化建模。短期变化是时间序列数据的内在特征，在有效预测中发挥着至关重要的作用[10, 25]。人们提出了许多基于深度学习的方法来捕获这些瞬态模式[2,7,9,28,33,37,38,40,43]。在这里，我们总结了一些与我们提出的方法密切相关的研究。 Pyraformer [23] 应用具有尺度间和尺度内连接的金字塔注意力模块来捕获各种时间依赖性。 FEDformer [50] 在注意力计算中结合了傅里叶谱来识别关键频率分量。除了 Transformers 之外，TimesNet [42] 使用 Inception 块来捕获周期内和周期间的变化。

通道相关性。了解跨渠道相关性对于时间序列预测也至关重要。几项研究旨在捕获通道内时间变化并使用图神经网络 (GNN) 对通道间相关性进行建模 [6, 44]。最近，Crossformer [48] 和 iTransformer [24] 都采用了基于 Transformer 的通道式框架，大量的实验结果证明了通道式注意力对于时间序列预测的有效性。

七、 CONCLUSION

在本文中，我们首先对频率偏差进行实证分析，深入探讨其原因并探索去偏策略。然后，我们根据我们的分析见解提供了这种偏见的表述。我们提出了具有三个关键设计的 Fredformer 框架来解决这种偏差，从而确保跨频段的无偏差学习。我们在八个数据集上进行的广泛实验证实了我们提出的方法的出色性能。视觉分析证实我们的方法有效地减轻了频率偏差。模型分析进一步说明了我们的设计如何帮助频率去偏，并为未来的模型设计提供了初步指导。此外，我们模型的轻量级变体解决了计算效率问题，促进了实际应用。