SOFTS: Efficient Multivariate Time Series Forecasting with Series-Core Fusion

最新推荐文章于 2025-09-27 22:15:30 发布

翻译最新推荐文章于 2025-09-27 22:15:30 发布 · 置顶 · 1.3k 阅读

11 ·

CC 4.0 BY-SA版权

原文链接：https://arxiv.org/abs/2404.14197

文章标签：

#人工智能 #深度学习 #机器学习

系列文章目录

SOFTS：通过系列核心融合进行高效的多元时间序列预测

文章目录

系列文章目录
摘要
一、引言
2 Related Work
3 SOFTS
4 Experiments
- 4.1 Forecasting Results
- 4.2 Ablation Study
5 Conclusion

摘要

多元时间序列预测在金融、交通管理、能源和医疗保健等各个领域发挥着至关重要的作用。最近的研究强调了渠道独立性在抵抗分布漂移方面的优势，但忽视了渠道相关性，限制了进一步的增强。有几种方法利用注意力或混合器等机制通过捕获通道相关性来解决这个问题，但它们要么引入过多的复杂性，要么过于依赖相关性来在分布漂移下获得令人满意的结果，特别是在通道数量较多的情况下。为了解决这一差距，本文提出了一种基于 MLP 的高效模型，即 Series-cOre 融合时间序列预测器 (SOFTS)，其中包含新颖的 STar 聚合重新分配 (STAR) 模块。与通过分布式结构（例如注意力）管理渠道交互的传统方法不同，STAR 采用集中式策略来提高效率并减少对每个渠道质量的依赖。它将所有系列聚合起来形成一个全局核心表示，然后将其调度并与各个系列表示融合，以有效促进通道交互。 SOFTS 比现有最先进的方法实现了卓越的性能，且仅具有线性复杂度。 STAR 模块在不同预测模型中的广泛适用性也得到了实证证明。为了进一步研究和开发，我们已在 https://github.com/Secilia-Cxy/SOFTS 上公开提供我们的代码。

一、引言

时间序列预测在各个领域的众多应用中发挥着关键作用，包括环境[9]、交通管理[15]、能源[16]和医疗保健[27]。根据先前观察到的数据准确预测未来价值的能力对于这些领域的决策、政策制定和战略规划至关重要。从历史上看，ARIMA 和指数平滑等模型是预测的标准模型，因其在某些情况下的简单性和有效性而闻名 [2]。然而，深度学习模型的出现，特别是那些利用循环神经网络 (RNN) [14, 3, 29] 和卷积神经网络 (CNN) [1, 8] 等结构的模型，已经将范式转向更复杂的模型，能够理解时间序列数据中的复杂模式。为了克服无法捕获长期依赖性的问题，基于 Transformer 的模型一直是一个流行的方向并取得了显着的性能，特别是在长期多元时间序列预测方面[46,28,26]。

早些时候，基于 Transformer 的方法执行线性或卷积层等嵌入技术来聚合来自不同通道的信息，然后通过注意机制沿时间维度提取信息 [46,35,47]。然而，这种通道混合结构被发现容易受到分布漂移的影响，其效果往往不如线性模型等简单方法 [43, 11]。因此，一些研究采取了渠道独立策略并取得了良好的结果[28,23,34]。然而，这些方法忽略了通道之间的相关性，从而阻碍了模型性能的进一步提高。随后的研究通过注意力等机制捕获了这种相关性信息，实现更好的结果，并证明渠道之间信息传递的必要性[45,33,26]。然而，这些方法要么采用高度复杂的注意力机制[26]，要么难以实现最先进的（SOTA）性能[7]。因此，有效地整合通道独立性的鲁棒性并以更简单、更有效的方式利用通道之间的相关性对于构建更好的时间序列预测模型至关重要。

为了应对这些挑战，本研究引入了一种高效的基于 MLP 的模型，即 Series-cOre 融合时间序列预测器 (SOFTS)，旨在简化预测过程，同时提高预测精度。 SOFTS 首先将序列嵌入多个通道，然后通过新颖的 STar Aggregate-Redistribute (STAR) 模块提取相互交互。 SOFTS 核心的 STAR 确保了可扩展性，并将计算需求从常见的二次复杂度降低到线性复杂度。为了实现这一目标，STAR没有采用分布式交互结构，而是采用集中式结构，首先通过聚合来自不同渠道的信息来获得全局核心表示。然后将局部序列表示与核心表示融合，实现通道之间的间接交互。这种集中交互不仅降低了比较的复杂性，而且还利用了渠道独立性和来自所有渠道的聚合信息，有助于改进本地渠道。我们的实证结果表明，与当前最先进的方法相比，我们的 SOFTS 方法以较低的计算资源取得了更好的结果。此外，SOFTS 可以扩展到具有大量通道或时间步长的时间序列，这对于许多基于 Transformer 的方法来说在不进行特定修改的情况下是困难的。最后，新提出的STAR是一个通用模块，可以取代许多模型中的attention。其效率和有效性在各种基于电流互感器的时间序列预测器上得到了验证。我们的贡献如下：

我们提出了 Series-cOre 融合时间序列 (SOFTS) 预测器，这是一种基于 MLP 的简单模型，能够以较低的复杂性展示最先进的性能。 2. 我们介绍了 STar Aggregate-Redistribute (STAR) 模块，它是 SOFTS 的基础。 STAR 被设计为中心化结构，使用核心来聚合和交换来自通道的信息。与注意力等分布式结构相比，STAR 不仅降低了复杂性，还提高了针对通道异常的鲁棒性。 3.最后，通过大量的实验，验证了SOFTS的有效性和可扩展性。 STAR 的普适性也在各种基于注意力的时间序列预测器上得到了验证。

2 Related Work

时间序列预测。时间序列预测是一个关键的研究领域，在工业界和学术界都有应用。凭借神经网络强大的表示能力，深度预测模型得到了快速发展[22,38,37,4,5]。两种广泛使用的时间序列预测方法是递归神经网络（RNN）和卷积神经网络（CNN）。 RNN 基于马尔可夫假设 [14, 3, 29] 对连续时间点进行建模，而 CNN 使用时间卷积网络 (TCN) [1, 8] 等技术提取沿时间维度的变化信息。然而，由于RNN中的马尔可夫假设和TCN中的局部接收特性，这两个模型都无法捕获序列数据中的长期依赖性。最近，Transformer 模型在长期时间序列预测任务中的潜力引起了人们的关注，因为它们能够通过注意力机制提取长期依赖关系[46,35,47]。

高效的长期多元预测和渠道独立性。长期多元时间序列预测在决策过程中变得越来越重要[9]。虽然 Transformer 在各个领域都表现出了显着的功效 [32]，但其复杂性给长期预测场景带来了挑战。使基于 Transformer 的模型适应时间序列并降低复杂性的努力包括 Informer，它利用概率子采样策略来实现更有效的注意力机制 [46]，以及 Autoformer，它采用自相关和快速傅里叶变换来加快计算速度 [35]。同样，FEDformer 使用选定的组件在频域内应用注意力来增强性能 [47]。尽管有这些创新，多元序列中的模型混合通道通常会表现出较低的鲁棒性，无法适应分布漂移并实现低于标准的性能 [43, 11]。因此，一些研究人员采用了通道无关的方法，简化了模型架构并提供了可靠的结果 [28, 23]。然而，忽略变量之间的相互作用可能会限制进一步的进步。因此，最近的趋势已经转向利用注意力机制来捕获渠道相关性[45,33,26]。尽管性能很有希望，但它们在大型数据集上的可扩展性受到限制。另一项研究重点是通过 MLP 等更简单的结构对时间和通道依赖性进行建模 [44,7,40]。然而，与基于 SOTA 变压器的方法相比，它们通常实现次优性能，特别是当通道数量很大时。

在本文中，我们提出了一种新的基于 MLP 的方法，打破了性能和效率的困境，实现了最先进的性能，而通道数量和回溯窗口长度仅具有线性复杂度。

3 SOFTS

多元时间序列预测 (MTSF) 处理每个时间步包含多个变量或通道的时间序列数据。给定历史值 $X\in\mathbb{R}^{C\times L}$ ，其中 L 表示回溯窗口的长度，C 是通道数。 MTSF 的目标是预测未来值 $\boldsymbol{Y}\in\mathbb{R}^{C\times H}$ ，其中 H > 0 是预测范围。

3.1 Overview

我们的 Series-cOre 融合时间序列预测器 (SOFTS) 包含以下组件，其结构如图 1 所示。

可逆实例标准化。标准化是校准输入数据分布的常用技术。在时间序列预测中，通常会删除历史的本地统计数据，以稳定基础预测器的预测，并将这些统计数据恢复到模型预测中[17]。遵循许多最先进模型 [28, 26] 中的常见做法，我们应用可逆实例归一化，将序列集中到零均值，将它们缩放到单位方差，并反转预测序列的归一化。对于 PEMS 数据集，我们遵循 Liu 等人的方法。 [26]根据性能选择性地进行归一化。

系列嵌入。系列嵌入是时间序列中流行的补丁嵌入的极端情况[28]，相当于将补丁长度设置为整个系列的长度[26]。与补丁嵌入不同，系列嵌入不会产生额外的维度，因此比补丁嵌入简单。因此，在这项工作中，我们在回溯窗口上执行系列嵌入。具体来说，我们使用线性投影将每个通道的序列嵌入到 $S_0=\mathbb{R}^{C\times d}$ ，其中 d 是隐藏维度：

在这里插入图片描述
图2：STAR模块与attention、GNN、mixer等几个常见模块的比较。这些模块采用分布式结构来执行交互，这依赖于每个通道的质量。相反，我们的 STAR 模块采用集中式结构，首先聚合所有系列的信息以获得全面的核心表示。然后将核心信息分发到各个通道。这种交互模式不仅降低了交互的复杂性，而且降低了对信道质量的依赖。
在这里插入图片描述

Channel interaction。该系列嵌入由多层STAR模块细化：
在这里插入图片描述

STAR 模块采用星形结构，在不同通道之间交换信息，下一节将详细介绍。

线性预测器。经过 N 层 STAR 后，我们使用线性预测器（ $\mathbb{R}^d\mapsto\mathbb{R}^H$ ）来产生预测结果。假设第 N 层的输出序列表示为 $\boldsymbol{S}_{N}$ ，则预测 $\hat{\boldsymbol{Y}}\in\mathbb{R}^{C\times H}$ 计算如下：

在这里插入图片描述

3.2 STar Aggregate-Redistribute Module

我们的主要贡献是一个简单但高效的 STar Aggregate-Redistribute (STAR) 模块来捕获通道之间的依赖关系。现有方法采用注意力等模块来提取此类交互。尽管这些模块直接比较每对的特征，但它们面临着与通道数量相关的二次复杂度。此外，当存在异常通道时，这种分布式结构可能缺乏鲁棒性，因为它们依赖于提取通道之间的相关性。现有的通道独立性研究已经证明了非平稳时间序列上的不可信相关性[43, 11]。为此，我们提出了STAR模块来解决分布式交互模块的低效率问题。该模块的灵感来自于软件工程中的星形集中式系统，其中不是让客户端相互通信，而是有一个服务器中心来聚合和交换信息[30, 10]，其优点是高效可靠。遵循这一思路，STAR以通过核心的间接交互取代了相互串联的交互，代表了所有渠道的全局代表性。与分布式结构相比，STAR利用了通道统计聚合带来的鲁棒性[11]，从而获得了更好的性能。图 2 说明了 STAR 的主要思想以及它与现有模型（如注意力模型 [32]、GNN [19] 和 Mixer [31]）之间的区别。

给定每个通道的序列表示作为输入，STAR 首先获得多元序列的核心表示，这是我们 SOFTS 方法的核心。我们定义核心表示如下：

定义 3.1（核心表示）。给定一个具有 C 通道 $\{\boldsymbol{s}_1,\boldsymbol{s}_2,\ldots,\boldsymbol{s}_C\}$ ，核心表示o是由任意函数f生成的向量，其形式如下：
在这里插入图片描述
核心表示对所有通道的全局信息进行编码。为了获得这种表示，我们采用以下形式，其灵感来自 Kolmogorov-Arnold 表示定理 [20] 和 DeepSets [41]：

在这里插入图片描述
其中 $\mathrm{MLP}_1:\mathbb{R}^d\mapsto\mathbb{R}^{d^{\prime}}$ 是一个投影，将序列表示从系列隐藏维度 d 投影到核心维度 d′，组成具有隐藏维度 d 和 GELU [13] 激活的两个层。 Stoch_Pool是随机池化[42]，它通过聚合C系列的表示来获得核心表示 $\boldsymbol{o}\in\mathbb{R}^{d^{\prime}}$ 。随机池结合了均值池和最大池的优点。计算核心表示的细节可以在附录 B.2 中找到。接下来，我们融合核心和所有系列的表示：
在这里插入图片描述
Repeat_Concat 操作将核心表示 o 连接到每个系列表示，我们得到 $F_i\in\mathbb{R}^{C\times(d+d^{\prime})}$ 。然后使用另一个 ${(\text{MLP}_2}:\mathbb{R}^{d+d^{\prime}}\mapsto\mathbb{R}^d)$ 来融合级联表示并将其投影回隐藏维度 d，即 $\boldsymbol{S}_{i}\in R^{C\times d}$ 。与许多深度学习模块一样，我们还添加了从输入到输出的残差连接[12]。

3.3 复杂度分析

我们逐步分析 SOFTS 每个组件的复杂度，包括窗口长度 L、通道数 C、模型维度 d 和预测范围 H。可逆实例归一化和序列嵌入的复杂度为 O(CL) 和 O(CLd ）分别。在STAR中，假设d′ = d，MLP1是复杂度为O(Cd2)的 $\mathbb{R}^d\mapsto\mathbb{R}^d$ 映射。 Stoch_Pool 沿通道维度计算 softmax，复杂度为 O(Cd)。级联嵌入上的 MLP2 的复杂度为 $\begin{aligned}O(Cd^2)\end{aligned}$ 。预测器的复杂度为 O(CdH)。总而言之，编码部分的复杂度为 $O(CLd+Cd^{2}+{Cd}H)$ ，与 C、L、H 呈线性关系。忽略模型维度 d，它是算法中的常数，与问题无关，我们比较表 1 中几种流行预测器的复杂性。

表 1：流行的时间序列预测器在窗口长度 L、通道数 C 和预测范围 H 方面的复杂性比较。我们的方法仅实现线性复杂性。

在这里插入图片描述

4 Experiments

数据集。为了彻底评估我们提出的 SOFTS 的性能，我们对 6 个广泛使用的真实世界数据集进行了广泛的实验，包括 ETT（4 个子集）、交通、电力、天气 [46, 35]、太阳能 [21] 和 PEMS（ 4 个子集）[24]。数据集的详细描述可以在附录 A 中找到。

4.1 Forecasting Results

比较方法。我们广泛比较了最近基于线性或基于 MLP 的方法，包括 DLinear [43]、TSMixer [7]、TiDE [6]。我们还考虑基于 Transformer 的方法，包括 FEDformer [47]、Stationary [25]、PatchTST [28]、Crossformer [45]、iTransformer [26] 和基于 CNN 的方法，包括 SCINet [24]、TimesNet [36]。

预测基准。长期预测基准遵循Informer [46]和SCINet [24]中的设置。所有数据集的回溯窗口长度 (L) 设置为 96。我们将 PEMS 的预测范围 (H) 设置为 {12, 24, 48, 96}，将其他的预测范围设置为 {96, 192, 336, 720}。不同方法之间的性能比较是基于两个主要评估指标：均方误差（MSE）和平均绝对误差（MAE）。 PatchTST 和 TSMixer 的结果被复制用于消融研究，其他结果取自 iTransformer [26]。

实施细节。我们使用 ADAM 优化器 [18]，初始学习率为 3×10−4。该速率由余弦学习速率调度程序调节。均方误差（MSE）损失函数用于模型优化。我们探索集合 {1, 2, 3, 4} 中的 STAR 块数量 N，以及 {128, 256, 512} 中系列 d 的维度。另外，核心表示d’的维度在{64,128,256,512}之间变化。其他详细实现在附录 B.3 中描述。

主要结果。如表 2 所示，SOFTS 在所有 6 个数据集中平均提供了最佳或第二的预测结果。此外，与以前最先进的方法相比，SOFTS 已经表现出显着的进步。例如，在 Traffic 数据集上，SOFTS 将平均 MSE 误差从 0.428 提高到 0.409，显着降低了约 4.4%。在 PEMS07 数据集上，SOFTS 的平均 MSE 误差相对大幅降低了 13.9%，从 0.101 降至 0.087。这些显着的改进表明，SOFTS模型在多元时间序列预测任务中具有鲁棒的性能和广泛的适用性，特别是在具有大量通道的任务中，例如包含862个通道的Traffic数据集和具有不同通道的PEMS数据集。范围从 170 到 883 个通道。

表 2：多元预测结果，PEMS 的范围为 H ∈ {12, 24, 48, 96}，其他范围为 H ∈ {96, 192, 336, 720}，固定回溯窗口长度 L = 96。结果是所有预测的平均值视野。完整结果列于表 6 中。
在这里插入图片描述
模型效率。我们的 SOFTS 模型以最少的内存和时间消耗展示了高效的性能。图 3b 说明了 Traffic 数据集上不同模型的内存和时间使用情况，其中回溯窗口 L = 96，地平线 H = 720，批量大小为 4。尽管资源使用率较低，但基于线性或基于 MLP 的模型（例如 DLinear） TSMixer 在通道数较多时表现不佳。图 3a 探讨了图 3b 中三个性能最佳模型的内存要求。该图显示，PatchTST 和 iTransformer 的内存使用量随着通道的增加而显着增加。相比之下，我们的 SOFTS 模型保持高效运行，其复杂性随通道数量线性扩展，有效处理大量通道。

4.2 Ablation Study

在本节中，PEMS 的预测范围 (H) 设置为 {12, 24, 48, 96}，其他设置为 {96, 192, 336, 720}。所有结果在四个层面上进行平均。如果不是特别关心，回溯窗口长度 (L) 默认设置为 96。

不同池化方法的比较。 STAR 中不同池化方法的比较如表 3 所示。术语“w/o STAR”是指将 MLP 与通道独立（CI）策略结合使用而不使用 STAR 的场景。均值池计算所有系列表示的平均值。最大池化选择所有通道中每个隐藏特征的最大值。加权平均学习每个通道的权重。随机池化在训练过程中随机选择，在测试过程中根据特征值进行加权平均。结果表明，将 STAR 纳入模型可以使所有池化方法的性能得到一致增强。此外，随机池值得关注，因为它在几乎所有数据集中都优于其他方法。

在这里插入图片描述图 3：不同模型的内存和时间消耗。在图 3a 中，我们在我们进行的合成数据集中设置回溯窗口 L = 96，水平线 H = 720，并将批量大小设置为 16。在图 3b 中，我们在 Traffic 数据集中设置回溯窗口 L = 96，水平线 H = 720，批量大小为 4。图 3a 显示 SOFTS 模型比基于 Transformer 的模型更有效地扩展到大量通道。图 3b 显示了先前基于线性或基于 MLP 的模型（例如 DLinear 和 TSMixer）在处理大量通道时表现不佳。而 SOFTS 模型则以最少的内存和时间消耗展示了高效的性能。

表3：不同池化方法的效果比较。术语“w/o STAR”是指将 MLP 与通道独立 (CI) 策略结合使用而不使用 STAR 的场景。结果表明，将 STAR 纳入模型可以使所有池化方法的性能得到一致增强。除此之外，随机池的性能优于均值池和最大池。完整结果见表 7。

在这里插入图片描述
STAR 的普遍性。 STar Aggregate-Redistribute (STAR) 模块是一个集合到集合的函数 [39]，可以替换为使用注意力机制的任意基于转换器的方法。在本段中，我们测试了 STAR 在不同现有的基于 Transformer 的预测器上的有效性，例如 PatchTST [28] 和 Crossformer [45]。请注意，我们的方法可以被视为替换 iTransformer [26] 中的通道注意力。在这里，我们涉及用 STAR 替换 PatchTST 中的时间注意力，并用 STAR 逐步替换 Crossformer 中的时间和通道注意力。结果如表 4 所示，表明用 STAR 代替注意力（需要更少的计算资源）可以保持甚至提高模型在多个数据集中的性能。

回顾窗口长度的影响。常识表明，较长的回顾窗口应该会提高预测的准确性。然而，合并太多特征可能会导致维数灾难，可能会损害模型的预测有效性。我们探讨了不同的回溯窗口长度如何影响所有数据集中 48 到 336 时间范围的预测性能。如图 4 所示，SOFTS 可以通过有效利用扩展回溯窗口中提供的增强数据来持续提高其性能。此外，在不同回溯窗口长度下，SOFTS 的表现始终优于其他模型，尤其是在较短的情况下。

表4：STAR在不同模型中的表现。这里被STAR替换的注意力是PatchTST中的时间注意力，iTransformer中的通道注意力，以及修改后的Crossformer中的时间注意力和通道注意力。结果表明，用需要较少计算资源的 STAR 代替注意力，可以维持甚至提高模型在多个数据集中的性能。 †：这里使用的 Crossformer 是一个修改版本，它像 PatchTST 那样用扁平头替换了解码器。完整结果见表 8。
在这里插入图片描述

图 4：回溯窗口长度 L 的影响。在不同回溯窗口长度下，SOFTS 的表现始终优于其他模型，尤其是在较短的情况下。

超参数敏感性分析。我们研究了几个关键超参数对模型性能的影响：模型的隐藏维度，表示为 d，核心的隐藏维度，表示为 d’，以及编码器层数 N。图 5 的分析表明复杂的流量数据集（例如 Traffic 和 PEMS）需要更大的隐藏维度和更多的编码层来有效处理其复杂性。此外，d’ 的变化对模型整体性能的影响很小。

STAR 的系列嵌入适配。 STAR 模块通过提取通道之间的交互来调整系列嵌入。为了直观地了解 STAR 的功能，我们将 STAR 调整前后的系列嵌入可视化。多元序列是从具有回顾窗口 96 和通道数 862 的流量测试集中选择的。图 6 显示了 T-SNE 在第一个 STAR 模块之前和之后可视化的序列嵌入。在862个通道中，有2个通道嵌入距离其他通道较远。这两个通道可以看作异常，图中标记为(⋆)。没有STAR，即仅使用通道无关策略，对序列的预测只能达到0.414 MSE。经过STAR调整后，异常通道可以通过交换通道信息向正常通道聚集。正常通道的示例标记为(△)。对调整后的序列嵌入的预测可以将性能提高到 0.376，提高 9%。

在这里插入图片描述
图 6：图 6a 6b：流量数据集上系列嵌入的 T-SNE。 6a：STAR 之前的系列嵌入。两个异常通道（⋆）距离其他通道较远。嵌入的预测达到 0.414 MSE。 6b：经STAR调整后的系列嵌入。通过交换信道信息，两个信道向正常信道（△）聚集。调整后的序列嵌入将预测性能提高到 0.376。图 6c：噪声对一个通道的影响。我们的方法比其他方法更能抵抗信道噪声。

5 Conclusion

尽管通道独立性已被发现是提高多变量时间序列预测稳健性的有效策略，但通道相关性是进一步改进的重要信息。以前的方法在提取相关性时面临模型复杂性和性能之间的困境。在本文中，我们通过引入 Series-cOre 融合时间序列预测器 (SOFTS) 解决了这一困境，该预测器以低复杂性实现了最先进的性能，同时还引入了新颖的 STar 聚合重新分配 (STAR) 模块来有效捕获通道相关性。