ITRANSFORMER: INVERTED TRANSFORMERS ARE EFFECTIVE FOR TIME SERIES FORECASTING

最新推荐文章于 2025-04-23 00:17:54 发布

萧宛亦

最新推荐文章于 2025-04-23 00:17:54 发布

阅读量935

点赞数 4

文章标签： transformer 人工智能

原文链接：https://arxiv.org/abs/2310.06625

版权

系列文章目录

iTransformer:iTransformer对时间序列预测是有效的 ICLR2024

文章目录

系列文章目录
摘要
一、介绍
二、相关工作
三、ITRANSFORMER
- 3.1 结构概述
- 3.2 INVERTED TRANSFORMER COMPONENTS
四、实验
五、结论及未来工作
A实现细节
- A.1数据集描述
- A.2实现细节
B消融研究
C超参数灵敏度
D模型效率

摘要

最近线性预测模型的繁荣对基于transformer的预测器的架构修改的持续热情提出了质疑。这些预测者利用transformer对时间序列的时间标记的全局依赖性进行建模，每个标记由同一时间戳的多个变量组成。然而，由于性能下降和计算量激增，变压器在预测具有较大回顾窗口的序列时面临挑战。此外，每个时间标记的嵌入融合了代表潜在延迟事件和不同物理测量的多个变量，这可能无法学习以变量为中心的表征并导致无意义的注意图。在本工作中，我们考虑了Transformer组件的职责，并在不修改基本组件的情况下重新设计了Transformer架构。我们提出了一种简单地将注意力和前馈网络应用于倒维的ittransformer。具体而言，将单个序列的时间点嵌入到变量令牌中，由注意机制利用变量令牌来捕获多变量相关性;同时，对每个变量标记应用前馈网络学习非线性表征。ittransformer模型在具有挑战性的真实世界数据集上达到了最先进的水平，这进一步增强了Transformer系列的性能，跨不同变量的泛化能力，以及更好地利用任意回看窗口，使其成为时间序列预测的基本支柱的一个很好的选择。代码可在此存储库中获得:https://github.com/thuml/iTransformer。

以下是本篇文章正文内容

一、介绍

Transformer (Vaswani et al.， 2017)在自然语言处理(Brown et al.， 2020)和计算机视觉(Dosovitskiy et al.， 2021)方面取得了巨大成功，成长为遵循缩放定律的基础模型(Kaplan et al.， 2020)。受广泛领域巨大成功的启发，Transformer具有强大的描述成对依赖关系和提取序列中多层次表示的能力，正在时间序列预测中出现(Wu等人，2021;Nie et al.， 2023)。

然而，研究人员最近开始质疑基于transformer的预测器的有效性，这种预测器通常将同一时间戳的多个变量嵌入到不可区分的通道中，并将注意力集中在这些时间标记上以捕获时间依赖性。考虑到时间点之间的数值关系，但语义关系较少，研究人员发现，简单的线性层，可以追溯到统计预测器(Box & Jenkins, 1968)，在性能和效率上都超过了复杂的变压器(Zeng et al.， 2023;Das et al.， 2023)。与此同时，最近的研究更加强调了确保变量的独立性和利用互信息，这些研究明确地建立了多元相关性模型，以实现准确的预测(Zhang & Yan, 2023;Ekambaram等人，2023)，但是如果不颠覆普通的Transformer架构，这个目标很难实现。

在这里插入图片描述
图1:变压器的性能。平均结果(MSE)报告如下TimesNet(2023)。

在这里插入图片描述
图2:vanilla Transformer(顶部)和提议的ittransformer(底部)之间的比较。Transformer嵌入了时间标记，它包含每个时间步骤的多变量表示。iTransformer将每个序列独立嵌入到变量标记中，这样注意力模块描述了多变量相关性，前馈网络编码了序列表示。

考虑到基于变形金刚的预测者的争议，我们反思了为什么变形金刚在时间序列预测中比线性模型表现更差，而在许多其他领域发挥主导作用。我们注意到现有的基于变压器的预测器结构可能不适合多变量时间序列预测。如图2顶部所示，值得注意的是，由不一致的测量记录的基本上表示完全不同物理含义的同一时间步长的点被嵌入到一个具有消除的多元相关性的令牌中。而单个时间步长形成的令牌由于同时存在的时间点所表示的过度局部的接受域和时间不对齐的事件而难以显示有益信息。此外，序列变化受序列顺序的影响较大，但在时间维度上不恰当地采用了排列不变注意机制(Zeng et al.， 2023)。因此，Transformer在捕获基本序列表示和描绘多元相关性方面被削弱，限制了其在不同时间序列数据上的容量和泛化能力。

考虑到将时间戳的多变量点作为(时间)令牌嵌入的潜在风险，我们对时间序列采取了相反的看法，并将每个变量的整个时间序列独立嵌入到(变量)令牌中，Patching (Nie et al.， 2023)的极端情况扩大了局部接受域。通过反转，嵌入令牌聚合了序列的全局表示，这些表示可以更加以变量为中心，并通过蓬勃发展的多变量相关注意机制更好地利用。同时，前馈网络可以熟练地学习任意回溯序列编码的不同变量的泛化表示，并解码以预测未来序列。

基于上述动机，我们认为Transformer对于时间序列预测不是无效的，而是使用不当。在本文中，我们重新审视了变压器的结构，并主张ittransformer作为时间序列预测的基本支柱。在技术上，我们将每个时间序列嵌入为变量令牌，对多变量相关性采用关注，并采用前馈网络进行序列表示。实验上，提议的ittransformer在图1所示的现实世界预测基准上实现了最先进的性能，并且令人惊讶地解决了基于transformer的预测者的痛点。我们的贡献体现在三个方面:

•我们对Transformer的体系结构进行了反思，并指出原生Transformer组件在多变量时间序列上的胜任能力尚未得到充分开发。

•我们提出了iTransformer，它将独立的时间序列作为标记，通过自关注来捕获多元相关性，并利用层归一化和前馈网络模块来学习更好的序列-全局表示，用于时间序列预测。

•实验上，ittransformer在现实世界的基准上实现了全面的最先进的技术。我们广泛地分析了倒置模块和架构选择，为未来基于变压器的预测器的改进指明了一个有希望的方向。

二、相关工作

随着自然语言处理和计算机视觉领域的不断突破，提出了精心设计的Transformer变体来解决无处不在的时间序列预测应用。超越同时代的tcn (Bai et al.， 2018;Liu et al.， 2022a)和基于rnn的预测者(Zhao et al.， 2017;Rangapuram等人，2018;Salinas et al.， 2020)， Transformer显示出强大的序列建模能力和有前景的模型可扩展性，导致了时间序列预测的热情修改趋势。

通过对基于变压器的预报员的系统回顾，我们得出结论，现有的修改可以根据是否修改组件和体系结构分为四类。如图3所示，第一类(Wu et al.， 2021;Li et al.， 2021;Zhou et al.， 2022)，这是最常见的做法，主要关注组件自适应，特别是对长序列进行时间依赖建模和复杂度优化的关注模块。然而，随着线性预测器的迅速出现(Oreshkin et al.， 2019;Zeng et al.， 2023;Das et al.， 2023;Liu et al.， 2023)，令人印象深刻的性能和效率不断挑战这一方向。不久之后，第二类尝试充分利用Transformer。它更关注时间序列的固有处理，如Stationarization (Liu et al.， 2022b)、Channel Independence和patchching (Nie et al.， 2023)，这些方法带来了持续提高的性能。而且，面对越来越重要的多变量的独立和相互作用，第三类从组件和架构两个方面对Transformer进行了翻新。代表(Zhang & Yan, 2023)通过更新的注意力机制和架构明确地捕获了跨时间和跨变量的依赖关系。

与以前的工作不同，ittransformer没有修改Transformer的任何本地组件。相反，我们采用了倒置维度上的组件，并改变了架构，作为我们所知的唯一属于第四类的组件。我们相信组件的功能已经经受住了广泛的考验，事实是Transformer的体系结构没有被正确地采用。

在这里插入图片描述
图3:根据组件和架构修改分类的基于转换器的预测器。

三、ITRANSFORMER

在多元时间序列预测中，给定历史观测值 $\mathbf{X}=\{\mathbf{x}_{1},\ldots,\mathbf{x}_{T}\}\in\mathbb{R}^{T\times N}$ 具有 T 个时间步长和 N 个变量，我们预测未来的 S 个时间步长 $\mathbf{Y}=\{\mathbf{x}_{T+1},\ldots,\mathbf{x}_{T+S}\}\in\mathbb{S}^{T\times N}$ 。为了方便起见，我们将 $\mathbf{X}_{t,:}$ 表示为步骤 t 处同时记录的时间点，将 $\mathbf{X}_{:,n}$ 表示为以 n 为索引的每个变量的整个时间序列。值得注意的是，由于数据集中变量之间存在系统时间滞后，Xt：可能不包含本质上反映现实场景中同一事件的时间点。此外， $\mathbf{X}_{t,:}$ 的元素在物理测量和统计分布上可以彼此不同，而变量 $\mathbf{X}_{:,n}$ 通常共享这些元素。

3.1 结构概述

我们提出的 iTransformer 如图 4 所示，采用 Transformer 的仅编码器架构（Vaswani 等人，2017），包括嵌入、投影和 Transformer 块。

Embedding the whole series as the token 大多数基于 Transformer 的预测器通常将同一时间的多个变量视为（时间）标记，并遵循预测任务的生成公式。然而，我们发现数值模态的方法对于学习注意力图的指导意义较小，这通过不断增加的修补应用（Dosovitskiy 等人，2021；Nie 等人，2023）来支持，从而拓宽了各自的领域。同时，线性预测器的胜利也挑战了采用重型编码器-解码器 Transformer 来生成令牌的必要性。相反，我们提出的仅编码器 iTransformer 专注于表示学习和多元序列的自适应关联。每个由底层复杂过程驱动的时间序列首先被标记化以描述变量的属性，通过自注意力应用进行相互交互，并由前馈网络单独处理以进行序列表示。值得注意的是，生成预测序列的任务本质上是交付给线性层，这已被之前的工作证明是有能力的（Das 等人，2023），我们在下一节中提供详细的分析。

在这里插入图片描述
图4：iTransformer的整体结构，与Transformer的编码器具有相同的模块化布局。 (a) 不同变量的原始系列作为标记独立嵌入。 (b) 将自注意力应用于嵌入式变量标记，增强可解释性，揭示多元相关性。 © 每个令牌的序列表示由共享前馈网络提取。 (d) 采用层归一化来减少变量之间的差异。

基于以上考虑，在iTransformer中，基于回溯序列 $\mathbf{X}_{:,n}$ 预测每个特定变量 $\hat{\mathbf{Y}}_{:,n}$ 的未来序列的过程简单地表述如下：

$\begin{aligned} \mathbf{h}_{n}^{0}& =\mathrm{Embedding}(\mathbf{X}_{:,n}), \\ \mathbf{H}^{l+1}& =\mathrm{TrmBlock}(\mathbf{H}^l),l=0,\ldots,L-1, & \left(1\right) \\ \hat{\mathbf{Y}}_{:,n}& =\mathrm{Projection}(\mathbf{h}_n^L), \end{aligned}$

其中 $\mathbf{H}=\{\mathbf{h}_1,\ldots,\mathbf{h}_N\}\in\mathbb{R}^{N\times D}$ 包含 N 个维度为 D 的嵌入标记，上标表示层索引。嵌入： $\mathbb{R}^T\mapsto\mathbb{R}^D$ 和投影： $\mathbb{R}^D\mapsto\mathbb{R}^S$ 均由多层感知器（MLP）实现。获得的变量 token 通过 self-attention 相互交互，并由每个 TrmBlock 中的共享前馈网络独立处理。具体来说，由于序列的顺序隐式存储在前馈网络的神经元排列中，因此这里不再需要普通 Transformer 中的位置嵌入。

iTransformers 该架构本质上不预设对 Transformer 变体的更多具体要求，除了注意力适用于多变量相关性之外。因此，一系列有效的注意力机制（Li et al., 2021; Wu et al., 2022; Dao et al., 2022）可以作为插件，在变量数变大时降低复杂性。此外，由于注意力的输入灵活性，令牌数量可以从训练到推理有所不同，并且允许模型在任意数量的变量上进行训练。反向 Transformer，称为 iTransformers，在 4.2 节的实验中进行了广泛的评估，并展示了时间序列预测的优势。

3.2 INVERTED TRANSFORMER COMPONENTS

我们组织了由层归一化、前馈网络和自注意力模块组成的 L 个块的堆栈。但他们在倒转维度上的职责被仔细地重新考虑。

层归一化 层归一化（Ba et al., 2016）最初是为了提高深度网络的收敛性和训练稳定性而提出的。在典型的基于 Transformer 的预测器中，该模块对同一时间戳的多变量表示进行标准化，逐渐将变量相互融合。一旦收集到的时间点不代表同一事件，操作也会在非因果或延迟过程之间引入交互噪声。在我们的反演版本中，归一化应用于个体变量的序列表示，如方程 2，它已被研究并证明在解决非平稳问题方面是有效的（Kim 等人，2021；Liu 等人，2022b）。此外，由于所有系列作为（变量）标记都被归一化为高斯分布，因此可以减少由不一致的测量引起的差异。相比之下，在以前的架构中，时间步的不同标记将被标准化，导致时间序列过于平滑。

$\mathrm{LayerNorm}(\mathbf{H})=\left\{\left.\frac{\mathbf{h}_n-\mathrm{Mean}(\mathbf{h}_n)}{\sqrt{\mathrm{Var}(\mathbf{h}_n)}}\right|n=1,\ldots,N\right\}$

Feed-forward network Transformer 采用前馈网络（FFN）作为编码 token 表示的基本构建块，并且它同样适用于每个 token。如上所述，在普通 Transformer 中，形成令牌的同一时间戳的多个变量可能会被错误定位，并且过于本地化，无法揭示足够的信息用于预测。在反转版本中，FFN 利用每个变量标记的系列表示。通过通用逼近定理（Hornik，1991），他们可以提取复杂的表示来描述时间序列。通过倒置块的堆叠，它们致力于对观察到的时间序列进行编码，并使用密集的非线性连接对未来序列的表示进行解码，这与完全建立在 MLP 上的最新作品一样有效（Tolstikhin 等人，2021；Das等人，2023）。

更有趣的是，对独立时间序列的相同线性操作，作为最近的线性预测器（Zeng et al., 2023）和通道独立性（Nie et al., 2023）的结合，可以指导我们理解系列表示。最近对线性预测器的重新审视（Li et al., 2023）强调，由 MLP 提取的时间特征应该在不同的时间序列中共享。我们提出了一个合理的解释，即 MLP 的神经元被教导描绘任何时间序列的内在属性，例如幅度、周期性，甚至频谱（神经元作为滤波器），作为比 MLP 更有利的预测表示学习器在时间点上应用自注意力。通过实验，我们验证了分工有助于享受第 4.3 节中线性层的好处，例如如果提供扩大的回溯序列则可以提升性能，以及对未见变量的泛化能力。

Self-attention 虽然以前的预测器通常采用注意力机制来促进时间依赖性建模，但逆模型将一个变量的整个系列视为一个独立的过程。具体来说，通过全面提取每个时间序列的表示 $\mathbf{H}=\{\mathbf{h}_{0},\ldots,\mathbf{h}_{N}\}\in\mathbb{R}^{N\times D}$ ，自注意力模块采用线性投影来获取查询、键和值 $\mathbf{Q},\mathbf{K},\mathbf{V}\in\mathbb{R}^{N\times d_{k}}$ ，其中 dk 是投影维度。

将 $\mathbf{q}_i,\mathbf{k}_j\in\mathbb{R}^{d_k}$ 表示为特定查询和一个（变量）标记的键，我们注意到前 Softmax 分数的每个条目都被公式化为 $\mathbf{A}_{i,j}=(\mathbf{Q}\mathbf{K}^{\top}/\sqrt{d_{k}})_{i,j}\propto\mathbf{q}_{i}^{\top}\mathbf{k}_{j}.$ 。由于每个标记之前都在其特征维度上进行了标准化，因此条目可以在一定程度上揭示变量之间的相关性，并且整个得分图 $\mathbf{A}\in\mathbb{R}^{N\times N}$ 展示了成对变量标记之间的多元相关性。因此，高度相关的变量将在下一次与值 V 的表示交互中获得更大的权重。基于这种直觉，所提出的机制被认为对于多元序列预测来说更加自然和可解释。我们在第 4.3 节和附录 E.1 中进一步提供了分数图的可视化分析。

四、实验

我们在各种时间序列预测应用程序上全面评估了所提出的 iTransformer，验证了所提出框架的通用性，并进一步深入研究了将 Transformer 组件应用于时间序列倒维的有效性。

Datasets 我们在实验中广泛包含 7 个真实世界数据集，包括 Autoformer 使用的 ECL、ETT（4 个子集）、Exchange、Traffic、Weather（Wu 等人，2021）、LSTNet 中提出的太阳能数据集（Lai 等人，2021）。，2018），以及在 SCINet 中评估的 PEMS（4 个子集）（Liu 等人，2022a）。我们还在附录 F.4 中提供了市场实验（6 个子集）。它记录了支付宝在线交易应用程序的分钟采样服务器负载，具有数百个变量，我们始终优于其他基准。附录 A.1 中提供了详细的数据集描述。

4.1 预测结果

在本节中，我们进行了大量的实验，以评估我们提出的模型与先进的深度预测器的预测性能。

基线我们精心选择了 10 个公认的预测模型作为基准，包括 (1) 基于 Transformer 的方法：Autoformer (Wu et al., 2021)、FEDformer (Zhou et al., 2022)、Stationary (Liu et al., 2022)、Stationary (Liu et al., 2022) 2022b)、Crossformer (Zhang & Yan, 2023)、PatchTST (Nie et al., 2023)；（2）基于线性的方法：DLinear（Zeng et al., 2023）、TiDE（Das et al., 2023）、RLinear（Li et al., 2023）； (3) 基于 TCN 的方法：SCINet (Liu et al., 2022a)、TimesNet (Wu et al., 2023)。

主要结果 综合预测结果见表1，其中最好的为红色，次之为下划线。 MSE/MAE越低，表明预测结果越准确。与其他预测器相比，iTransformer 特别擅长预测高维时间序列。此外，PatchTST 作为之前的最先进技术，在 PEMS 的许多情况下都会失败，这可能源于数据集的剧烈波动，并且 PatchTST 的修补机制可能会失去对特定局部性的关注以应对快速波动。相比之下，所提出的聚合整个序列变化以进行序列表示的模型可以更好地应对这种情况。值得注意的是，作为显式捕获多元相关性的代表，Crossformer 的性能仍然低于 iTransformer，这表明来自不同多元变量的时间未对齐补丁的交互会给预测带来不必要的噪声。因此，原生 Transformer 组件能够胜任时间建模和多元关联，并且所提出的倒置架构可以有效地处理现实世界的时间序列预测场景。

表 1：多元预测结果，PEMS 的预测长度为 S ∈ {12, 24, 36, 48}，其他预测长度为 S ∈ {96, 192, 336, 720}，固定回溯长度 T = 96。结果是所有预测的平均值长度。 Avg 表示按子集进一步平均。完整结果列于附录 F.4。
在这里插入图片描述

4.2 ITRANSFORMERS GENERALITY

在本节中，我们通过将我们的框架应用于 Transformer 及其变体来评估 iTransformers，这些变体通常解决自注意力机制的二次复杂性，包括 Reformer (Kitaev et al., 2020)、Informer (Li et al., 2021) 、Flowformer（Wu 等人，2022）和 FlashAttention（Dao 等人，2022）。展示了令人惊讶和有希望的发现，表明简单的倒置视角可以增强基于 Transformer 的预测器，提高性能、效率、对未见变量的概括以及更好地利用历史观测结果。

性能提升我们根据表2中报告的性能提升来评估transformer和相应的ittransformer。值得注意的是，该框架不断改进各种transformer。总体而言，它在Transformer上的平均推广率为38.9%，在Reformer上为36.1%，在Informer上为28.5%，在Flowformer上为16.8%，在Flashformer上为32.2%，这揭示了之前Transformer架构在时间序列预测上的不当使用。此外，由于我们的倒置结构在变量维度上采用了注意机制，因此引入具有线性复杂性的有效注意本质上解决了由于变量众多而导致的计算问题。这在现实应用中很普遍，但对于通道独立性来说可能会消耗资源(Nie et al.， 2023)。因此，ittransformer的思想可以在基于transformer的预测器上广泛实践，以利用蓬勃发展的高效注意机制。

表2:倒置框架所获得的性能提升。Flashformer是指配备硬件加速FlashAttention的变压器(Dao et al.， 2022)。我们报告了平均性能和相对的MSE降低(提升)。完整结果见附录F.2。
在这里插入图片描述
变量泛化通过对vanilla transformer进行反求，模型被赋予了对未知变量的泛化能力。首先，得益于输入令牌数量的灵活性，变量通道的数量不再受到限制，因此可以从训练和推理中变化。此外，前馈网络同样应用于ittransformer中的独立变量令牌。如前所述，作为过滤器的神经元学习任何时间序列的内在模式，这些模式倾向于在不同的变量之间共享和转移。

为了验证假设，我们将反转与另一种泛化策略进行比较:通道独立，训练共享骨干来预测所有变量。我们将每个数据集的变量划分为5个文件夹，只使用一个文件夹的20%的变量训练模型，直接预测所有变量而不进行微调。我们在图5中比较了性能，每个柱状图表示所有文件夹的平均结果，以避免分区的随机性。ci - transformer在推理过程中需要很长时间逐一预测每个变量，而ittransformer直接预测所有变量并且通常呈现较小的增长，这表明FFN有能力学习可转移的时间序列表示。这为在ittransformer上构建基础模型留下了一个潜在的方向，在这个基础模型中，具有不同数量变量的多种多元时间序列可以可行地一起训练。

在这里插入图片描述
图5:对不可见变量的泛化性能。我们将每个数据集的变量分成5个文件夹，用20%的变量训练模型，并使用部分训练的模型来预测所有的变量。变压器可以有效地训练和预测，具有良好的通用性。

以往的研究发现 变形金刚的预测性能并不一定随着回看长度的增加而提高(Nie et al.， 2023;Zeng et al.， 2023)，这可以归因于对不断增长的输入的注意力分散。然而，期望的性能改进通常是基于线性预测的，理论上由统计方法支持(Box & Jenkins, 1968)，利用扩大的历史信息。由于注意力和前馈网络的工作维度被颠倒，我们在图6中通过增加回顾长度来评估变压器和变压器的性能。结果令人惊讶地验证了在时间维度上利用mlp的合理性，这样变形金刚就可以从扩展的回顾窗口中受益，从而获得更精确的预测。

在这里插入图片描述
图6:回溯长度T∈{48,96,192,336,720}，固定预测长度S = 96时的预测效果。虽然基于Transformer的预测器的性能不一定会从增加的回看长度中受益，但倒置的框架使vanilla Transformer及其变体在扩大的回看窗口上具有改进的性能。

4.3模型分析

Ablation study 为了验证Transformer组件的合理业务，我们提供了详细的烧蚀，包括替换组件(Replace)和移除组件(w/o)实验。结果列在表3中。利用对变量维度的关注和对时间维度的前馈的变换通常能获得最好的性能。值得注意的是，香草Transformer(第三行)的性能在这些设计中表现最差，揭示了传统架构的潜在风险，我们在附录E.3中详细描述了这一点。

表3:变压器的烧蚀。我们替换各自维度上的不同组件，以学习多变量相关性(Variate)和序列表示(Temporal)，以及组件移除。这里列出了所有预测长度的平均结果。
在这里插入图片描述
Analysis of series representations 为了进一步验证前馈网络更倾向于提取序列表示的说法。我们基于中心核对齐(CKA)相似度进行表征分析(Kornblith et al.， 2019)。较高的CKA表示更相似的表示。对于Transformer变体和ittransformer，我们计算第一个和最后一个块的输出特征之间的CKA。值得注意的是，之前的研究表明，时间序列预测作为一种低级的生成任务，更倾向于较高的CKA相似度(Wu et al.， 2023;Dong et al.， 2023)，以获得更好的性能。如图7所示，显示了一条清晰的分界线，这意味着itransformer通过倒维学习了更合适的级数表示，从而实现了更准确的预测。研究结果也主张对逆变变压器的预测骨干进行根本性的改造。

多元相关分析 通过将多变量相关的任务分配给注意机制，学习到的地图具有增强的可解释性。我们在图7中展示了Solar-Energy系列的案例可视化，它在回顾和未来窗口中具有明显的相关性。可以观察到，在浅注意层，学习映射与原始输入序列的相关性有很多相似之处。随着它深入到更深的层次，学习映射逐渐变得与未来序列的相关性相似，这验证了反向操作为关联提供了可解释的注意，并且在前馈过程中编码过去和解码未来的过程本质上是在序列表示中进行的。

在这里插入图片描述
图7:序列表示和多变量相关性分析。左图:《变形金刚》和《变形金刚》的MSE和CKA相似度比较。较高的CKA相似性表明更倾向于准确预测的表示。右图:原始时间序列与反向自我注意学习得分图的多变量相关性的案例可视化。

Efficient training strategy 由于自我关注的二次复杂性，在大量变量上进行训练可能是压倒性的，这在现实世界中很常见。除了有效的注意力机制外，我们还利用先前证明的变量生成能力，提出了一种新的高维多元序列训练策略。具体来说，我们在每批数据中随机选择一部分变量，只使用选定的变量来训练模型。由于我们的反演使得变量通道的数量是灵活的，所以模型可以预测所有的变量进行预测。如图8所示，我们提出的策略的性能仍然可以与全变量训练相媲美，而内存占用可以显着减少。

在这里插入图片描述
图8:高效训练策略的分析。虽然性能(左)在具有不同采样比率的每个批次的部分训练变量上保持稳定，但内存占用(右)可以大大减少。我们在附录D中提供了综合的模型效率分析。

五、结论及未来工作

考虑到多元时间序列的特点，我们提出了在不修改任何固有模块的情况下对Transformer的结构进行反转的ittransformer。iTransformer将独立序列作为变量标记，通过注意捕获多变量相关性，并利用层归一化和前馈网络学习序列表示。在实验中，ittransformer实现了最先进的性能，并通过有希望的分析显示出显着的框架通用性。在未来，我们将探索大规模的预训练和更多的时间序列分析任务。

A实现细节

A.1数据集描述

我们在7个真实数据集上进行了实验，以评估所提出的变压器的性能，包括:(1)ETT (Li et al.， 2021)包含2016年7月至2018年7月的7个电力变压器因素。有四个子集，其中ETTh1和ETTh2每小时记录一次，ETTm1和ETTm2每15分钟记录一次。(2) Exchange (Wu et al.， 2021)收集了8个国家1990 - 2016年的每日汇率面板数据。(3) Weather (Wu et al.， 2021)包括马克斯普朗克生物地球化学研究所气象站2020年每10分钟采集的21个气象因子。(4) ECL (Wu et al.， 2021)记录了321个客户的小时用电量数据。(5) Traffic (Wu et al.， 2021)收集了2015年1月至2016年12月旧金山湾区高速公路862个传感器测量的每小时道路占用率。(6) solar - energy (Lai et al.， 2018)记录了2006年137个光伏电站的太阳能发电量，每10分钟采样一次。(7) PEMS包含加州公共交通网络数据，通过5分钟窗口收集。我们使用与sciet相同的四个公共子集(PEMS03, PEMS04, PEMS07, PEMS08) (Liu et al.， 2022a)。

除了广泛用作预测基准的公共数据集外，我们还收集了一组真实应用程序的Market数据集，该数据集记录了2023年1月30日至2023年4月9日期间支付宝在线交易的分钟采样服务器负载，变量数量从285到759不等。它包括6个子数据集，这些子数据集根据不同的事务域进行划分。

我们遵循与TimesNet中使用的相同的数据处理和训练-验证-测试集分割协议(Wu et al.， 2023)，其中训练、验证和测试数据集按照时间顺序严格划分，以确保没有数据泄漏问题。对于预测设置，我们将ETT、Weather、ECL、Solar-Energy、PEMS和Traffic中的回溯序列长度固定为96，预测长度变化为{96,192,336,720}。对于PEMS数据集，预测长度在{12,24,36,48}中变化，这与该数据集上的最新技术SCINet相同。对于Market数据集，回溯包含过去一天的144个时间点的观测，预测长度在{12,24,72,144}中变化。数据集的详细信息见表4。

A.2实现细节

在这里插入图片描述

表4:详细的数据集描述。Dim表示每个数据集的变量数。Dataset Size分别表示(Train, Validation, Test)分割中时间点的总数。预测长度表示未来要预测的时间点，每个数据集中包含四个预测设置。频率为时间点的采样间隔。在这里插入图片描述
所有实验都在PyTorch (Paszke et al.， 2019)中实现，并在单个NVIDIA P100 16GB GPU上进行。我们使用ADAM (Kingma & Ba, 2015)，初始学习率为{10−3,5×10−4,10−4}，L2损失进行模型优化。批大小统一设置为32，训练epoch数固定为10。我们在我们提出的模型L∈{2,3,4}中设置倒置的Transformer块的数量。序列表示的维数D从{256,512}开始设置。我们复制的所有比较的基线模型都是基于TimesNet (Wu et al.， 2023) Repository的基准实现的，它是基于每个模型的原始论文或官方代码提供的配置构建的。在算法1中给出了ittransformer的伪代码。我们还报告了表5中不同随机种子下5次运行下ittransformer性能的标准差，表明ittransformer的性能是稳定的。

Table 5: Robustness of iTransformer performance. The results are obtained from five random seeds. 在这里插入图片描述

B消融研究

为了详细说明Transformer组件的合理业务，我们对替换组件(Replace)和移除组件(w/o)进行了详细的烧蚀。由于论文数量的限制，平均结果列在表3中，我们在这里提供详细的结果和分析。

如表6所示，在各种架构设计中，iTransformer普遍表现出较好的性能，它通过自关注学习多元相关性，通过FFN编码序列表示。然而，普通Transformer的排列可能导致性能下降，这表明Transformer组件在时间序列模态上的误用。基于第二种(两种关注)和第三种(普通的Transformer)设计的相对较差的结果，其中一个原因可能在于滞后时间序列的时间标记上的关注模块，我们在第E.3节中使用数据集支持对此进行了详细说明。

同样值得注意的是，在两个维度上应用FFN也可以在具有小变量数的数据集上获得公平的性能(例如具有21个变量的Weather)。然而，随着具有挑战性的多变量预测任务中变量数量的增加，捕获多变量相关性的重要性越来越突出。我们注意到变量的异质性很难被普通的Transformer考虑。在嵌入过程中，变量被投影到不可区分的通道中，忽略了不一致的物理测量，从而无法保持变量的独立性，更不能捕获和利用多变量相关性。因此，通过结合用于变量相关的高级关注模块，第一种(ittransformer)和第五种(关注变量)设计在具有挑战性的多变量数据集中表现得更有效。

总之，时间依赖性和多变量相关性对于多变量时间序列预测都很重要。所提出的ittransformer采用自关注模块来解除变量令牌之间的相关性，证明比前馈网络更强大和可解释，从而进一步提高了具有挑战性的多变量数据集的性能并增强了模型容量。

C超参数灵敏度

我们根据以下因素评估了ittransformer的超参数敏感性:学习率lr, Transformer块的数量L和变量令牌的隐藏维D。结果如图9所示。我们发现，当变量数量较大时，学习率作为最常见的影响因素应该谨慎选择(ECL, Traffic)。在ittransformer中，块数和隐藏维度本质上并不倾向于尽可能大。在这里插入图片描述
图9:关于学习率、Transformer块的数量和变量令牌的隐藏维度的超参数敏感性。以回顾窗长度T = 96和预测窗长度S = 96记录结果。

D模型效率

我们全面比较了以下模型的预测性能、训练速度和内存占用:ittransformer, ittransformer具有我们的高效训练策略，ittransformer具有高效流注意模块(Wu et al.， 2022);线性模型:DLinear (Zeng等人，2023)和TiDE (Das等人，2023);变形金刚:变形金刚(Vaswani et al.， 2017)， PatchTST (Nie et al.， 2023)和Crossformer (Zhang & Yan, 2023)。使用官方模型配置和相同的批量大小记录结果。在图10中，我们比较了两个代表性数据集(Weather中的21个变量和Traffic中的862个变量)下96个时间步长的效率。

表6:变压器烧蚀的完整结果。除了删除Transformer的特定组件外，我们还在各自的维度上应用不同的组件来学习多变量相关性(Variate)和序列表示(Temporal)。
在这里插入图片描述

在这里插入图片描述
简而言之，在变量相对较少的数据集(天气)中，ittransformer的效率超过其他transformer。在具有众多变量(流量)的数据集中，内存占用基本上与transformer变量相同，但ittransformer可以更快地训练。基于注意力模块的复杂度O(N2)，其中N是令牌的数量，Transformer在这种情况下的效率超过ittransformer，因为对于时间令牌N = 96，对于变量令牌N = 862。同时，由于可以显式地利用多元相关性，iTransformer在多个变量上实现了更好的性能。通过采用线性复杂度关注(Wu et al.， 2022)或如图8所示提出的高效训练策略(对20%变量进行训练并预测所有变量)，ittransformer可以享受与线性模型相当的速度和内存占用。此外，这两种策略可以同时采用。

E SHOWCASES

E.1 VISUALIZATION OF MULTIVARIATE CORRELATIONS

通过对变量标记使用注意机制，得到的学习映射具有更强的可解释性。为了直观地理解多变量相关性，我们在图11中提供了三个随机选择的Solar-Energy时间序列的可视化案例。我们通过以下公式提供原始序列中每个变量的Pearson相关系数:

$\rho_{xy}=\frac{\sum_i(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum_i(x_i-\bar{x})^2}\sqrt{\sum_i(y_i-\bar{y})^2}},$

其中xi, yi∈R遍历待关联的成对变量的所有时间点。由于数据集在白天和夜晚表现出明显的季节变化，所有案例在回顾和预报窗口都具有明显的多变量相关性。在每个案例的第二行，我们在第一层和最后一层提供了学习到的自关注模块的pre-Softmax映射。正如我们在浅层注意层(左)中观察到的，我们发现学习映射与原始回顾序列的相关性相似。随着我们进入更深的层(右)，学习到的地图逐渐变得更类似于要预测的未来序列的相关性。这表明倒置操作允许在关联中获得可解释的注意，并且在层堆叠期间通过序列表示进行过去的编码和未来的解码。
在这里插入图片描述
图11:回顾序列和未来序列的多元相关关系与不同层次的反向自注意学习得分图。所有案例都来自太阳能数据集。

我们在图12中展示了另一个有趣的观察结果，表明ittransformer的注意力模块增强了可解释性。我们从市场中随机选择多变量时间序列。在此数据集中，每个变量表示一类服务接口的监控值，并且服务可以进一步分组为精细的应用程序类别。我们将这些变量划分为相应的应用程序(如顶部栏App所示)，这样相邻的变量属于同一应用程序，并通过顶部栏显示应用程序索引。

我们将变量的时间序列可视化，并用变量之间特定相关性的标记绘制学习到的多变量相关性。一方面，我们观察到多元相关图中明显的划分，表明变量的分组。一方面，标记的相关值可以反映原始序列的相关性，同一应用的变量的相似性比不同组的变量的相似性更接近。因此，高度相关的变量将被用于下一个相互作用，从而有利于多变量预测。在这里插入图片描述
图12:来自市场数据集的变量和学习到的多变量相关性的可视化。每个变量表示应用程序的监视接口值，并且可以将应用程序进一步分组为精细的类别。颜色条与图11共享。

E.2 VISUALIZATION OF PREDICTION RESULTS

为了在不同模型之间进行清晰的比较，我们在图13- 16中列出了四个代表性数据集的补充预测展示，这些数据集由以下模型给出:ittransformer, PatchTST (Nie et al.， 2023)， DLinear (Zeng et al.， 2023)， Crossformer (Zhang & Yan, 2023)， Autoformer (Wu et al.， 2021)， Transformer (Vaswani et al.， 2017)。在各种模型中，iTransformer预测了最精确的未来系列变化，并表现出卓越的性能。在这里插入图片描述
E.3 RISKS OF EMBEDDING MULTIVARIATE POINTS OF A TIMESTAMP

如上所述，先前Transformer的嵌入方法融合了表示潜在延迟事件和不同物理测量的多个变量，这可能无法学习以变量为中心的表示，从而导致无意义的注意图。我们提供了交通的可视化案例(Liu et al.， 2022a)，这是从洛杉矶不同地区城市道路上的传感器收集的。如图17所示，我们可以看到数据集的多变量时间序列之间具有很强的相关性，同时也表现出明显的相位偏移，这是由于每个序列所描述的道路占用率存在系统的时间滞后。由于传感器安装在高速公路的不同区域，一个事件(如交通堵塞)可以影响不同延迟的道路占用率。在这里插入图片描述

此外，我们观察到表6中第二和第三种Traffic设计的性能显著下降，这两种设计将注意力集中在时间令牌上。在我们看来，通过注意力捕捉时间依赖性并不是一个大问题。但它是基于这样一个事实，即每个时间戳的时间点本质上反映了相同的事件，以包含语义表示。由于时间点之间存在固有的延迟，除非模型有一个扩大的各自领域来了解衰减或因果过程，否则由于无意义的注意图，性能会大大降低。其他风险可能来自不同的变量测量，例如将Weather数据集中的不同气象指标(温度和降雨)组织在一起(Wu et al.， 2021)，以及ILI中相同观测的数量和比例(Wu et al.， 2023)。考虑到这些潜在的风险，iTransformer提出了一种新的范例，将整个系列嵌入为变量令牌，它可以对广泛的现实世界场景更健壮，例如延迟事件，不一致的测量，不规则(不均匀间隔)时间序列，监视器的系统延迟，以及生成和记录不同时间序列的时间间隔。