CROSSFORMER: TRANSFORMER UTILIZING CROSS- DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECAST

最新推荐文章于 2024-07-19 15:44:38 发布

萧宛亦

最新推荐文章于 2024-07-19 15:44:38 发布

阅读量121

点赞数 1

文章标签： transformer 深度学习人工智能

原文链接：https://arxiv.org/abs/2108.00154

版权

系列文章目录

交叉变换器:利用交叉维依赖进行多变量时间序列预测的变压器 ICLR 2023
https://github.com/Thinklab-SJTU/Crossformer

摘要

近年来，人们提出了许多用于多变量时间序列(MTS)预测的深度模型。特别是，基于transformer的模型已经显示出巨大的潜力，因为它们可以捕获长期依赖关系。然而，现有的基于transformer的模型主要关注于时间依赖性(跨时间依赖性)的建模，而往往忽略了不同变量之间的依赖性(跨维度依赖性)，这对MTS预测至关重要。为了填补这一空白，我们提出了Crossformer，这是一种基于变压器的模型，利用跨维依赖性进行MTS预测。在Crossformer中，输入MTS通过DSW (dimension - segment - wise)嵌入到二维矢量数组中，以保留时间和尺寸信息。然后提出了两阶段注意(Two-Stage Attention, TSA)层来有效捕获跨时间和跨维度的依赖关系。Crossformer利用DSW嵌入和TSA层，建立了一个分层编码器(HED)，利用不同尺度的信息进行最终预测。在六个真实世界数据集上的大量实验结果表明，Crossformer对以前的最先进技术具有有效性。

提示：以下是本篇文章正文内容

一、介绍

多元时间序列(MTS)是具有多个维度的时间序列，其中每个维度代表一个特定的单变量时间序列(例如天气的气候特征)。MTS预测的目的是利用MTS的历史价值来预测其未来价值。MTS预测有利于下游任务的决策，广泛应用于天气(Angryk et al.， 2020)、能源(Demirel et al.， 2012)、金融(Patton, 2013)等领域。随着深度学习的发展，人们提出了许多模型，并在MTS预测中取得了优异的成绩(Lea et al.， 2017;秦等，2017;Flunkert et al.， 2017;Rangapuram等人，2018;Li et al.， 2019a;Wu et al.， 2020;Li等人，2021)。其中，近期基于transformer的模型(Li et al.， 2019b;Zhou et al.， 2021;吴等，2021a;刘等，2021a;Zhou et al.， 2022;Chen et al.， 2022)由于能够捕捉长期时间依赖性(跨时间依赖性)而显示出巨大的潜力。

除了跨时间依赖性外，跨维度依赖性对MTS预测也很重要，即对于特定维度，来自其他维度相关序列的信息可能会改善预测。例如，在预测未来温度时，不仅历史温度，而且历史风速也有助于预测。以前的一些神经模型明确地捕获了跨维依赖性，即在潜在特征空间中保留维的信息，并使用卷积神经网络(CNN) (Lai等人，2018)或图神经网络(GNN) (Wu等人，2020;Cao et al.， 2020)捕捉它们的依赖性。然而，最近基于transformer的模型只是通过嵌入来隐式地利用这种依赖关系。通常，基于transformer的模型在同一时间步长将所有维度的数据点嵌入到特征向量中，并尝试捕获不同时间步长之间的依赖关系(如图1 (b)所示)。通过这种方式，可以很好地捕获跨时间依赖性，但不能捕获跨维度依赖性，这可能会限制它们的预测能力。

为了填补这一空白，我们提出了Crossformer，这是一个基于transformer的模型，它显式地利用了MTS预测的交叉维度依赖性。具体来说，我们设计了维度分段(DSW)嵌入来处理历史时间序列。在DSW嵌入中，首先将每个维度上的序列分割成若干段，然后嵌入到特征向量中。DSW嵌入的输出是一个二维矢量数组，其中两个轴分别对应时间和维度。然后，我们提出了两阶段注意(Two-Stage-Attention, TSA)层，以有效捕获二维矢量阵列之间的跨时间和跨维度依赖关系。Crossformer利用DSW嵌入和TSA层，建立了一个用于预测的分层编码器-解码器(HED)。在HED中，每一层对应一个尺度。编码器的上层合并下层输出的相邻片段，以在更大的尺度上捕获依赖关系。解码器层生成不同尺度的预测，并将它们相加作为最终预测。本文的贡献有:

1)我们深入研究了现有的基于transformer的MTS预测模型，发现这些模型没有很好地利用跨维度依赖性:这些模型只是将特定时间步长的所有维度的数据点嵌入到单个向量中，并专注于捕获不同时间步长的跨时间依赖性。如果没有充分和明确地挖掘和利用跨维度依赖关系，它们的预测能力是有限的。

2)我们开发了Crossformer，这是一个利用跨维依赖性进行MTS预测的Transformer模型。这是为数不多的转换器模型之一(也许是我们所知的第一个)，它明确地探索并利用了MTS预测的跨维依赖性。

3)在六个实际基准上的广泛实验结果表明，我们的Crossformer与以前的最先进的技术相比是有效的。具体来说，在58个不同预测长度和指标的设置中，Crossformer在36个设置中排名第一，在51个设置中排名第二。

二、相关工作

多元时间序列预测 MTS预测模型大致可分为统计模型和神经模型。向量自回归(VAR)模型(Kilian & L ~ Atkepohl, 2017)和向量自回归移动平均(VARMA)是典型的统计模型，它们假设线性跨维和跨时间依赖。随着深度学习的发展，人们提出了许多神经网络模型，并且经验证明这些模型的性能优于统计模型。TCN (Lea et al.， 2017)和DeepAR (Flunkert et al.， 2017)将MTS数据视为一个向量序列，并使用CNN/RNN捕获时间依赖性。LSTnet (Lai et al.， 2018)采用CNN捕获跨维依赖，RNN捕获跨时间依赖。另一类作品使用图神经网络(gnn)来明确捕获跨维依赖性以进行预测(Li et al.， 2018;Yu et al.， 2018;曹等，2020;吴等人，2020)。例如，MTGNN (Wu et al.， 2020)使用时间卷积和图卷积层来捕获跨时间和跨维度依赖关系。这些神经模型通过CNN或RNN捕获跨时间依赖性，这在建模长期依赖性方面存在困难。

MTS预测变压器 变形金刚(Vaswani等人，2017)在自然语言处理(NLP) (Devlin等人，2019)、视觉(CV) (Dosovitskiy等人，2021)和语音处理(Dong等人，2018)方面取得了成功。最近，许多基于变压器的模型被提出用于MTS预测，并显示出巨大的潜力(Li et al.， 2019b;Zhou et al.， 2021;吴等，2021a;刘等，2021a;Zhou et al.， 2022;Du et al.， 2022)。LogTrans (Li et al.， 2019b)提出了LogSparse attention，将Transformer的计算复杂度从O(L2)降低到O(l_ (l_)2 _(1)。Informer (Zhou et al.， 2021)通过KL散度估计利用注意力分数的稀疏性，提出了复杂度为O(L log L)的ProbSparse自注意。Autoformer (Wu et al.， 2021a)为Transformer引入了一种带有自相关机制的分解架构，也实现了O(L log L)复杂度。Pyraformer (Liu et al.， 2021a)引入了一个金字塔注意力模块，该模块总结了不同分辨率下的特征，并以o (L)的复杂度对不同范围的时间依赖性进行建模。FEDformer (Zhou et al.， 2022)提出时间序列在频域具有稀疏表示，并开发了复杂度为O(L)的频率增强变压器。Preformer (Du et al.， 2022)将嵌入的特征向量序列划分为多个片段，并利用基于片段的相关性关注进行预测。这些模型主要侧重于降低跨时间依赖建模的复杂性，但忽略了对MTS预测至关重要的跨维度依赖。

在这里插入图片描述
图1:DSW嵌入的说明。(a)在ETTh1上训练的2层Transformer的自关注得分，表明MTS数据倾向于被分割。(b)前人基于变压器的模型嵌入方法(Li et al.， 2019b;Zhou et al.， 2021;吴等，2021a;Liu et al.， 2021a):将同一步不同维度的数据点嵌入到一个向量中。© Crossformer的DSW嵌入:在每个维度中，附近的点随着时间的推移形成一个段进行嵌入。

视觉变压器 Transformer最初应用于NLP进行序列建模，最近的工作将Transformer应用于CV任务来处理图像(Dosovitskiy等人，2021;Touvron等人，2021;刘等，2021b;Chen et al.， 2021;Han et al.， 2021)。这些作品在CV的各种任务上达到了最先进的表现，并启发了我们的工作。ViT (Dosovitskiy et al.， 2021)是视觉变压器的先驱之一。ViT的基本思想是将图像分割成不重叠的中等大小的小块，然后将这些小块重新排列成一个序列，输入到Transformer中。将图像分割成小块的想法启发了我们的DSW嵌入，其中MTS被分割成维度分段。Swin Transformer (Liu et al.， 2021b)在窗口内执行局部关注以降低复杂性，并通过合并图像补丁构建分层特征映射。读者可以参考最近的调查(Han et al.， 2022)对视觉变压器的全面研究。

三、方法论

在多元时间序列预测中，给定历史 $\mathbf{x}_{1:T}\in\mathbb{R}^{T\times D}$ ，目标是预测时间序列 $\mathbf{x}_{T+1:T+\tau}\in \mathbb{R}^{\tau\times D}$ 的未来值，其中τ， T分别为未来和过去的时间步长2。d1是维数。一个自然的假设是这些D系列是相互关联的(例如天气的气候特征)，这有助于提高预报的准确性。为了利用跨维度依赖，在第3.1节中，我们使用维度分段(DSW)嵌入嵌入MTS。在第3.2节中，我们提出了一个两阶段注意(TSA)层，以有效地捕获嵌入段之间的依赖关系。在第3.3节中，我们使用DSW嵌入和TSA层构建了一个分层编码器-解码器(HED)，以利用不同尺度的信息进行最终预测。

3.1维度分段嵌入

为了激励我们的方法，我们首先分析了以前基于transformer的MTS预测模型的嵌入方法(Zhou et al.， 2021;吴等，2021a;刘等，2021a;周等人，2022)。如图1 (b)所示，现有方法将同一时间步长的数据点嵌入到一个向量中: $\mathbf{x}_{t}\to\mathbf{h}_{t},\mathbf{x}_{t}\in\mathbb{R}^{D},\mathbf{h}_{t}\in\mathbb{R}^{d_{model}}$ ，其中xt表示步长t的所有D维数据点。这样，将输入 $\mathbf{x}_{1:T}$ 嵌入到t向量 $\{\mathbf{h}_{1},\mathbf{h}_{2},\ldots,\mathbf{h}_{T}\}$ 。然后捕获T向量之间的依赖关系进行预测。因此，以前基于transformer的模型主要捕获跨时间依赖性，而在嵌入期间没有显式捕获跨维度依赖性，这限制了它们的预测能力。

Transformer最初是为NLP开发的(Vaswani et al.， 2017)，其中每个嵌入向量代表一个信息词。对于MTS，单个步骤的值提供的信息很少。同时在时域上与邻近值形成信息模式。图1 (a)为原始Transformer用于MTS预测的典型注意力得分图。我们可以看到，注意力值有分割的趋势，即相近的数据点具有相似的注意力权重。

基于以上两点，我们认为嵌入向量应该表示单个维度的序列段(图1 ©)，而不是表示单个步进的所有维度的值(图1 (b))。为此，我们提出了DSW (dimension - segment - wise)嵌入，将每个维度上的点划分为长度为Lseg的段，然后嵌入: 在这里插入图片描述
其中 $\mathbf{x}_{i,d}^{(s)}\in\mathbb{R}^{L_{seg}}$ 为d维中长度为 $L_{seg}$ 的第i段。为方便起见，我们假设T， τ可被 $L_{seg}$ 3整除。然后利用线性投影加上位置嵌入将每个线段嵌入到向量中:

在这里插入图片描述
式中， $\mathbf{E}\in\mathbb{R}^{d_{model}\times L_{seg}}$ 表示可学习的投影矩阵， $\mathbf{E}_{i,d}^{(pos)}\in\mathbb{R}^{d_{model}}$ 表示位置(i, d)的可学习位置嵌入。嵌入后，我们得到一个二维向量数组 $\mathbf{H}=\left\{\mathbf{h}_{i,d}|1\leq i\leq\frac{T}{L_{seg}},1\leq d\leq D\right\}$ ，其中每个hi,d表示一个单变量时间序列段。Du等人(2022)也采用了分割的思想，将嵌入的1D向量序列分割成多个片段来计算片段相关性，以增强局部性并降低计算复杂度。然而，像用于MTS预测的其他transformer一样，它没有显式地捕获跨维度依赖性。

3.2两阶段注意层

对于获得的2D阵列H，可以将其平面化为1D序列，以便可以将其输入到像ViT这样的规范变压器(Dosovitskiy等人，2021)。但我们有具体的考虑:1)与高宽轴可互换的图像不同，MTS的时间轴和维度轴具有不同的含义，因此应该区别对待。2)直接在二维阵列上应用自注意会导致 $O(D^2\frac{T^2}{L_{seg}^2})$ 的复杂性，这对于大d来说是无法承受的。因此，我们提出了两阶段注意(Two-Stage Attention, TSA)层来捕获二维矢量阵列之间的跨时间和跨维度依赖关系，如图2 (a)所示。

Cross-Time Stage跨时间阶段 给定一个二维数组 $\mathbf{Z}\in\mathbb{R}^{L\times D\times d_{model}}$ 作为TSA层的输入，其中L为段数，D为维数。这里的Z可以是DSW嵌入或更低TSA层的输出。为方便起见，下面我们用 $\mathbf{Z}_{i,:}$ 表示时间步长i的所有维度向量，用 $\mathbf{Z}_{:,d}$ 表示时间步长d的所有维度向量。在跨时间阶段，我们直接对每个维度应用多头自注意(MSA):

在这里插入图片描述式中1≤d≤d, LayerNorm表示Vaswani et al.(2017)中广泛采用的层归一化;Dosovitskiy等人(2021);Zhou等人(2021)，MLP表示多层(文中有两个)前馈网络，MSA(Q,K,V)表示多头自关注(Vaswani等人，2017)层，其中Q,K,V作为查询，键和值。所有维度(1≤d≤d)共用同一个MSA层。 $\hat{\mathbf{Z}}^{time},\mathbf{Z}^{time}$ 为MSA和MLP的输出。

跨时间阶段的计算复杂度为 $O(DL^{2})$ 。在此阶段之后，在 $\mathbf{Z}^{time}$ 中捕获同一维度中时间段之间的依赖关系。然后， $\mathbf{Z}^{time}$ 成为跨维度Stage的输入，以捕获跨维度依赖关系。
在这里插入图片描述
图2:TSA层。(a)两阶段注意层(Two-Stage Attention Layer)，处理一个表示多元时间序列的二维向量数组，每个向量代表原始序列的一段。整个向量数组经过跨时间阶段和跨维度阶段得到相应的依赖关系。(b)直接在跨维阶段使用MSA构建D-to-D连接导致复杂度为0 (D2)。©跨维度阶段的路由器机制:固定数量的©个“路由器”从各个维度收集信息，然后分发收集到的信息。复杂度降低为O(2cD) = O(D)。

Cross-Dimension Stage跨维度阶段 在DSW嵌入中，我们可以对长序列使用较大的Lseg来减少跨时间阶段的片段数L。而在Cross-Dimension Stage，我们不能划分维度，直接应用MSA会导致复杂度为 $O(D^{2})$ (如图2 (b)所示)，这对于具有大d的数据集来说是无法承受的，因此我们提出了针对潜在大d的路由器机制，如图2 ©所示。我们为每个时间步i设置一个固定数量的可学习向量(c << D)作为路由器。这些路由器首先通过在MSA中使用路由器作为查询，并将所有维度的向量作为键和值来聚合来自所有维度的消息。然后，路由器以维度向量作为查询，聚合消息作为键和值，将接收到的消息分配到各个维度。这样，就建立了D维之间的全对全连接: 在这里插入图片描述
其中 $\mathbf{R}\in\mathbb{R}^{L\times c\times d_{model}}$ (c为常数)为可学习向量数组，作为路由器。 $\mathbf{B}\in\mathbb{R}^{L\times c\times d_{model}}$ 是来自所有维度的聚合消息。 $\overline{\mathbf{z}}^{dim}$ 表示路由器机制的输出。所有时间步长(1≤i≤L)共享相同的 $\mathrm{MSA}_1^{dim},\mathrm{MSA}_2^{dim}.\hat{\mathbf{Z}}^{dim},\mathbf{Z}^{dim}$ 分别表示跳接输出和MLP输出。路由器机制将复杂度从 $O(D^2L)\text{ to }O(DL).$ )降低。在这里插入图片描述

将Eq. 3和Eq. 4相加，我们将这两个阶段建模为: 在这里插入图片描述

式中， $\mathbf{Z},\mathbf{Y}\in\mathbb{R}^{L\times D\times d_{model}}$ 分别为TSA层的输入和输出向量数组。注意，TSA层的总体计算复杂度为 $O(DL^2+DL)=O(DL^2)$ 。在跨时间和跨维度阶段之后，Z中的每两个片段(即 $\mathbf{Z}_{i_1,d_1},\mathbf{Z}_{i_2,d_2}$ )都被连接起来，因为在Y中捕获了跨时间和跨维度的依赖关系。

3.3分层编解码器

层次结构在变压器中广泛用于MTS预测，以捕获不同尺度的信息(Zhou et al.， 2021;Liu et al.， 2021a)。在本节中，我们使用提出的DSW嵌入，TSA层和段合并来构建分层编码器-解码器(HED)。如图3所示，上层利用更大尺度的信息进行预测。将不同尺度的预测值相加，输出最终结果。

Encoder 在编码器的每一层(第一层除外)中，将时域中相邻的每两个向量进行合并，得到在更粗层次上的表示。然后应用TSA层来捕获此规模的依赖关系。此过程建模为 $\mathbf{Z}^{enc,l}=\mathrm{Encoder}(\mathbf{Z}^{enc,l-1})\mathrm{:}$

在这里插入图片描述
式中，H为DSW嵌入得到的二维阵列; $\mathbf{Z}^{enc,l}$ 表示第l层编码器的输出; $\mathrm{M}\in\mathbb{R}^{d_{model}\times2d_{model}}$ 表示分段归并的可学习矩阵;[·]表示连接操作;l−1表示l−1层中每个维度的段数，如果不能被2整除，则将 $\mathbf{Z}^{enc,l-1}$ 填充到合适的长度; $\hat{\mathbf{Z}}^{enc,l}$ 表示第i层段合并后的数组。假设编码器中有N层，我们使用Zenc,0, $\mathbf{Z}^{enc,0},\mathbf{Z}^{enc,1},\ldots,\mathbf{Z}^{enc,N},(\mathbf{Z}^{enc,0}=\mathbf{H})$ 表示编码器的N + 1个输出。每个编码器层的复杂度为 $O(D\frac{T^{2}}{L_{seg}^{2}}).$ 。

Decoder 得到编码器输出的N + 1个特征数组，我们使用N + 1层(按0,1，N…索引)用于预测的解码器。第l层以第l层编码的数组为输入，输出第l层解码后的二维数组，其过程概括为: $\mathbf{Z}^{dec,l}={\mathrm{Decoder}}(\mathbf{Z}^{{dec},l-1},\mathbf{Z}^{enc,{l}}){:}$
在这里插入图片描述
式中 $\mathbf{E}^{(dec)}\in\mathbb{R}^{\frac\tau{Lseg}}\times D\times d_{model}$ 表示解码器的可学习位置嵌入。 $\tilde{\mathbf{Z}}^{dec,l}$ 为TSA的输出。MSA层以 $\tilde{\mathbf{Z}}_{:,d}^{dec,l}$ 作为查询， $\mathbf{Z}_{:,d}^{enc,l}$ 作为键和值，建立编码器和解码器之间的连接。MSA的输出记为 $\overline{\mathbf{Z}}_{:,d}^{dec,l}.\hat{\mathbf{Z}}^{dec,l},\mathbf{Z}^{dec,l}$ 分别为跳接输出和MLP输出。我们使用 $\mathbf{Z}^{dec,0},\mathbf{Z}^{enc,1},\ldots,\mathbf{Z}^{dec,N}$ 表示解码器输出。各解码器层的复杂度为 $O\left(D\frac{\tau(T+\tau)}{L_{seg}^{2}}\right)$ 。

对每一层的输出应用线性投影来得到这一层的预测。将各层预测相加，得到最终的预测结果(当l = 0时，， n)

在这里插入图片描述
其中， $\mathbf{W}^l\in\mathbb{R}^{L_{seg}\times d_{model}}$ 是一个可学习的矩阵，用于将向量投影到时间序列段。 $\mathbf{x}_{i,d}^{(s),l}\in\mathbb{R}^{L_{seg}}$ 表示预测的d维第i段。将第1层的所有片段重新排列，得到层预测展开， $\mathbf{x}_{T+1:T+\tau}^{pred,l}.$ 。将所有层的预测相加得到最终的预测展开式 $\mathbf{x}_{T+1:T+\tau}^{pred}.$ 。

表1:不同预测长度的MSE/MAE。加粗/下划线表示最佳/第二名。LSTMa、LSTnet、Transformer、Informer在前4个数据集上的结果来自Zhou et al.(2021)。
在这里插入图片描述

四、实验

4.1 PROTOCOLS

我们在Zhou et al.(2021)之后的六个真实数据集上进行了实验;Wu et al. (2021a)。1) ETTh1(电力变压器温度小时)，2)ETTm1(电力变压器温度分钟)，3)WTH(天气)，4)ECL(电力消耗负荷)，5)ILI(流感样疾病)，6)交通。前四个数据集的train/val/test分割与Zhou et al.(2021)相同，后两个数据集按照Wu et al. (2021a)的0.7:0.1:0.2的比例分割。

我们使用以下流行的MTS预测模型作为基线:1)LSTMa (Bahdanau等人，2015)，2)LSTnet (Lai等人，2018)，3)MTGNN (Wu等人，2020)，以及最近基于transformer的MTS预测模型:4)变压器(Vaswani等人，2017)，5)检波器(Zhou等人，2021)，6)自变换器(Wu等人，2021a)， 7)热变换器(Liu等人，2021a)和8)联馈变换器(Zhou等人，2022)。

我们使用与Zhou et al.(2021)相同的设置:训练/val/测试集使用训练集的均值和std进行零均值归一化。在每个数据集上，我们通过变化的未来窗口大小τ来评估性能。对于每个τ，过去的窗口大小T被视为搜索的超参数，这是最近MTS变压器文献中的常用协议(Zhou等人，2021;Liu et al.， 2021a)。我们以stride = 1滚动整个集合以生成不同的输入输出对。均方误差(MSE)和平均绝对误差(MAE)作为评价指标。所有实验重复5次，报告指标的平均值。我们的Crossformer只利用过去的序列来预测未来，而基线模型使用额外的协变量，如每天的小时数。关于数据集、基线、实现、超参数的详细信息见附录A。

4.2主要结果

如表1所示，Crossformer在大多数数据集以及不同的预测长度设置上显示出领先的性能，在总共58个案例中有36个top-1和51个top-2案例。值得注意的是，可能由于通过GNN显式地使用跨维度依赖，MTGNN优于许多基于transformer的基线。而MTGNN在现有的变压器MTS预测文献中很少进行比较。FEDformer和Autoformer在ILI上优于我们的模型。我们推测这是因为数据集ILI的规模较小，并且这两种模型在网络结构中引入了序列分解的先验知识，使得它们在数据有限的情况下表现良好。Crossformer在此数据集上的性能仍然优于其他基线。

在这里插入图片描述

图4:超参数影响和计算效率评估。(a) ETTh1上DSW嵌入对超参数段长度Lseg的MSE。(b) ETTh1上TSA层跨维阶段对超参数路由器数c的MSE。© ETTh1上相对于输入长度T的内存占用。(d)在不同维数的合成数据集上，相对于维数d的内存占用。

4.3消融研究

在我们的方法中，有三个组成部分:DSW嵌入，TSA层和HED。我们按照Zhou et al.(2021)对ETTh1数据集进行消融研究;Liu et al. (2021a)。我们使用Transformer作为基线，DSW+TSA+HED表示没有烧蚀的Crossformer。比较三种消融版本:1)DSW 2) DSW+TSA 3) DSW+HED。

我们分析表2所示的结果。1) DSW在大多数设置下比Transformer表现更好。DSW与Transformer的唯一区别在于嵌入方法，这表明了DSW嵌入的有用性和跨维依赖性的重要性。2) TSA不断提高预测精度。这说明对时间和维度进行区别对待是合理的。此外，TSA使得在维度数量很大的数据集上使用Crossformer成为可能(例如数据集Traffic的D = 862)。(3) DSW+HED与DSW比较，在短时间内，HED降低了预测精度，而在长时间内，HED提高了预测精度。可能的原因是，不同尺度的信息有助于长期预测。4)结合DSW, TSA和HED，我们的Crossformer在所有设置下都能产生最佳效果。

4.4超参数的影响

我们评估了两个超参数:段长度(Eq. 1中的Lseg)和TSA中的路由器数量(TSA的Cross-Dimension Stage中的c)对ETTh1数据集的影响。片段长度:在图4(a)中，我们将片段长度从4延长到24，并使用不同的预测窗口评估MSE。对于短期预测(τ = 24,48)，分段越小，结果越好，但预测精度较稳定。对于长期预测(τ≥168)，将片段长度从4延长到24会导致MSE降低。这表明长段应该用于长期预测。当τ = 336,720时，我们进一步将片段长度延长至48,MSE略大于24。可能的原因是24小时与该数据集的每日周期完全匹配，而48小时太粗糙，无法捕获细粒度的信息。TSA层路由器数:路由器数c控制各维度间的信息带宽。如图4(b)所示，当τ≤336时，从wt到c, Crossformer的性能是稳定的。当τ = 720时，MSE在c = 3时较大，在c≥5时减小并趋于稳定。在实践中，我们设置c = 10来平衡预测精度和计算效率.

4.5计算效率分析

表3比较了基于变压器的模型的每层理论复杂度。Crossformer编码器的复杂度是二次的w.r.t.t，但是对于使用大Lseq的长期预测，系数1 L2 seq项可以显著降低其实际复杂度。我们设置预测窗口τ = 336，并延长输入长度t。对于Crossformer, Lseg设置为24，这是τ≥168时的最佳值(见图4 (a))。图4 ©的结果表明，在测试长度范围内，五种方法中Crossformer的效率最好。理论上，当T趋于无穷时，Informer、Autoformer和FEDformer效率更高。在实践中，Crossformer在T不是很大的情况下(例如T≤104)表现更好。

表3:基于transformer的模型的每层计算复杂度。T表示过去序列的长度，τ表示预测窗口的长度，D表示维数，Lseg表示DSW在Crossformer中嵌入的段长度。
在这里插入图片描述
我们还评估了内存占用，而不是维度D的数量。对于没有明确建模的跨维度依赖的基线模型，D几乎没有影响。因此，我们将在4.3节中比较Crossformer和它的烧蚀版本。我们还评估了在跨维阶段直接使用MSA而不使用Router机制的TSA层，记为TSA(w/o Router)。从图4 (d)可以看出，没有TSA层的Crossformer (DSW和DSW+HED)的复杂度是二次的w.r.t.d。TSA(w/o Router)有助于降低复杂度，Router机制进一步使复杂度线性化，使得Crossformer可以处理d = 300的数据。此外，HED可以略微降低内存成本，我们分析这是因为段合并后上层的向量减少了(见图3)。除了内存占用，实际的运行时间评估如附录B.6所示。

五、结论及未来工作

我们提出了Crossformer，一个基于变压器的模型，利用跨维依赖性进行多变量时间序列(MTS)预测。具体来说，DSW (dimension - segment - wise)嵌入将输入数据嵌入到二维矢量数组中，以保留时间和维度信息。设计了两阶段注意(TSA)层来捕获嵌入阵列的跨时间和跨维度依赖性。利用DSW嵌入和TSA层，设计了一种分层编解码器(HED)来利用不同尺度的信息。在六个真实数据集上的实验结果表明，该方法优于以往的先进技术。

我们分析了工作的局限性，并简要讨论了未来的研究方向:1)在跨维度阶段，我们建立了维度之间的简单全连接，这可能会在高维数据集上引入噪声。最近的稀疏和高效的图转换器(Wu et al.， 2022)可以使我们的TSA层在这个问题上受益。2)本作品投稿后被接受的一篇同期作品(Zeng et al.， 2023)引起了我们的注意。它质疑变压器对MTS预测的有效性，并提出在六个数据集中的三个上优于所有变压器(包括我们的Crossformer)的DLinear(详细信息见附录B.2)。它认为主要原因是Transformer中的MSA是置换不变的。因此，提高变压器的保序能力是克服这一缺点的一个有希望的方向。3)考虑到用于MTS分析的数据集比用于视觉和文本的数据集要小得多，简单得多，除了新的模型，未来的研究还需要具有各种模式的大型数据集。

A DETAILS OF EXPERIMENTS

A.1基准测试数据集

我们在Zhou et al.(2021)之后对以下六个真实世界数据集进行了实验;Wu等(2021a): 1) ETTh1(电力变压器温度-小时)包含电力变压器两年的7项指标，包括油温、有效负荷等。数据点每小时记录一次，训练/val/测试为12/4/4个月。2) ETTm1(电力变压器温度-分钟)包含与ETTh1相同的指标，但数据点每15分钟记录一次。训练/val/测试分割与ETTh1相同。3) WTH (Weather)包含美国4年12个气象指标，包括能见度、风速等。训练/val/测试为28/10/10个月。4) ECL (Electricity Consuming Load)包含321个客户在两年内的每小时用电量(Kwh)。训练/val/测试是15/3/4个月。5) ILI(流感样疾病)包含2002年至2021年期间美国疾病控制和预防中心患者数据的7个每周记录指标。训练/验证/测试分割的比例为0.7:0.1:0.2。6)交通包含每小时的道路占用率，由旧金山湾区高速公路上的862个传感器在两年内测量。训练/验证/测试分割的比例为0.7:0.1:0.2。

ETTh1、ETTm1、WTH、ECL的列车/val/测试分割与Zhou等人(2021)相同，ILI和Traffic与Wu等人(2021a)相同。前四个数据集可在https://github.com/zhouhaoyi/ Informer2020上公开获取，后两个数据集可在https://github.com/thuml/ Autoformer上公开获取。

A.2基线方法

我们简要描述了所选择的基线:1)LSTMa (Bahdanau et al.， 2015)将输入MTS视为一个多维向量序列。它使用RNN构建一个编码器-解码器，并自动将目标未来的步骤与相关的过去对齐。2) LSTnet (Lai et al.， 2018)使用CNN提取跨维度依赖和短期跨时间依赖。通过RNN捕获长期的跨时间依赖性。源代码可从https://github.com/laiguokun/LSTNet获得。3) MTGNN (Wu et al.， 2020)使用GNN明确地利用了跨维度依赖。图学习层学习一个图结构，每个节点在MTS中代表一个维度，然后将图卷积模块与时间卷积模块交叉，分别显式捕获跨维和跨时间依赖关系。源代码可从https://github.com/nnzhan/MTGNN获得。4) Transformer封闭于原始Transformer (Vaswani et al.， 2017)，原始Transformer使用自关注机制捕获跨时间依赖性。使用Informer风格的一步生成解码器进行预测，因此在Informer中表示为Informer†(Zhou et al.， 2021)。
5) Informer (Zhou et al.， 2021)是一种基于transformer的模型，使用ProbSparse自关注来捕获跨时间依赖性进行预测。Transformer和Informer的源代码可从https://github.com/zhouhaoyi/Informer2020获得。6) Autoformer (Wu et al.， 2021a)是一种基于transformer的模型，使用带有自相关机制的分解架构来捕获跨时间依赖性进行预测。源代码可从https://github.com/thuml/Autoformer获得。7) Pyraformer (Liu et al.， 2021a)是一种基于transformer的模型，通过金字塔注意力模块学习时间序列的多分辨率表示，以捕获跨时间依赖性进行预测。源代码可从https://github.com/alipay/Pyraformer获得。8) FEDformer (Zhou et al.， 2022)是一种基于变压器的模型，它使用带有频率增强块的季节趋势分解来捕获预测的跨时间依赖性。源代码可从https://github.com/MAZiqing/FEDformer获得。

A.3 超参数选择及实现细节

A.3.1主要实验

在主要实验中，我们使用了具有3层编码器的Crossformer。配置TSA c层路由器个数为10。对于数据集ETTh1、ETTm1、WTH和ILI，将隐藏状态模型的维数设置为256，多头注意的头数设置为4;对于数据集ECL和Traffic，将隐藏状态模型的维数设置为64，多头关注的头数设置为2。通过网格搜索从{6,12,24}中选择段长度Lseg。我们使用MSE作为损失函数，批大小设置为32。使用Adam优化器进行训练，通过网格搜索从{5e-3, 1e-3, 5e-4, 1e-4, 5e-5, 1e-5}中选择初始学习率。epoch的总数为20。如果验证损失在三个周期内没有减少，训练过程将提前停止。

对于基线模型，如果原始论文在我们使用的数据集上进行实验，则使用原始论文中推荐的超参数(输入长度T除外)，包括层数，隐藏状态维数等。否则，使用验证集通过网格搜索选择超参数。

继Zhou et al.(2021)之后，在数据集ETTh1, WTH, ECL和Traffic上，对于不同的预测长度τ，输入长度T从{24,48,96,168,336,720}中选择;对于ETTm1，输入长度从{24,48,96,192,288,672}中选择;在ILI中，输入长度从{24,36,48,60}中选择。

包括Crossformer和基线在内的所有模型都在PyTorch中实现，并在具有48GB内存的单个NVIDIA Quadro RTX 8000 GPU上进行训练。

A.3.2效率分析

为了评估主论文图4©中输入长度T的计算效率，我们将所有基于transformer的模型的超参数对齐如下:预测长度τ设置为336，编码器层数设置为2，隐藏状态dmodel的维数设置为256，多头注意的头数设置为4。为了评估计算效率与主论文图4(D)中维数D的关系，我们将Crossformer烧蚀版本的超参数对齐如下:输入长度T和预测长度τ均设为336，编码器层数设为3,dmodel设为64，多头注意头数设为2。计算效率分析部分的实验是在单个内存为11GB的NVIDIA GeForce RTX 2080Ti GPU上进行的。

A.4 DETAILS OF ABLATION VERSIONS OF CROSSFORMER

我们将烧蚀研究中使用的模型描述如下:1)DSW代表没有TSA和HED的Crossformer。通过DSW嵌入将输入嵌入并平化为1D序列，以输入到原始变压器。这个模型和Transformer之间的唯一区别是嵌入方法。2) DSW+TSA表示没有HED的Crossformer。与Crossformer相比，编码器不使用分段合并来捕获不同尺度的依赖关系。解码器采用编码器的最终输出(即Zenc,N)作为输入，而不是使用编码器在每个刻度的输出。3) DSW+HED代表未经过TSA的Crossformer。在每个编码器层和解码器层，二维矢量阵列被平面化成一维序列，输入到原始自关注层进行依赖捕获。

B额外实验结果

B.1展示了主要结果

图5显示了预测长度τ = 288的ETTm1数据集的三个维度的预测情况。对于维度“HUFL”，所有五个模型都捕获了周期模式，但Crossformer最接近基本事实。对于“HULL”，Pyraformer无法从噪声数据中捕获周期模式。对于“LUFL”，当数据没有明确的周期模式时，MTGNN、FEDformer和Crossformer模型捕捉了其趋势，结果明显优于其他两种模型。

在这里插入图片描述
图5:预测长度τ = 288的ETTm1数据集的高有用负荷(HUFL)、高无用负荷(HULL)和低有用负荷(LUFL)三个维度的预测案例。红/蓝曲线代表真实/预测。每一行代表一个模型，每一列代表一个维度。

图6显示了预测长度τ = 336的WTH数据集的三个维度的预测情况。对于维度“DBT”，所有五个模型都捕获周期性模式。对于“DPT”，Autoformer和FEDformer不能捕捉到数据的增加趋势。对于“WD”，所有模型都从噪声数据中捕获周期模式，并且MTGNN和Crossformer输出的曲线比其他三种模型更清晰。

B.2与额外方法的比较

我们进一步比较了另外两种未经过同行评议(Grigsby et al.， 2022)或在本文提交后被接受的并发方法(Zeng et al.， 2023):1) STformer (Grigsby et al.， 2022)，一种基于transformer的模型，直接将多元时间序列x1:T∈RT×D平展为1D序列，输入到transformer;2) DLinear (Zeng et al.， 2023)，一种具有季节趋势分解的简单线性模型，挑战了基于变压器的MTS预测模型。结果如表4所示，由于LSTMa和LSTnet与其他模型没有竞争关系，故省略。STformer的基本思想与我们的Crossformer相似:它们都将1-D的注意力扩展到2D。跨维依赖性的显式利用使得STformer在ETTh1, ETTm1和WTH上与以前基于transformer的模型竞争，特别是在短期预测方面。然而，STformer直接将原始的2-D时间序列扁平化为1-D序列，然后输入到Transformer。这种简单的方法不区分时间轴和尺寸轴，计算效率低。因此，除了短期预测性能良好外，STformer在长期预测方面存在困难，并且在高维数据集(ECL和Traffic)上遇到内存不足(OOM)问题。而Crossformer则使用DSW嵌入来捕获本地依赖并降低复杂性。为了解决时间轴和维度轴的异构性，设计了带路由器机制的TSA层，进一步提高了效率。

在这里插入图片描述
图6:预测长度τ = 336的WTH数据集的干球温度(DBT)、露点温度(DPT)和风向(WD)三个维度的预测案例。红/蓝曲线代表真实/预测。每一行代表一个模型，每一列代表一个维度。

DLinear与我们的Crossformer在ETTh1和ETTm1上相当(τ≤96);在ILI上具有与FEDformer相似的性能;在WTH上比Crossformer性能差;在ETTm1 (τ≥288)、ECL和Traffic上优于所有基于变压器的模型，包括我们的Crossformer。考虑到它的简单性，性能令人印象深刻。在此基础上，分析了Crossformer的局限性，并提出了今后的改进方向:

1)在TSA层的Cross-Dimension Stage，我们简单地利用router机制在D维之间建立了一个all-to-all的连接。除了捕获跨维依赖性之外，这种全连接还引入了噪声，特别是对于高维数据集。我们认为高维数据具有稀疏特性:每个维度只与所有维度的一小部分相关。因此，利用稀疏性来降低噪声，提高TSA层的计算效率是一个很有前途的方向。

DLinear的作者(Zeng et al.， 2023)认为基于transformer的模型难以保持有序信息，因为注意机制是排列不变的，并且注入模型的绝对位置嵌入不足以用于时间序列预测，这是一个顺序敏感的任务。Yun等人(2020)虽然从理论上证明了具有可训练位置嵌入的变形金刚是序列到序列函数的通用逼近器，但在实践中其排序信息仍有待加强。我们认为文本中的相对位置编码(Ke et al.， 2021;Dufter et al.， 2022)和视觉(Wu et al.， 2021b)可能对排序信息增强有用。

表4:MSE/MAE与其他方法的比较:STformer (Grigsby等人，2022)和DLinear (Zeng等人，2023)。加粗/下划线表示最佳/第二名。OOM表示内存不足问题。灰色背景标记基于cnn - gnn的模型;黄色标记基于transformer的模型，其中忽略了跨维度依赖性;蓝色标记基于转换器的模型显式地利用跨维度依赖关系;红色为序列分解的线性模型。在这里插入图片描述

3)用于时间序列预测的数据集比用于文本和视觉的数据集要小得多，并且时间序列数据集中的模式也更简单。考虑到视觉变压器在经过大量数据的预训练后，超越了归纳偏差，与cnn相比取得了优异的结果(Dosovitskiy等人，2021)，时间序列的变压器也可能需要具有各种模式的大型数据集来充分发挥其潜力。

正如论文中引用的那样，作者提到DLinear“不为变量之间的相关性建模”。因此，在DLinear中加入跨维依赖性来进一步提高预测精度也是一个很有前景的方向。此外，我们的DSW嵌入增强局部性和HED捕获不同尺度上的依赖性也可能有助于进一步激发和增强DLinear。

B.3烧蚀路由器机理研究

Crossformer的三个主要部件的烧蚀研究见第4.3节。在本节中，我们对TSA层中的子模块路由器机制进行了消融研究，并评估了其对预测精度的影响。需要注意的是，路由器机制主要是为了降低D较大时的计算复杂度而提出的。结果如表5所示。TSA(w/o Router)的加入不断提高DSW和DSW+HED的预测精度，显示了在两个不同阶段捕捉跨时间和跨维度依赖关系的必要性。对于短期预测(τ≤168)，无论是否使用HED, TSA(w/o Router)和TSA的性能相似。对于长期预测(τ≥336)，路由器机制略微提高了预测精度。可能的原因是我们为每个时间步设置了单独的路由器，这有助于捕获随时间变化的长期依赖关系。在这里插入图片描述

B.4依赖性可视化

由于Crossformer计算的注意力分数是抽象的，难以可视化，我们将消融版本DSW计算的分数可视化，如图7所示。除了其他Transformer模型可以计算的跨时间依赖性之外，Crossformer还提供了关于跨维度依赖性的信息。如图7所示，在预测Dim #1时，模型同时关注Dim #1和Dim #3。在预测第5点时，我们没有关注第5点本身，而是更多地关注第4点。

B.5分层预测模式可视化

图8显示了我们的HED输出的分层预测模式。最上面的预测层，第3层，捕捉未来值的低频一般趋势和周期模式。通过在更精细的尺度上添加预测，可以添加更精细的高频模式，并且预测更接近地面真值曲线。

B.6运行时间效率分析

在主要论文中，我们展示了内存占用w.r.t输入长度T和维数d，在这里我们评估了运行时间。图9 (a)显示了每批Crossformer和其他基于变压器的模型的运行时间，w.r.t输入长度。在测试长度范围内，变换器的计算速度是五种方法中最好的。

在这里插入图片描述

在这里插入图片描述
图9 (b)显示了每批Crossformer及其烧蚀版本的运行时间与D尺寸数的关系。当D较小(D≤30)时，无TSA层的Crossformer (DSW和DSW+HED)的运行速度更快。然而，由于二次复杂度，它们很难处理高维MTS。事实上，对于单个具有11GB内存的NVIDIA GeForce RTX 2080Ti GPU, DSW和DSW+HED在D bbbb50时遇到内存不足(OOM)问题。此外，TSA(w/o Router)在dbbb200时遇到了OOM问题。

C超参数选择的讨论

我们建议首先确定段长度Lseg，因为它既关系到模型性能，也关系到计算效率。一般的想法是使用小Lseg进行短期预测，使用大Lseg进行长期预测。一些关于数据的先验知识也有助于Lseg的选择。例如，如果每小时采样的数据有一个每天的周期，则最好设置Lseg = 24。接下来，我们选择编码器和解码器的层数N。N越大的变换器可以利用更多尺度的信息，但也需要更多的计算资源。为了平衡预测精度和计算效率，TSA c层的路由器数量可以设置为5或10。最后，根据可用的计算资源确定隐藏状态模型的维数和多头注意的头数。

在这里插入图片描述

D SUPPLEMENTARY DESIGN TO CROSSFORMER

D.1处理不可分长度

在本文中，我们假设输入长度T和预测长度τ可以被片段长度Lseg整除。在本节中，我们使用填充机制来处理不满足假设的情况。如果T不能被Lseg整除，我们得到(k1−1)Lseg < T < k1Lseg。我们将k1Lseg−T在x1:T前面复制x1，得到x1:T:

在这里插入图片描述

其中[，]表示连接操作。x <s:2> 1:T∈Rk1Lseg×D可输入到Crossformer的编码器。如果τ不能被Lseg整除，我们得到(k2−1)Lseg < τ < k2Lseg。我们将解码器的可学习位置嵌入设为E(dec)∈Rk2×D×dmodel，并将其输入到解码器中，得到形状为Rk2Lseg×D的输出。然后将输出的第一个τ步长扩展为T+1:T+τ。我们在ETTm1数据集上进行了实验，以评估不可分割长度的效果。表6的结果表明，在填充机制下，不可分割的长度不会降低模型的性能，无论是短期预测还是长期预测。

D.2纳入协变量

在正文中，我们只使用历史序列x1:T来预测未来的xT+1:T+τ。在本节中，我们尝试将协变量c1:T+τ纳入Crossformer。我们使用一种简单的方法:首先将协变量嵌入到逐点向量{d1, d2，…， dT+τ}与以前基于变压器的模型一样(Zhou et al.， 2021;吴等，2021a;Liu et al.， 2021a)。然后，使用可学习的线性组合将点向向量合并为段向向量。最后，将分段向量添加到DSW嵌入得到的二维向量数组的每个维度上:

在这里插入图片描述
式中→表示逐点协变量的嵌入方法。αj, 1≤j≤Lseg为线性组合的可学习因子。D (s) I表示分段协变量嵌入。hcov i,d表示d维第i段的带有协变量信息的嵌入向量，其中hi,d是主文本中DSW嵌入得到的嵌入向量。对解码器输入的处理类似，将分段协变量嵌入添加到解码器的位置嵌入中，即E(dec)。

我们在ETTh1数据集上进行实验来评估协变量的影响。每天的小时、星期几、月几和年几被用作协变量。表7的结果表明，纳入协变量并不能提高Crossformer的性能。可能的原因是这种直接的嵌入方法不能很好地与Crossformer配合。在Crossformer中引入协变量以进一步提高预测精度仍然是一个有待解决的问题。

在这里插入图片描述

萧宛亦

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CROSSFORMER: TRANSFORMER UTILIZING CROSS- DIMENSION DEPENDENCY FOR MULTIVARIATE TIME SERIES FORECAST

近年来，人们提出了许多用于多变量时间序列(MTS)预测的深度模型。特别是，基于transformer的模型已经显示出巨大的潜力，因为它们可以捕获长期依赖关系。然而，现有的基于transformer的模型主要关注于时间依赖性(跨时间依赖性)的建模，而往往忽略了不同变量之间的依赖性(跨维度依赖性)，这对MTS预测至关重要。为了填补这一空白，我们提出了Crossformer，这是一种基于变压器的模型，利用跨维依赖性进行MTS预测。
复制链接

扫一扫