文章目录
- 摘要
- 1. 引言
- 2. 预备知识:TSF 问题的定义
- 3. 基于 Transformer 的 LTSF 解决方案
- 4. 一个极其简单的基准
- 5. 实验
- 5.1. 实验设置
- 5.2. 与 Transformers 的比较
- 5.3. 对 LTSF-Transformers 的更多分析
- 6. 结论与未来工作
摘要
最近,基于 Transformer 的解决方案在长期时间序列预测(LTSF)任务中大量涌现。尽管在过去几年中这些方法的表现不断提升,我们对这一研究方向的合理性提出质疑。具体来说,Transformer 被认为是从长序列元素中提取语义关联的最成功的解决方案。然而,在时间序列建模中,我们需要提取有序连续点集合中的时间关系。虽然使用位置编码并使用 token 嵌入子序列的方式可以使 Transformer 保留某些顺序信息,但其基于不变置换的自注意力机制本质上不可避免地导致了时间信息的损失。
为了验证我们的观点,我们引入了一组极其简单的单层线性模型,称为 LTSF-Linear,用于对比。实验证明,在九个实际数据集上,LTSF-Linear 竟然在所有情况下都显著优于现有复杂的基于 Transformer 的 LTSF 模型,并且在多数情况下优势明显。此外,我们还进行了广泛的实证研究,以探讨 LTSF 模型中不同设计元素对时间关系提取能力的影响。我们希望这一令人惊讶的发现能够为 LTSF 任务开辟新的研究方向。我们也倡导在未来重新审视基于 Transformer 的解决方案在其他时间序列分析任务(例如异常检测)中的有效性。代码可在以下网址获取:https://github.com/cure-lab/LTSF-Linear。
发表在(AAAI 2023)
1. 引言
时间序列在当今数据驱动的世界中无处不在。给定历史数据,时间序列预测(TSF)是一项历史悠久的任务,具有广泛的应用,包括但不限于交通流量估计、能源管理和金融投资。在过去的几十年中,TSF 解决方案经历了从传统统计方法(例如,ARIMA)和机器学习技术(例如,GBRT)到基于深度学习的解决方案(例如,循环神经网络和时序卷积网络)的演变。
Transformer 被认为是最成功的序列建模架构之一,在自然语言处理(NLP)、语音识别和计算机视觉等各种应用中展示了无与伦比的性能。最近,基于 Transformer 的时间序列分析解决方案也有了显著增长,研究如文献中所综述的那些。许多著名的模型专注于长期时间序列预测(LTSF)这一挑战性问题,包括 LogTrans、Informer、Autoformer、Pyraformer、Triformer 以及最近的 FEDformer。
Transformer 的核心优势来自于其多头自注意力机制,这使其能够在长序列(例如文本或图像中的二维补丁)中提取语义关联。然而,自注意力机制具有一定的置换不变性和“反顺序”特性。虽然使用各种位置编码技术可以保留部分顺序信息,但在其基础上应用自注意力机制后,不可避免地会有时间信息的丢失。对于 NLP 等语义丰富的应用来说,这通常不是一个严重的问题,例如,即使重排句子中的单词,其语义通常也能大致保持不变。然而,在分析时间序列数据时,数值数据本身通常缺乏语义,我们主要关注的是建模连续点集中的时间变化。因此,顺序本身显得尤为重要。因此,我们提出了一个有趣的问题:Transformers 是否真的适用于长期时间序列预测?
尽管现有的基于 Transformer 的 LTSF 解决方案在实验中相比传统方法表现出显著的预测精度提升,但所有比较的(非 Transformer)基线都采用自回归或迭代多步(IMS)预测,这些方法在 LTSF 问题上已知会遭遇严重的误差积累。因此,在本研究中,我们使用直接多步(DMS)预测策略对基于 Transformer 的 LTSF 解决方案的实际表现提出挑战。
并不是所有的时间序列都可以预测,更不用说长期预测(例如,对于混沌系统)了。我们假设长期预测仅适用于那些具有较为明显趋势和周期性的时间序列。由于线性模型已经能够提取这些信息,我们引入了一组极其简单的模型,命名为 LTSF-Linear,作为新的基准进行比较。LTSF-Linear 使用单层线性模型回归历史时间序列,以直接预测未来时间序列。我们在九个广泛使用的基准数据集上进行广泛实验,这些数据集涵盖了交通、能源、经济、天气和疾病预测等多种现实应用。令人惊讶的是,我们的结果表明,LTSF-Linear 在所有情况下都显著优于现有复杂的基于 Transformer 的模型,且通常具有较大优势(20% 到 50%)。此外,我们发现,与现有 Transformer 的相关研究的主张相反,大多数 Transformer 模型未能从长序列中提取时间关系,即随着回顾窗口大小的增加,预测误差并未减少(有时甚至增加)。最后,我们对现有基于 Transformer 的 TSF 解决方案进行了多种消融研究,以研究不同设计元素的影响。
总结,该工作的贡献包括:
- 据我们所知,这是首个质疑蓬勃发展的 Transformer 在长期时间序列预测任务中有效性的工作。
- 为了验证我们的主张,我们引入了一组极其简单的单层线性模型,命名为 LTSF-Linear,并将其与现有基于 Transformer 的 LTSF 解决方案在九个基准上进行对比。LTSF-Linear 可以成为 LTSF 问题的新基准。
- 我们对现有基于 Transformer 的解决方案的各个方面进行了全面的实证研究,包括对长输入的建模能力、对时间序列顺序的敏感性、位置编码和子序列嵌入的影响,以及效率对比。我们的发现将有助于该领域的未来研究。
结合以上内容,我们得出结论:Transformers 对于时间序列的时间建模能力被夸大了,至少在现有的 LTSF 基准上是如此。同时,尽管 LTSF-Linear 在现有工作中表现出更好的预测精度,但它仅作为未来研究这一具有挑战性的长期 TSF 问题的简单基准。基于我们的发现,我们也提倡在未来重新审视基于 Transformer 的解决方案在其他时间序列分析任务中的有效性。
2. 预备知识:TSF 问题的定义
对于包含 C C C个变量的时间序列,给定历史数据 X = { X 1 t , . . . , X C t } t = 1 L \mathcal{X} = \{X_1^t, ..., X_C^t\}_{t=1}^L X={X1t,...,XCt}t=1L,其中 L L L是回顾窗口大小, X i t X_i^t Xit是第 i i i个变量在第 t t t时刻的值。时间序列预测任务是预测未来 T T T个时间步的值 X ^ = { X ^ 1 t , . . . , X ^ C t } t = L + 1 L + T \hat{\mathcal{X}} = \{\hat{X}_1^t, ..., \hat{X}_C^t\}_{t=L+1}^{L+T} X^={X^1t,...,X^Ct}t=L+1L+T。当 T > 1 T > 1 T>1时,迭代多步(IMS)预测【23】学习单步预测器并反复应用它以获得多步预测。另一种方法是,直接多步(DMS)预测【4】直接优化多步预测目标。
与 DMS 预测结果相比,IMS 预测由于其自回归估计过程而具有较小的方差,但它不可避免地会受到误差累积的影响。因此,当存在一个高度精确的单步预测器且 T T T较小时,IMS 预测更为优选。相反,当难以获得无偏的单步预测模型或 T T T较大时,DMS 预测生成更准确的多步预测。
3. 基于 Transformer 的 LTSF 解决方案
基于 Transformer 的模型【26】在自然语言处理和计算机视觉等长期 AI 任务中取得了无与伦比的性能,这得益于其多头自注意力机制的有效性。这也引发了大量关于基于 Transformer 的时间序列建模技术的研究兴趣【20, 27】。特别是,许多研究工作专注于 LTSF 任务(例如【16, 18, 28, 30, 31】)。考虑到 Transformer 模型捕捉长距离依赖性的能力,大多数研究集中于较少探索的长期预测问题(即 T ≫ 1 T \gg 1 T≫1)。
在将基础 Transformer 模型应用于 LTSF 问题时,它存在一些局限性,包括原始自注意力机制的时间/内存复杂度为二次方以及由自回归解码器设计引起的误差积累。Informer【30】解决了这些问题,并提出了一种新型 Transformer 架构,具有简化的复杂度和 DMS 预测策略。随后,更多 Transformer 变体引入了各种时间序列特征,以提高其性能或效率【18, 28, 31】。我们总结了现有基于 Transformer 的 LTSF 解决方案的设计元素,如下所示(参见图1)。
图 1:现有基于 Transformer 的时间序列预测(TSF)解决方案的流程。在 (a) 和 (b) 中,实线框表示必要操作,虚线框表示可选操作。© 和 (d) 针对不同的方法而有所不同【16, 18, 28, 30, 31】。
时间序列分解:在数据预处理过程中,零均值归一化在 TSF 中很常见。此外,Autoformer【28】首先在每个神经块之后应用季节-趋势分解,这是一种标准的时间序列分析方法,使原始数据更具可预测性【6, 13】。具体来说,他们在输入序列上使用移动平均核以提取时间序列的趋势-周期成分。原始序列与趋势成分的差异被视为季节性成分。在 Autoformer 的分解方案基础上,FEDformer【31】进一步提出了一种混合专家策略,通过不同核大小的移动平均核来混合提取的趋势成分。
输入嵌入策略:Transformer 架构中的自注意力层无法保留时间序列的位置信息。然而,本地位置信息(即时间序列的顺序)是重要的。此外,全局时间信息(如层次时间戳:周、月、年)和时间戳无关的信息(如节假日和事件)也具有参考价值【30】。为了增强时间序列输入的时间上下文,SOTA 基于 Transformer 的方法中一个实用的设计是将几种嵌入(例如固定位置编码、通道投影嵌入和可学习的时间嵌入)注入到输入序列中。此外,还引入了通过时序卷积层【16】或可学习时间戳【28】进行的时间嵌入。
自注意力机制:Transformer 依靠自注意力机制提取成对元素之间的语义依赖性。为了减少基础 Transformer 模型的 O ( L 2 ) O(L^2) O(L2)时间和内存复杂度,最近的研究提出了两种提高效率的策略。一方面,LogTrans 和 Pyraformer 通过在自注意力机制中显式引入稀疏性偏差。具体来说,LogTrans 使用 Logsparse 掩码将计算复杂度降低至 O ( L log L ) O(L \log L) O(LlogL),而 Pyraformer 采用金字塔注意力捕捉分层多尺度时间依赖性,具有 O ( L ) O(L) O(L)的时间和内存复杂度。另一方面,Informer 和 FEDformer 使用自注意力矩阵中的低秩特性。Informer 提出了 ProbSparse 自注意力机制,并通过自注意力蒸馏操作将复杂度降低到 O ( L log L ) O(L \log L) O(LlogL),FEDformer 设计了傅里叶增强块和随机选择的小波增强块,以实现 O ( L ) O(L) O(L)的复杂度。最后,Autoformer 设计了一种基于序列的自相关机制来替代原始的自注意力层。
解码器:基础的 Transformer 解码器以自回归方式输出序列,这导致推理速度缓慢且误差积累,尤其是在长期预测中。Informer 设计了一种生成式解码器用于 DMS 预测。其他 Transformer 变体也采用了类似的 DMS 策略。例如,Pyraformer 使用一个完全连接层将时空轴连接起来作为解码器。Autoformer 总结了两种精细分解的特征,从趋势-周期成分中提取的特征和用于季节性成分的堆叠自相关机制,以获得最终预测。FEDformer 还使用分解方案与建议的频率注意力块来解码最终结果。
Transformer 模型的前提是配对元素之间的语义关系,而自注意力机制本身具有置换不变性,其建模时间关系的能力很大程度上依赖于与输入 token 相关的位置信息。考虑到时间序列中的原始数值数据(例如股票价格或电力值),这些数据之间几乎不存在任何逐点语义关系。在时间序列建模中,我们主要关注的是连续点集之间的时间关系,这些元素的顺序而非配对关系最为重要。虽然使用位置编码并使用 token 嵌入子序列可以保留某些顺序信息,但置换不变自注意力机制的本质不可避免地会导致时间信息的丢失。基于上述观察,我们希望重新审视基于 Transformer 的 LTSF 解决方案的有效性。
4. 一个极其简单的基准
在现有基于 Transformer 的 LTSF 解决方案的实验中( T ≫ 1 T \gg 1 T≫1),所有比较的(非 Transformer)基线都是 IMS 预测技术,这些方法已知会受到显著的误差累积影响。我们假设这些研究中的性能提升主要归因于它们使用的 DMS 策略。
为验证这一假设,我们提出了一个通过时间线性层实现的最简单的 DMS 模型,命名为 LTSF-Linear,作为对比基准。LTSF-Linear 的基本公式通过加权求和操作(如图 2 所示)直接对历史时间序列进行回归以预测未来时间序列。其数学表达式为
X
^
i
=
W
X
i
\hat{X}_i = W X_i
X^i=WXi,其中
W
∈
R
T
×
L
W \in \mathbb{R}^{T \times L}
W∈RT×L是沿时间轴的线性层,
X
^
i
\hat{X}_i
X^i和
X
i
X_i
Xi分别是每个第
i
i
i个变量的预测和输入。注意,LTSF-Linear 在不同变量间共享权重,并不建模任何空间相关性。
LTSF-Linear 是一组线性模型。Vanilla Linear 是单层线性模型。为了处理跨不同领域(例如金融、交通和能源领域)的时间序列,我们进一步引入了两种具有预处理方法的变体,分别命名为 DLinear 和 NLinear。
-
具体来说,DLinear 是 Autoformer 和 FEDformer 中使用的分解方案与线性层的结合。它首先通过移动平均核将原始数据分解为趋势成分和余项(季节性)成分。然后,对每个成分分别应用两个单层线性层,并将两者的结果相加以获得最终预测。通过显式地处理趋势,当数据中存在明显趋势时,DLinear 提升了基础线性模型的性能。
-
同时,为了提高 LTSF-Linear 的性能,当数据集存在分布偏移时,NLinear 首先通过减去序列的最后一个值对输入进行归一化。然后,输入通过线性层,减去的部分在进行最终预测前被加回。这种加减操作是 NLinear 对输入序列进行的简单归一化操作。
5. 实验
5.1. 实验设置
-
数据集:我们在九个广泛使用的真实世界数据集上进行了大量实验,包括 ETT(电力变压器温度)【30】(ETTh1、ETTh2、ETTm1、ETTm2)、交通、电力、天气、ILI、汇率【15】。这些数据集都是多变量时间序列。我们将数据的详细描述放在附录中。
-
评估指标:根据以往的研究【28, 30, 31】,我们使用均方误差(MSE)和平均绝对误差(MAE)作为核心指标来比较性能。
-
比较方法:我们包括了五种最新的基于 Transformer 的方法:FEDformer【31】、Autoformer【28】、Informer【30】、Pyraformer【18】和 LogTrans【16】。此外,我们还包括了一种简单的 DMS 方法:最近重复(Repeat),即在回顾窗口内重复最后一个值,作为另一种简单的基线。由于 FEDformer 有两个变体,我们比较了精度更高的那个(通过傅里叶变换的 FEDformer-f)。
表 2:多变量长期预测误差,以 MSE 和 MAE 为标准,值越低越好。其中,ILI 数据集的预测范围 T ∈ { 24 , 36 , 48 , 60 } T \in \{24, 36, 48, 60\} T∈{24,36,48,60}。对于其他数据集, T ∈ { 96 , 192 , 336 , 720 } T \in \{96, 192, 336, 720\} T∈{96,192,336,720}。Repeat 方法在回顾窗口内重复最后一个值。最好的结果用粗体表示,Transformer 的最佳结果用下划线表示。因此,IMP. 是线性模型相较于基于 Transformer 的解决方案的最佳结果。
5.2. 与 Transformers 的比较
-
定量结果:在表 2 中,我们在九个基准上对所有提到的 Transformers 进行了广泛评估,实验设置与先前的工作一致【28, 30, 31】。令人惊讶的是,LTSF-Linear 的性能在大多数情况下优于最先进的 FEDformer,在多变量预测任务上提高了 20% 至 50%。LTSF-Linear 即使不建模变量间的相关性,在处理分布偏移和趋势季节性特征方面依然显示出优势。对于不同的时间序列基准,NLinear 和 DLinear 在处理分布偏移和趋势方面表现出色。我们在附录中提供了 ETT 数据集的单变量预测结果,其中 LTSF-Linear 依然在绝大多数情况下优于基于 Transformer 的 LTSF 解决方案。
FEDformer 在 ETTh1 上取得了竞争力的预测精度。这是因为 FEDformer 使用了经典的时间序列分析技术,例如频率处理,引入了时间序列的归纳偏差,有利于时间特征的提取。总之,这些结果表明,现有复杂的基于 Transformer 的 LTSF 解决方案在当前的九个基准上并不具有显著效果,而 LTSF-Linear 可以作为一个强大的基线。
另一个有趣的观察是,尽管简单的 Repeat 方法在预测长期季节性数据(例如电力和交通)时表现较差,但在汇率数据(约 45%)上却显著优于所有基于 Transformer 的方法。这主要是由于基于 Transformer 的解决方案在趋势预测上的错误,特别是在训练数据中的突变噪声被过度拟合时,导致预测精度显著下降(参见图 3(b))。相反,Repeat 方法没有这种偏差。
图 3:五种模型在输入长度 (L=96) 和输出长度 (T=192) 下的长期预测输出示意图,其中 Y 轴表示预测输出,X 轴分别表示电力、汇率和 ETTh2 数据集。
- 定性结果:如图 3 所示,我们对三个选择的数据集进行了基于 Transformer 的解决方案和 LTSF-Linear 的预测结果展示:电力(序列 1951,变量 36)、汇率(序列 676,变量 3)和 ETTh2(序列 1241,变量 2)。这些数据集具有不同的时间模式。当输入长度为 96 步,输出预测范围为 336 步时,Transformer【28, 30, 31】未能捕捉到电力和 ETTh2 数据的未来数据的尺度和偏差。此外,它们很难预测像汇率这种周期性数据的正确趋势。这些现象进一步表明,现有基于 Transformer 的解决方案在 LTSF 任务中存在不足。
5.3. 对 LTSF-Transformers 的更多分析
现有的 LTSF-Transformers 能否从较长的输入序列中提取时间关系? 回顾窗口大小极大地影响预测精度,因为它决定了我们可以从历史数据中学习到多少信息。一般来说,一个具有较强时间关系提取能力的 TSF 模型应该能够在更大的回顾窗口大小下取得更好的结果。
为了研究输入回顾窗口大小的影响,我们进行了实验, L ∈ { 24 , 48 , 72 , 96 , 120 , 144 , 168 , 192 , 336 , 504 , 672 , 720 } L \in \{24, 48, 72, 96, 120, 144, 168, 192, 336, 504, 672, 720\} L∈{24,48,72,96,120,144,168,192,336,504,672,720}用于长期预测( T = 720 T=720 T=720)。图 4 显示了两个数据集上的 MSE 结果。与之前的研究【27, 30】类似,现有基于 Transformer 的模型在回顾窗口大小增加时性能下降或保持不变。相比之下,LTSF-Linear 的性能随着回顾窗口大小的增加而显著提升。因此,现有解决方案倾向于过度拟合时间序列中的噪声,而不是在较长的序列中提取时间信息,且输入大小 96 对大多数 Transformers 恰到好处。
此外,我们在附录中提供了更多的定量结果,我们的结论在几乎所有情况下都成立。
图 4:不同模型在长期预测((T=720))任务中,针对交通和电力数据集的不同回顾窗口大小(X 轴)的 MSE 结果(Y 轴)。
长期预测中能学到什么? 虽然回顾窗口中的时间动态显著影响短期时间序列预测的精度,但我们假设长期预测取决于模型是否能够很好地捕捉趋势和周期性。即,预测范围越远,回顾窗口本身的影响越小。
为了验证上述假设,在表 3 中,我们比较了在相同未来 720 步预测时,来自两个不同回顾窗口的数据的预测精度:(i)原始输入 L = 96 L=96 L=96设置(称为 Close)和(ii)在原始 96 步之前的远程输入 L = 96 L=96 L=96设置(称为 Far)。
从实验结果可以看出,最先进的 Transformer 的性能略有下降,这表明这些模型只捕捉到了来自相邻时间序列序列的类似时间信息。由于捕捉数据集的内在特征通常不需要大量参数,例如,一个参数就能表示周期性。使用过多的参数甚至可能导致过拟合,这部分解释了为什么 LTSF-Linear 表现优于基于 Transformer 的方法。
自注意力机制对 LTSF 是否有效? 我们验证了现有 Transformer(如 Informer)中这些复杂设计是否必不可少。在表 4 中,我们逐步将 Informer 转化为 Linear。首先,我们用线性层替换每个自注意力层,称为 Att.-Linear,因为自注意力层可以被看作是一个具有动态变化权重的全连接层。此外,我们丢弃 Informer 中的其他辅助设计(例如 FFN)以只保留嵌入层和线性层,称为 Embed + Linear。最后,我们将模型简化为单层线性层。令人惊讶的是,Informer 的性能随着逐步简化而提高,这表明自注意力机制和其他复杂模块对于 LTSF 基准至少并非必要。
现有的 LTSF-Transformers 能否很好地保留时间顺序? 自注意力机制本质上是置换不变的,即不考虑顺序。然而,在时间序列预测中,序列的顺序通常起着关键作用。我们认为,即使使用位置和时间嵌入,现有的基于 Transformer 的方法仍然会出现时间信息丢失的问题。在表 5 中,我们在嵌入策略之前对原始输入进行了扰乱。提出了两种扰乱策略:Shuf. 随机打乱整个输入序列,Half-Ex. 交换输入序列的前一半和后一半。与原始设置(Ori.)相比,在汇率数据集上,所有基于 Transformer 的方法即使在输入序列被随机打乱时,性能也不会波动。然而,LTSF-Linear 的性能在输入序列被扰乱时则显著下降。这表明,即使使用了不同的位置信息和时间嵌入,LTSF-Transformers 依然只能保持非常有限的时间关系,并且在应对金融数据等噪声较大的数据时容易过拟合,而 LTSF-Linear 则能够自然地建模序列顺序,并且能用较少的参数避免过拟合。
对于 ETTh1 数据集,FEDformer 和 Autoformer 在其模型中引入了时间序列的归纳偏差,使得它们在数据集具有更清晰的时间模式(例如周期性)时,能够提取某些时间信息。因此,在 Shuf. 设置下,这两个 Transformers 的平均下降分别为 73.28% 和 56.91%,因为它丢失了整个顺序信息。此外,由于缺乏这样的时间归纳偏差,Informer 在 Shuf. 和 Half-Ex. 设置下也仍然表现出一定的损失。总体来看,LTSF-Linear 在所有情况下的平均下降都大于基于 Transformer 的方法,这表明现有的 Transformers 不能很好地保留时间顺序。
不同的嵌入策略有多有效? 我们研究了 Transformer 基于方法中位置和时间戳嵌入的优势。在表 6 中,Informer 的预测误差在没有位置嵌入(wo/Pos.)时显著增加。没有时间戳嵌入(wo/Temp.)时,随着预测长度的增加,Informer 的性能逐渐下降。由于 Informer 对每个 token 仅使用单一时间步,因此有必要在 token 中引入时间信息。
与仅使用单一时间步不同,FEDformer 和 Autoformer 输入了一个时间戳序列来嵌入时间信息。因此,它们在没有固定位置嵌入的情况下也能实现相当甚至更好的性能。然而,没有时间戳嵌入时,Autoformer 的性能因全局时间信息的丧失而迅速下降。相反,由于 FEDformer 提出的频率增强模块引入了时间归纳偏差,它在去除位置/时间戳嵌入后受影响较小。
训练数据规模是现有 LTSF-Transformers 的限制因素吗? 有人可能会认为,基于 Transformer 的解决方案表现不佳是由于基准数据集的规模较小。与计算机视觉或自然语言处理任务不同,TSF 任务是在收集的时间序列上进行的,很难扩大训练数据的规模。事实上,训练数据的大小确实会对模型性能产生重大影响。因此,我们在交通数据集上进行了实验,比较了在完整数据集(17,544*0.7 小时,记为 Ori.)和经过缩短的数据集(8,760 小时,即 1 年,记为 Short.)上训练的模型性能。意外的是,在大多数情况下,减少后的训练数据集的预测误差更低。这可能是因为全年数据比较长但不完整的数据规模更能保持清晰的时间特征。虽然我们不能得出应使用较少数据进行训练的结论,但这表明训练数据规模并不是 Autoformer 和 FEDformer 表现的限制因素。
效率真的是最高优先级吗? 现有的 LTSF-Transformers 声称,基础 Transformer 的 O ( L 2 ) O(L^2) O(L2)复杂度对于 LTSF 问题是难以负担的。尽管它们能够将理论上的时间和内存复杂度从 O ( L 2 ) O(L^2) O(L2)降至 O ( L ) O(L) O(L),但仍不清楚:1)设备上的实际推理时间和内存开销是否改善,以及 2)内存问题对于当今的 GPU(例如,我们这里使用的 NVIDIA Titan XP)是否真的紧急和不可接受。在表 8 中,我们对比了5次运行的平均实际效率。有趣的是,与基础 Transformer(使用相同的 DMS 解码器)相比,大多数 Transformer 变体在实际中产生了类似或更糟的推理时间和参数使用。这些变体还引入了更多额外的设计元素,使得实际开销更高。此外,基础 Transformer 的内存开销实际上是可以接受的,即使输出长度为 L = 720 L = 720 L=720,这降低了至少在现有基准上开发内存高效的 Transformer 的重要性。
6. 结论与未来工作
结论:本研究对近年来备受青睐的基于 Transformer 的长期时间序列预测解决方案的有效性提出了质疑。我们使用一个极其简单的线性模型 LTSF-Linear 作为 DMS 预测的基准来验证我们的观点。需要注意的是,我们的贡献并不在于提出一个线性模型,而在于提出一个重要的问题,展示了令人意外的对比结果,并从多个角度证明了 LTSF-Transformers 并不像相关研究中声称的那样有效。我们真诚地希望我们的全面研究能对该领域的未来研究有所裨益。
未来工作:LTSF-Linear 的模型容量有限,它只是作为一个简单但具有竞争力的基准,为未来的研究提供了很强的解释性。例如,单层线性网络难以捕捉由变化点引起的时间动态【25】。因此,我们相信,新模型设计、数据处理方法和基准测试在应对这一具有挑战性的 LTSF 问题上有着巨大的潜力。