系列文章目录
尺度变换器:用于时间序列预测的迭代多尺度精炼变压器 ICLR 2023
文章目录
摘要
随着变压器的引入,时间序列预测的性能有了很大的提高。在本文中,我们提出了一个通用的多尺度框架,可应用于最先进的基于变压器的时间序列预测模型(FEDformer, Autoformer等)。通过在多个尺度上迭代地细化具有共享权重的预测时间序列,引入体系结构调整和专门设计的规范化方案,我们能够在数据集和变压器体系结构之间实现显著的性能改进,从5.5%到38.5%,并且额外的计算开销最小。通过详细的消融研究,我们展示了我们在架构和方法上的每一个贡献的有效性。此外,我们在各种公共数据集上的实验表明,所提出的改进优于相应的基线。我们的代码可以在https://github.com/BorealisAI/scaleformer上公开获得。
提示:以下是本篇文章正文内容
一、引言
整合不同时间尺度的信息对于准确建模和预测时间序列至关重要(Mozer, 1991;Ferreira et al., 2006)。从局部和全球波动的天气模式,以及全天、跨季节和年份的天气模式,到包含不同频率相关信号的无线载波,时间序列预测模型需要在学习表征中鼓励尺度意识。虽然近年来基于变压器的架构已成为时间序列预测的主流和最先进的技术,但进展主要集中在减轻时间和空间上的标准二次复杂度,例如注意力(Li et al., 2019;Zhou et al., 2021)或结构变化(Xu et al., 2021;Zhou et al., 2022b),而不是明确的规模意识。基本的跨尺度特征关系通常是隐式学习的,并且不受任何类型的架构先验的鼓励,这些架构先验超出了表征变压器模型的堆叠注意块。Autoformer (Xu et al., 2021)和Fedformer (Zhou et al., 2022b)通过对输入时间序列的趋势和季节成分实施不同的计算路径,对尺度意识进行了一些强调;然而,这种结构先验只关注两个尺度:低频和高频分量。考虑到它们对预测的重要性,我们能否让变形金刚更具规模意识?
图1:我们的模型在不同时间尺度上的中间预测。时间序列预测的迭代细化是一个强大的结构先验,有利于时间序列预测。
我们通过Scaleformer实现了这种规模感知。在我们提出的方法中,如图1所示,时间序列预测在连续的时间步上迭代地改进,允许模型更好地捕获每个尺度的相互依赖性和特殊性。然而,规模本身是不够的。不同尺度上的迭代改进会导致中间预测之间的显著分布偏移,从而导致失控的误差传播。为了缓解这个问题,我们在每个步骤中引入了跨尺度归一化。
我们的方法重新安排了模型的能力,将重点转移到规模意识上,但并没有从根本上改变变压器的注意力驱动范式。因此,它可以很容易地适应与多个最近的时间序列变压器体系结构一起工作,并与它们自己的贡献广泛地正交。利用这一点,我们选择使用各种基于变压器的骨干(例如Fedformer, Autoformer, Informer, Reformer, Performer)来进一步探索我们的多尺度方法对各种实验设置的影响。
我们的贡献如下:(1)我们引入了一种新的迭代尺度细化范式,可以很容易地适应各种基于变压器的时间序列预测体系结构。(2)为了最小化尺度和窗口之间的分布偏移,我们对变压器的输出引入了跨尺度归一化。(3)使用Informer和AutoFormer这两种最先进的架构作为主干,我们从经验上证明了我们的方法在各种数据集上的有效性。根据变压器架构的选择,我们的多尺度框架可将均方误差降低5.5%至38.5%。(4)通过对我们的发现进行详细的消融研究,我们证明了我们的架构和方法选择的有效性。
二、相关工作
时间序列预测:时间序列预测在许多领域发挥着重要作用,包括:天气预报(Murphy, 1993)、库存规划(Syntetos等,2009)、天文学(Scargle, 1981)、经济和金融预测(Krollner等,2010)。时间序列数据的特点之一是需要捕捉季节趋势(Brockwell & Davis, 2009)。存在各种各样的时间序列预测模型(Box & Jenkins, 1968;Hyndman et al., 2008;Salinas et al., 2020;Rangapuram等人,2018;Bai et al., 2018;吴等人,2020)。早期的方法,如ARIMA (Box & Jenkins, 1968)和指数平滑模型(Hyndman等人,2008),随后引入了基于神经网络的方法,涉及循环神经网络(rnn)及其变体(Salinas等人,2020;Rangapuram等人,2018;Salinas et al., 2020)或Temporal Convolutional Networks (tcn) (Bai et al., 2018)。
最近,时序变形金刚(Wu et al., 2020;Zerveas et al., 2021;Tang & mattson, 2021)被引入预测任务,通过利用自注意机制从时间序列数据中学习复杂的模式和动态。Informer (Zhou et al., 2021)通过使用ProbSparse注意机制加强稀疏性,将时间和内存的二次复杂度降低到O(L log L)。Yformer (Madhusudhanan et al., 2021)提出了一种y形编码器架构,以利用多分辨率嵌入。Autoformer (Xu et al., 2021)使用基于交叉相关的注意机制在子序列层面进行操作。FEDformer (Zhou et al., 2022b)采用频率变换将序列分解成多个频域模式提取特征,进一步提高了Autoformer的性能。
多尺度神经架构:多尺度和分层处理在许多领域都很有用,比如计算机视觉(Fan et al., 2021;Zhang et al., 2021;Liu et al., 2018),自然语言处理(Nawrot et al., 2021;Subramanian et al., 2020;Zhao et al., 2021)和时间序列预测(Chen et al., 2022;丁等人,2020)。多尺度视觉变压器(Fan et al., 2021)通过将多尺度特征层次的开创性思想与变压器模型联系起来,提出了用于视频和图像识别的多尺度视觉变压器(Fan et al., 2021),然而,它侧重于专门为计算机视觉任务设计的空间域。Cui等人(2016)提出对时间序列进行不同的变换,如降采样和平滑,与原始信号并行,以更好地捕捉时间模式,减少随机噪声的影响。最近提出了许多不同的架构(Chung et al., 2016;Che et al., 2018;沈等,2020;Chen等人,2021)在语言处理、计算机视觉、时间序列分析和语音识别等任务中改进rnn。然而,这些方法主要集中在提出一种新的基于rnn的模块,该模块并不直接适用于变压器。在transformer、TCN和MLP模型中也研究了相同的方向。最近的工作Du et al.(2022)提出了多尺度分段相关作为自注意机制的多尺度版本。我们的工作与上述方法是正交的,作为一个模型不可知的框架,在保持参数数量和时间复杂度大致相同的情况下,在变压器中利用多尺度时间序列。
图2:建议的Scaleformer框架概述。(左)单个比例块的表示。在每一步中,我们将前一步的规范化上采样输出与规范化下采样编码器一起作为输入。(右)整个建筑的图示。我们以多尺度的方式对输入进行处理,从最小尺度到原始尺度迭代。
三、方法
在本节中,我们首先介绍3.1节中的问题设置,然后描述3.2节中提出的框架,以及3.3节中的规范化方案。我们将在第3.4节中详细介绍输入的表示,并在第3.5节中详细介绍损失函数。
3.1问题设置
我们将 X ( L ) \mathbf{X}^{(L)} X(L)和 X ( H ) \mathbf{X}^{(H)} X(H)分别表示为相应长度 ℓ L , ℓ H \ell_L,\ell_H ℓL,ℓH的预测回顾和地平线窗口。给定起始时间 t 0 t_0 t0,我们可以将这些时间序列 d x d_x dx表示为: X ( L ) = { x t ∣ x t ∈ R d x , t ∈ [ t 0 , t 0 + ℓ L ] } \mathbf{X}^{(L)}=\{\mathbf{x}_t|\mathbf{x}_t\in\mathbb{R}^{d_x},t\in[t_0,t_0+\ell_L]\} X(L)={xt∣xt∈Rdx,t∈[t0,t0+ℓL]} X ( H ) = { x t ∣ x t ∈ R d x , t ∈ [ t 0 + ℓ L + 1 , t 0 + ℓ L + ℓ L ] } \mathbf{X}^{(H)}=\{\mathbf{x}_t|\mathbf{x}_t\in\mathbb{R}^{d_x},t\in[t_0+\ell_{L}+1,t_0+\ell_L+\ell_{L}]\} X(H)={xt∣xt∈Rdx,t∈[t0+ℓL+1,t0+ℓL+ℓL]}。预测任务的目标是在回顾窗口 X ( L ) \mathbf{X}^{(L)} X(L)的情况下预测地平线窗口 X ( H ) \mathbf{X}^{(H)} X(H)。
3.2多尺度框架
我们提出的框架应用连续的变压器模块来迭代地细化时间序列预测,在不同的时间尺度。建议的框架如图2所示。
给定输入时间序列 X ( L ) \mathbf{X}^{(L)} X(L),我们在不同的时间尺度上多次迭代地应用相同的神经模块。具体地说,我们考虑一组尺度 S = { s m , . . . , s 2 , s 1 , 1 } S=\{s^{m},...,s^{2},s^{1},1\} S={sm,...,s2,s1,1}(即对于s = 2的默认比例,s是2的连续幂的集合),其中 m = ⌊ log s ℓ L ⌋ − 1 m=\lfloor\operatorname{log}_{s}\ell_{L}\rfloor-1 m=⌊logsℓL⌋−1,s是降比例因子。编码器在第i步(0≤i≤m)的输入是原始的回看窗口 X ( L ) \mathbf{X}^{(L)} X(L),通过平均池化操作以 s i ≡ s m − i s_{i}\equiv s^{m-i} si≡sm−i的比例因子下采样。另一方面,解码器的输入是通过线性插值上采样系数为s的 X i − 1 o u t \mathbf{X}_{i-1}^{\mathrm{out}} Xi−1out。
最后,将 X 0 d e c \mathbf{X}_0^{\mathrm{dec}} X0dec初始化为一个0数组。模型执行如下操作:
其中,
X
i
(
L
)
\mathbf{X}_i^{(L)}
Xi(L)和
X
i
(
H
)
\mathbf{X}_i^{(H)}
Xi(H)分别为第i步在t时刻的回望窗和水平窗,尺度因子为
s
m
−
i
s^{m-i}
sm−i,长度分别为
ℓ
L
,
i
and
ℓ
H
,
i
\ell_{L,i}\text{ and }\ell_{H,i}
ℓL,i and ℓH,i。假设
x
′
t
,
i
−
1
\mathbf{x^{\prime}}_{t,i-1}
x′t,i−1是步骤i−1时刻预测模块的输出,我们可以将
X
i
епс
a
n
d
X
i
d
e
c
\mathbf{X}_i^\text{епс }{\mathrm{and~}}\mathbf{X}_i^{\mathrm{dec}}
Xiепс and Xidec定义为归一化的输入:
最后,我们计算
X
i
(
H
)
a
n
d
X
i
o
u
t
\mathbf{X}_i^{(H)}\mathrm{~and~}\mathbf{X}_i^{\mathrm{out}}
Xi(H) and Xiout之间的误差作为损失函数来训练模型。有关前向传递过程中执行的操作顺序的详细信息,请参阅算法1。
3.3跨尺度归一化
给定第i步变压器的编码器和解码器的一组输入序列( X i e n c , X i d e c \mathbf{X}_{i}^{\mathrm{enc}},\mathbf{X}_{i}^{\mathrm{dec}} Xienc,Xidec),尺寸分别为 ℓ L i × d x and ℓ H i × d x , \ell_{L_i}\times d_x\text{ and }\ell_{H_i}\times d_x, ℓLi×dx and ℓHi×dx,,我们基于 X i епс a n d X i d e c \mathbf{X}_i^\text{епс }{\mathrm{and~}}\mathbf{X}_i^{\mathrm{dec}} Xiепс and Xidec的时间平均值对每个序列进行归一化。更正式的:
其中
μ
ˉ
X
i
∈
R
d
x
\bar{\mu}_{\mathbf{X}_i}\in\mathbb{R}^{d_x}
μˉXi∈Rdx是回顾窗口和地平线连接的时间维度的平均值。这里,
X
^
i
епс
a
n
d
X
^
i
d
e
c
\hat{\mathbf{X}}_i^\text{епс }{\mathrm{and~}}\hat{\mathbf{X}}_i^{\mathrm{dec}}
X^iепс and X^idec是预测模块第i步的输入。
图3:该图显示了两个序列使用相同的训练多尺度模型进行数据移位和不进行数据移位的输出结果(左),这表明了归一化的重要性。在右边,我们可以看到由于与电力数据集的原始尺度相比,两个系列的下采样而导致的分布变化。
分布移位是指模型或其子组件的输入分布在训练到部署期间发生变化(Shimodaira, 2000;ioffe&szegedy, 2015)。在我们的环境中,两种不同的分布变化是常见的。首先,在回顾窗口和预测窗口之间存在自然分布移位(协变量移位)。此外,在两个连续尺度上的预测预报窗口之间存在分布移位,这是上采样操作和中间计算期间的误差积累的结果。因此,通过回顾窗口统计信息或先前预测的预测窗口统计信息对给定步骤的输出进行规范化会导致跨步骤的错误累积。我们通过考虑预测和回顾统计的移动平均值作为输出归一化的基础来缓解这种情况。虽然这种变化可能看起来相对较小,但它对产出的分配产生重大影响。与其他方法(即通过回顾或以前的预测窗口统计数据进行规范化)相比,改进更为明显。
3.4输入嵌入
按照前面的工作,我们嵌入输入,使其具有与模型的隐藏维度相同数量的特征。嵌入包括三个部分:(1)值嵌入,它使用线性层将每一步的输入观测值映射到与模型相同的维度。我们进一步连接一个额外的值0、0.5或1,分别显示每个观察是来自回望窗口、零初始化还是前一步的预测。(2)时间嵌入,再次使用线性层将与每个观测值相关的时间戳嵌入到模型的隐维中。这里,我们在传递到线性层之前,将一个额外的值1/
s
i
s_i
si - 0.5连接为网络的电流尺度。(3)我们还使用了一种固定的位置嵌入方法,该方法适用于不同的尺度
s
i
s_i
si,如下所示:
3.5损失函数
使用标准的MSE目标来训练时间序列预测模型使它们对异常值敏感。一个可能的解决方案是使用对异常值更稳健的目标,例如Huber损失(Huber, 1964)。然而,当没有主要的异常值时,这些目标往往表现不佳。鉴于数据的异质性,我们转而利用自适应损失(Barron, 2019):
表1:我们提出的不同方法(-MSA)的多尺度框架版本在各自基线下的MSE和MAE结果的比较。给出了在不同视界窗口长度的多变量设置下的结果。最好的结果以粗体显示。我们的方法在几乎所有的数据集和设置上都优于普通版本的基线。相对于基本模型,底部的绿色数字显示了平均改进(误差减少)。
在步骤i中,
ξ
=
(
X
i
o
u
t
−
X
i
(
H
)
)
\begin{aligned}\xi=(\mathbf{X}_i^{\mathrm{out}}-\mathbf{X}_i^{(H)})\end{aligned}
ξ=(Xiout−Xi(H))。参数α和c调节对异常值的损失敏感性,在训练过程中以端到端方式学习。据我们所知,这是第一次将这一目标应用于时间序列预测。
四、实验
在本节中,我们首先展示4.1节中我们提出的方法在各种预测数据集上的主要结果。然后,我们在第4.2节中对模型的不同组成部分进行了消融研究,并在第4.3节中给出了定性结果。此外,我们在第4.4节讨论了我们的方法的一系列附加扩展,揭示了有希望的未来方向。
4.1主要结果
基线:为了衡量所提出框架的有效性,我们主要使用最先进的基于变压器的模型FedFormer (Zhou等人,2022b), Reformer (Kitaev等人,2020),Performer (Choromanski等人,2020),Informer (Zhou等人,2021)和Autoformer (Xu等人,2020)。2021),这些模型被证明优于其他基于变压器的模型(例如LogTrans (Li等人,2019),Reformer (Kitaev等人,2020)),基于rnn的模型(例如LSTMNet (Lai等人,2018),LSTM)和TCN (Bai等人,2018)。为简洁起见,我们只与表中的转换器模型进行比较。
数据集:我们考虑了四个具有不同特征的公共数据集来评估我们提出的框架。ECL (Electricity Consuming Load)1对应321个客户端的用电量(Kwh)。Traffic2汇总了旧金山湾区高速公路上963条车道的每小时占用率。Weather3包含21项气象指标,如气温、湿度等,每10分钟记录一次2020年全年。汇率(Lai et al., 2018)收集了8个国家(澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰和新加坡)从1990年到2016年的每日汇率。国家疾病(ILI) 4对应于美国疾病控制和预防中心每周记录的流感样疾病患者。我们考虑视界长度为24、32、48和64,输入长度为32。
表2:未跨尺度归一化的多尺度框架。在使用多尺度框架时,正确地在不同尺度上进行归一化(根据我们的交叉均值归一化)对于获得良好的性能至关重要。
实现细节:延续前期工作(Xu et al., 2021;Zhou等人,2021),我们传递
X
епс
=
X
(
L
)
\mathbf{X}^\text{епс}=\mathbf{X}^{(L)}
Xепс=X(L)作为编码器的输入。虽然默认传递给解码器的是一个零值数组,但解码器将用零填充的后半部分回看窗口作为输入
X
dec
=
{
x
t
0
+
ℓ
L
/
2
,
.
.
.
,
x
ℓ
L
,
0
,
0
,
.
.
.
,
0
}
\mathbf{X}^{\text{dec}}=\{\mathbf{x}_{t_0+\ell_L/2},...,\mathbf{x}_{\ell_L},0,0,...,0\}
Xdec={xt0+ℓL/2,...,xℓL,0,0,...,0},长度为
ℓ
L
/
2
+
ℓ
H
.
\ell_L/2+\ell_H.
ℓL/2+ℓH.。模型的隐藏维度为512,批大小为32。我们使用学习率为1e-4的Adam优化器。回望窗口的大小固定为96,地平线从96到720不等。我们将每个实验重复5次,并报告平均值以减少随机性。有关我们的模型和基线的更多实施细节,请参阅附录A。
主要结果和与基线的比较:表1显示了拟议框架与基线的比较结果。我们提出的具有自适应损耗的多尺度框架在几乎所有实验中都优于基线,比FEDFormer平均提高5.6%,比Autoformer平均提高13%,比Informer平均提高38%,这是MSE上最新的三种基于变压器的架构。我们还在MAE上实现了显著的误差降低。在所有情况下,这种改善在统计上都是显著的,在某些情况下,这种改善相当显著。特别是对于汇率数据集,使用Informer和Reformer基础模型,我们的方法在不同视距长度上平均提高了各自基线的50%以上。
时间和内存复杂度:所提出的框架使用相同数量的模型参数作为基线(自适应损失的两个参数α和c除外)。我们的框架牺牲了少量的计算效率,以获得显著的性能改进。我们在附录c中扩展了我们的分析。如附录中的表4所示,如果我们用先前输出的插值来替换最终规模的操作,我们可以在没有计算开销的情况下获得比基线更高的性能。
图4:训练与自适应损失“-A”、多尺度框架与MSE损失“-MS”、多尺度框架与自适应损失“-MSA”的对比。它显示了我们所建议的所有贡献的组合是必不可少的,并且显著提高了性能。
表3:跨尺度归一化“-N”的单尺度框架。跨尺度归一化(在单尺度情况下对应于输出的均值归一化)并不能改善自耦器的性能,因为它已经有一个内部趋势周期归一化组件。然而,它确实改善了Informer和FEDformer的结果。
4.2消融研究
我们在本节中介绍了主要的消融研究,更多的消融结果见附录G。
每个分量的影响:我们的方法的两个重要组成部分是多尺度框架和自适应损失的使用。我们进行了多个实验(1)去除多尺度框架和/或(2)用MSE替换自适应损失进行训练,以证明这两个组件的好处。图4显示了不同基础模型下的多尺度效果和损失函数。考虑到消除自适应损失的影响,我们可以看到,无论对于多尺度模型还是基本模型,使用自适应损失进行训练都可以提高性能。同样,添加多尺度框架可以提高性能,无论是否有自适应损失。综上所述,将自适应损失与多尺度框架相结合可以获得最佳的性能。
跨尺度归一化:正如我们在3.3节中讨论的那样,跨尺度归一化对于避免分布偏移至关重要。为了证实这一点,我们进行了两个实验。首先,我们使用没有跨尺度归一化的多尺度框架,论证了尺度之间的误差累积和协变量移位比单一尺度导致更高的误差。如表2所示,虽然多尺度框架在少数情况下可以得到更好的结果,但大多数情况下其误差高于基线。
另一方面,通过减少训练序列和测试序列之间协变量移位的影响,仅添加单个尺度的归一化仍然可以帮助获得更好的性能。如表3所示,归一化一致地改善了Informer和FEDformer的结果。Autoformer的分解层解决了类似的问题,用我们的归一化代替分解层会损害模型的容量。
4.3定性结果
我们还在图5中展示了香草Informer和FEDformer与我们的框架的结果之间的定性比较。最值得注意的是,在这两种情况下,我们的方法在预测信号的统计特性(如局部方差)方面表现得明显更好。我们基于比例转换器的模型比它们的基线更好地捕捉趋势(和其他与人类相关的)信息。尽管有这些有趣的发现,但我们想强调的是,这些是随机选择的定性例子,可能有其自身的局限性。有关更多的定性结果,请参阅附录的第一节。
4.4扩展与讨论
当应用于基于变压器的确定性时间序列预测时,Scaleformer结构先验已被证明是有益的。然而,它并不局限于这些设置。在本节中,我们将展示它可以扩展到概率预测和非基于变压器的编码器,这两者都与我们的主要应用密切相关。我们还旨在突出潜在的有希望的未来方向。
图5:基本模型与我们的框架的定性比较。我们的多尺度模型可以更好地捕捉信号的全球趋势和局部变化,而不是它们的基线等效。为了保持图的简洁和可读性,我们只显示了Informer和FEDformer,更多结果请参见附录中的图8。
我们展示了Scaleformer可以在概率预测设置中提高性能(详细信息请参见附录中的表9)。我们采用DeepAR的概率输出(Salinas et al., 2020),这是最常见的概率预测处理。在这种情况下,我们有两个预测头,而不是点估计,预测平均值µ和标准差σ,用负对数似然损失(NLL)训练。采用NLL和连续排序概率评分(CRPS)作为评价指标。所有其他超参数保持不变。在这里,规模变换继续优于概率信息变换。
虽然我们主要关注改进基于变压器的模型,但它们并不是唯一的编码器。最近的模型,如NHits (Challu等人,2022)和FiLM (Zhou等人,2022a),在假设固定长度的单变量输入/输出的情况下,获得了有竞争力的表现。与可变长度的多变量输入/输出相比,它们的灵活性较差,但性能较强,推理速度比变压器快,因此值得考虑。当被NHits和FiLM用于迭代改进预测时,Scaleformer先前显示了统计上显着的改进。详情请参阅附录K。
上述结果表明,ScaleFormer可以适应与变压器点时间序列预测不同的设置(本文的主要范围),例如概率预测和非变压器模型。因此,我们认为这些方向对今后的工作是有希望的。
五、结论
注意到引入考虑多尺度信息的结构先验对于准确的时间序列预测至关重要,本文在最近使用变压器进行时间序列预测的最先进方法的基础上提出了一种新的多尺度框架。我们的框架在越来越细粒度的尺度上迭代地细化预测的时间序列,并引入一种标准化方案,使尺度之间的分布变化最小化。这些贡献大大提高了基准变压器架构的性能,跨越各种设置,并定性地产生预测,更好地捕捉目标信号的趋势和局部变化。此外,我们详细的消融研究表明,不同的成分协同工作,以实现这一结果。
A 实现细节
我们的实现是基于Pytorch (Paszke等人,2019)对Autoformer和Informer (Xu等人,2021)的实现5。模型的隐藏维数固定为512,批大小为32,我们在启用提前停止的情况下训练每个模型10个epoch。为了优化模型,我们使用了一个Adam优化器,对预测模型的学习率为1e-4,对自适应损失的优化学习率为1e-3。预测模块固定为2个编码器层和1个解码器层。回望窗口的大小固定为96,地平线从96到720不等。我们将每个实验重复5次,以减少报告值的随机性影响。在所有实验中,时间尺度因子s固定为2。对于Informer,我们不做任何改变地训练模型作为我们框架的核心。然而,Autoformer在解码器的输入端使用了一个分解层,并且没有将趋势序列传递给网络,这使得模型不知道之前的预测。为了解决这个问题,我们将零作为趋势,并将未分解的级数作为解码器的输入。对于Reformer,我们使用了Xu等人(2021)的模型的可用实现6。此外,我们使用Performer的pytorch库7 (Choromanski等人,2020)作为我们的Performer基线,使用与我们的Reformer模型相同的参数,最后,我们使用FEDformer的官方实现8 (Zhou等人,2022b)作为FEDformer模型。我们在原论文的基础上将模式数固定为64,并将核心模块的小波增强结构固定为64。为了使其与我们的其他实验一致,我们像Xu等人(2021)一样使用内核大小为25的移动平均,然而,FEDformer (Zhou等人,2022b)使用内核大小为24的移动平均。我们的随机种子在所有实验中都固定在2022年。
B更多的动机
本节旨在为使用多尺度架构提供更多的动机。让我们首先考虑以下经典例子,在Ferreira et al.(2006)的第2节中强调,对应于1913年1月至1990年12月弗雷泽河的月度流量。如图所示,年平均值之间存在很强的相互关系,这表明仅凭季节性因素不足以对变化进行建模。在本文的上下文中,这展示了ARMA模型的失效模式,但这种失效更普遍:没有明确考虑尺度间依赖关系的模型在类似的数据集上表现不佳。不同的方法试图引入多尺度处理(Ferreira et al., 2006;Mozer, 1991),其方式与我们自己的方法不同。(Mozer, 1991)介绍了音乐创作的多音阶时间结构。Ferreira et al.(2006)通过不同分辨率随时间演化的耦合过程,提出了一种具有丰富自相关结构的时间序列模型。然而,他们的基础模型仅限于简单的统计模型,如自回归模型。综上所述,我们注意到以下几点:(1)上述方法已经成功地应用了多尺度建模,(2)我们是第一个明确考虑变压器多尺度先验构造的工作。
C降低计算成本
为了获得Scaleformer的总运行时间的估计,将每个尺度的运行时间作为基于尺度因子s的几何级数项,其结果是总时间乘以基线方法的运行时间 1 − s m 1 − s \frac{1-s^{m}}{1-s} 1−s1−sm。在这方面,表4显示了在64核GeForce GTX 1080 Ti GPU上,当批量大小为32时,s = 2不同实验的运行时间。虽然我们当前的代码没有优化,但每个方法的缩放器仍然需要大约两倍的基线,这与上述公式一致。请注意,这是最小的规模,这意味着我们的方法被限制在基线的两倍,考虑更大的规模因素可以减少时间开销。表5显示了在实际尺度上通过前一个尺度的值的插值替换Scaleformer操作的影响,即,在尺度上,我们不应用变压器,而是通过 X m − 1 o u t \mathbf{X}_{m-1}^{\mathrm{out}} Xm−1out的线性插值来计算结果,从而降低了计算成本。这种低成本的替代方案比基准性能更好,但比完整的Scaleformer效果更差。这表明添加缩放确实更有效,并且可能在进一步改进的性能(完整Scaleformer)或改进的计算效率(插值Scaleformer)之间进行权衡。
表5:我们提出的多尺度框架版本的Informer和Autoformer的MSE和MAE结果的比较,通过删除最后一步并使用插值(-MSAr)代替相应的原始模型作为基线。给出了在不同视界窗口长度的多变量设置下的结果。所有实验的回望窗口大小固定为96。最好的结果以粗体显示。我们的方法在几乎所有的数据集和设置上都优于普通版本的Informer和Autoformer。