PERIODICITY DECOUPLING FRAMEWORK FOR LONG- TERM SERIES FORECASTING

系列文章目录

长期序列预测的周期性解耦框架 ICLR2024



摘要

基于卷积神经网络 (CNN) 和 Transformer 的方法最近在时间序列预测方面取得了重大进展,它们擅长对局部时间变化进行建模或捕获长期依赖性。 然而,现实世界的时间序列通常包含复杂的时间模式,这使得主要关注直接从一维时间序列进行时间变化建模的现有方法面临挑战。 基于时间序列的内在周期性,我们提出了一种新颖的周期性解耦框架(PDF)来捕获解耦序列的二维时间变化以进行长期序列预测。 我们的PDF主要由三个部分组成:多周期解耦块(MDB)、对偶变化建模块(DVMB)和变化聚合块(VAB)。 与之前模拟一维时间变化的方法不同,我们的 PDF 主要模拟二维时间变化,通过 MDB 与一维时间序列解耦。 之后,DVMB 尝试进一步捕获短期和长期变化,然后 VAB 做出最终预测。 七个真实世界长期时间序列数据集的广泛实验结果证明了我们的方法在预测性能和计算效率方面优于其他最先进的方法。 代码可在 https://github.com/Hank0626/PDF 获取。


一、INTRODUCTION

时间序列预测在多种应用中发挥着重要作用,包括天气预报(Angryk等,2020)、能源管理(Zhou等,2021)、金融投资(Patton,2013)和交通流量估计(Chen等) .,2001)。 近年来,随着深度学习的快速发展,出现了大量基于深度学习(DL)的时间序列预测方法(Lim & Zohren,2021),大致可分为基于 CNN 的方法(Wang et al., 2022;Liu 等人,2022a)和基于 Transformer 的方法(Li 等人,2019;Zhou 等人,2021)。

现有的基于深度学习的方法主要直接关注一维时间变化建模,这在时间序列预测中起着至关重要的作用。 其中,基于CNN的方法(Bai et al., 2018; Wang et al., 2022; Wu et al., 2023)显示出捕获短期变化的强大能力。 例如,TCN(Bai et al., 2018)利用卷积运算沿时间维度融合时间序列的局部信息,并在短期和中期预测中表现出优越的性能。 然而,由于长期依赖性的表示有限,这种类型的方法通常不适用于长期时间序列。 相比之下,基于 Transformer 的方法(Li et al., 2019;Zhou et al., 2021;Wu et al., 2021)由于使用自注意力机制而擅长捕获长期依赖性。 例如,Autoformer(Wu et al., 2021)尝试利用自相关机制来利用序列时间依赖性。 PatchTST(Nie 等人,2023)提出了一种新颖的修补策略,以在每个补丁中保留本地语义信息。 尽管基于 Transformer 的方法比基于 CNN 的方法表现出更具竞争力的性能,但它们通常会遭受沉重的计算成本,特别是对于长期时间序列输入,从而限制了它们的实际应用。
在这里插入图片描述
图 1:(a) 基于周期性的短期和长期序列解耦的图示。 (b) 我们的 PDF 的 MSE 和补丁数与其他基于 Transformer 的方法的比较,以预测 Traffic 数据集上未来 96 个时间步长。 基于 Transformer 的方法在补丁数量较多时获得较差的 MSE 结果。 相比之下,我们的 PDF 在 960 长度的回顾窗口上仅使用 24 个补丁就实现了最低的 MSE。 圆的半径就是面片的数量。

值得考虑的是,由于涉及复杂的模式,一维时间变化的建模可能是一项复杂的任务。 这些变化可以有多种类型,包括短期波动、下降和上升,这些变化通常可以相互重叠(见图 1a)。 尽管面临挑战,研究人员在这一领域取得了重大进展,而模拟时间变化的最有效方法仍然是一个悬而未决的问题。 然而,值得注意的是,现实世界的时间序列通常表现出多周期性,例如流量预测的每日和每周变化,这一点在最近的工作中得到了证实(Wu et al., 2023)。 此外,长期时间序列可以根据预定周期进行简化或解耦。 例如,如图1a所示,原始时间序列可以解耦为短期序列和长期序列,分别包含短期变化和长期依赖关系。 通过考虑这些观察结果,我们可以利用周期信息来解耦长期时间序列。

受上述观察的启发,我们提出了一种新颖的周期性解耦框架(PDF),通过捕获时间序列内复杂的周期性信息来进行长期序列预测。 基于时间序列的周期性,原始一维时间序列可以进一步解耦为更简单的短期序列和长期序列,分别代表一维时间序列的局部变化和全局相关性。 由于短期变化(例如波动、上升、下降)的多样性,我们采用“频率切片”,对应不同的周期,将回溯窗口划分为多个子序列。 对于长期变化,我们利用“周期修补”来提取所有周期内相应时间段内的变化(见图1a)。 “周期补丁”确保每个补丁都包含丰富的长期语义信息。

从技术上讲,我们提出了一种用于长期时间序列预测的新颖的周期性解耦框架(PDF)。 如图 2 所示,我们的 PDF 包含三个主要组件:多周期解耦块(MDB)、对偶变化建模块(DVMB)和变化聚合块(VAB)。 与之前专注于 1D 时间变化建模的方法不同,我们的 PDF 模型是 2D 时间变化。 具体来说,多周期解耦模块首先根据频域输入序列的周期将一维时间序列解耦为不同的短期和长期一维序列,然后进一步重塑为具有丰富短期和长期特征的二维张量。 术语变化。 之后,对偶变化建模块尝试从解耦的二维张量捕获短期和长期变化,然后是变化聚合块以做出最终预测。 我们的 PDF 上的扩展实验证实了其在各种长期时间序列数据集上的预测性能和计算效率方面的最先进性能。 值得注意的是,如图 1b 所示,与其他基于 Transformer 的方法相比,我们的 PDF 可以更好地处理长期序列(回溯窗口长度为 960),同时不会牺牲计算成本(仅 24 个补丁)。

我们的主要贡献总结如下:
• 我们提出了一种用于长期序列预测的新颖周期性解耦框架(PDF),它完全捕获并行架构中解耦序列的二维时间短期和长期变化。
• 我们提出多周期解耦块来捕获频域中输入序列的各个周期。 根据时间序列的周期性,一维时间序列可以解耦为用二维张量表示的更简单的短期和长期序列。 为了充分捕获短期和长期变化,我们提出了具有短期和长期变化提取器的双重变化建模模块(DVMB),它能够在利用长期依赖性的同时保留短期变化的高频信息 。
• 大量实验证明,在各种长期时间序列数据集上,我们的 PDF 在预测性能和计算效率方面优于其他最先进的方法。

二、 RELATED WORK

传统的时间序列预测方法,如 ARIMA (Anderson & Kendall, 1976) 和 HoltWinter (Hyndman & Athanasopoulos, 2018) 提供了强大的理论框架,但在处理复杂的时间动态数据时受到限制。 近年来,基于深度学习的方法在时间序列预测方面取得了里程碑式的成就,主要包括基于 CNN 的方法(Wu et al., 2023)和基于 Transformer 的方法(Lim & Zohren, 2021)。

卷积神经网络(CNN)因其捕获局部特征的能力而受到广泛欢迎(Xia et al., 2017;Zhang et al., 2021;Woo et al., 2023)。 许多基于 CNN 的时间序列预测方法采用时间卷积网络 (TCN) 来提取局部时间动态 (Bai et al., 2018; Liu et al., 2022a; Wang et al., 2022),其中 MICN (Wang et al., 2022) ,2022)和 TimesNet(Wu et al.,2023)与我们的方法相关。 通常,MICN 尝试结合局部特征和全局相关性,通过卷积核捕获时间序列的整体视图。 TimesNet 专注于通过提取“周期内”和“周期间”变化来对 2D 空间中的 2D 时间变化进行建模。 然而,这些方法严重依赖卷积核来对序列变化进行建模,导致长期依赖性的表示有限。 相反,我们的方法可以使用双变量建模块同时捕获短期和长期变化。

另一种基于 Transformer 的方法在长期时间序列预测中表现出更具竞争力的性能。 借助自注意力机制,Transformer 及其变体能够捕获长期依赖性并提取全局信息(Dosovitskiy et al., 2021; Fan et al., 2021; Ryoo et al., 2021; Liu et al., 2022b)。 然而,它们的可扩展性和效率受到注意力机制的二次复杂度的限制。 为了缓解这个问题,提出了各种技术来降低 Transformer 的复杂性。 例如,LogTrans(Li et al., 2019)利用卷积自注意力来降低空间复杂度。 Informer(Zhou et al., 2021)应用提炼策略来利用最关键的密钥。 Pyraformer(Liu et al., 2021)提出了一种具有尺度间和尺度内连接的金字塔注意力设计。 最近的工作 PatchTST(Nie 等人,2023)采用基于补丁的策略来增强局部性,同时提高长期预测精度。 然而,现有的基于 Transformer 的方法仍然专注于一维时间变化建模,并且长期时间序列的计算负担很重。 相反,我们提出了一种更有效的周期性解耦框架(PDF),通过在并行架构中充分捕获 2D 时间短期和长期变化来进行长期序列预测。

三、PERIODICITY DECOUPLING FRAMEWORK 周期性解耦框架

3.1 THE OVERALL ARCHITECTURE

在时间序列预测中,给定历史输入序列 X I = [ x 1 , x 2 , … , x t ] T ∈ R t × d , \mathbf{X}_I = [\mathbf{x}_1,\mathbf{x}_2,\ldots,\mathbf{x}_t]^T \in \mathbb{R}^{t\times d}, XI=[x1,x2,,xt]TRt×d,,其目的是预测未来的输出序列 X O = [ x t + 1 , x t + 2 , … , x t + T ] T ∈ R T × d \mathbf{X}_O = [\mathbf{x}_{t+1},\mathbf{x}_{t+2},\ldots,\mathbf{x}_{t+T}]^T \in \mathbb{R}^{T\times d} XO=[xt+1,xt+2,,xt+T]TRT×d,其中 t、T 分别是过去和未来的时间步数,其中 d > 1 是维度数。 我们方法的整体架构如图 2 所示。在我们的 PDF 中,由于复杂的时间模式,解耦一维时间序列以实现更好的变化建模是第一步。 为此,我们设计了一个多周期解耦块来学习频域中输入序列的周期,并将一维时间序列转换为短期和长期序列,然后重塑为二维张量。 然后,将获得的短期和长期二维张量输入到多个双变量建模模块(DVMB)中,以并行方式对短期和长期变化进行建模。 最后,我们使用变体聚合块来合并所有 DVMB 的输出,以产生最终的预测 XO。 有关 PDF 的更多详细信息将在以下部分中显示。

在这里插入图片描述图 2:我们的周期性解耦框架的架构,主要由多周期解耦块、对偶变化建模块和变化聚合块组成。

3.2 MULTI-PERIODIC DECOUPLING BLOCK

多周期解耦模块使用周期性提取器和基于周期的重塑器将 1D 时间序列转换为 2D 空间。 然后利用时间变化解耦器通过“周期修补”和“频率切片”来解耦长期和短期信息。

周期性提取器。 之前的工作(Wu et al., 2023)强调,时间序列的原始一维结构不足以仅表示相邻时间点的变化,而二维结构可以有效捕获周期内和周期之间的变化。 因此,对于给定的 d 维一维输入 X I ∈ R t × d \mathbf{X}_{I}\in\mathbb{R}^{{t}\times d} XIRt×d,我们采用快速傅里叶变换 (FFT) (Chatfield, 1981) 来分析频域中的时间序列,如下所示:
在这里插入图片描述
这里,FFT和Amp分别表示FFT和幅度提取。 d 个通道上的通道平均运算 Avg 产生 A ∈ R t \mathbf{A}\in\mathbb{R}^t ARt,表示 t 个频率的幅度。 具体地,第j个值 A j A_j Aj表示频率f的周期基函数的强度。 在下面的计算中,我们使用单变量 X I ∈ R t X_{I}\in{\mathbb{R}}^{t} XIRt而不是 XI 来表示输入时间序列,因为后续的变换和预测是以通道无关的方式进行的(Zheng et al., 2014;Nie et al., 2023) 。

与吴等人不同。 (2023),我们选择的频率不仅关注高振幅,而且还纳入那些具有显着值和振幅的频率。 我们断言,具有高振幅的频率更好地代表主要成分,而具有较大值的频率有助于更明显地区分长期和短期关系。 我们通过以下方式总结 k 频率选择:

在这里插入图片描述
在这里插入图片描述
其中 F u \mathbf{F}_{u} Fu F k 1 \mathbf{F}_{k1} Fk1分别表示 A 中振幅最高的 u 和 k1 频率。 我们确保 u 大于或等于 k 1 k_1 k1。 由于频域中的共轭对称性,f*仅关注前 [ t 2 ] \left[\frac t2\right] [2t]频率。 最终的 k 个频率集由 Fk1 和具有 F u ∖ F k 1 \mathbf{F}_u\setminus\mathbf{F}_{k_1} FuFk1中最大值的 top-k2 频率组成。

基于周期的重塑器。 基于选定的频率 { f 1 , ⋯   , f k } \{f_1,\cdots,f_k\} {f1,,fk}和相应的周期长度 { p 1 , ⋯   , p k } ( p i = ⌈ t f i ⌉ ) \{p_1,\cdots,p_k\} (p_i=\lceil\frac t{f_i}\rceil) {p1,,pk}(pi=fit⌉),我们将 1D 输入序列 X I ∈ R t X_I\in\mathbb{R}^t XIRt 重塑为 k 个 2D 张量:
在这里插入图片描述
这里,Padding(·) 用于通过为 Reshape ⁡ f i , p i ( ⋅ ) \operatorname{Reshape}_{f_i,p_i}(\cdot) Reshapefi,pi()填充零来将 X I X_I XI 的长度扩展为 p i × f i p_i\times f_i pi×fi,其中 fi 和 pi 分别表示 2D 张量的行数和列数。 对于获得的二维张量 X 2 D i ∈ R f i × p i X_{2\text{D}}^i\in\mathbb{R}^{f_i\times p_i} X2DiRfi×pi ,每行代表短期变化,每列代表长期变化。 然后,我们使用时间变化解耦器通过“周期修补period patching”和“频率切片frequency
slicing”来解耦长期和短期信息。

周期补丁:将补丁长度表示为 p,步长表示为 s,我们将 X 2 D i ∈ R f i × p i X_{\mathrm{2D}}^{i}\in\mathbb{R}^{f_{i}\times p_{i}} X2DiRfi×pi沿维度 p i p_i pi 划分并沿维度 f i f_i fi 聚合以形成补丁。 具体来说, X 2 D i X_{\mathrm{2D}}^{i} X2Di 被补丁成多个补丁 x g i , j ∈ R N × P x_g^{i,j}\in\mathbb{R}^{N\times P} xgi,jRN×P,其中 N = ⌊ ( p i − p ) s ⌋ + 1 N=\lfloor\frac{(p_i-p)}s\rfloor+1 N=s(pip)+1是补丁的数量,每个补丁包含 P = f i × p P=f_{i}\times p P=fi×p个时间步。 x g 11 i , j x_{g_{11}}^{i,j} xg11i,j 表示第 j 个补丁。 这种修补策略压缩了所有时期之间完整的长期变化。

与以前的补丁策略相比(Nie et al., 2023;Zhang&Yan, 2023),我们的补丁捕获了更广泛的范围和更丰富的语义信息,增强了 Transformer 建模长期变化的能力。 同时,由于补丁数量从t/s减少到max( p i p_i pi)/s,计算成本显着降低。

频率切片:除了 f i f_i fi 维度,我们将 X 2 D i X_{2\text{D}}^i X2Di分成几个 1D 短期切片 x l i , r x_l^{i,r} xli,r R p i \mathbb{R}^{p_i} Rpi,其中r \in [1,f_i] 表示 X 2 D i X_{2\mathrm{D}}^{i} X2Di的第 r 行。 每个局部切片代表每个时期内的短期变化。

3.3 DUAL VARIATIONS MODELING BLOCK

如图 4 所示,双变量建模模块由两部分组成:长期变量提取器和短期变量提取器。 它采用双分支并行架构来模拟时间序列的长期和短期变化。 这种并行结构不仅更好地保留了短期变化的高频信息,而且提高了计算效率(Wang et al., 2022;Si et al., 2022)。 各成分的详细情况如下。

长期变化提取器:给定具有长期信息的补丁 x g i , j ∈ R N × P x_g^{i,j}\in\mathbb{R}^{N\times P} xgi,jRN×P,我们首先通过线性投影将它们投影到潜在空间中: x g i , j = L i n e a r ( x g i , j ) ∈ R N × D x_{g}^{i,j}=\mathrm{Linear}(x_{g}^{i,j})\in\mathbb{R}^{N\times D} xgi,j=Linear(xgi,j)RN×D, 其中 D 是潜在空间的维度。 随后, x g i , j x_{g}^{i,j} xgi,j 将经过几个 Transformer 编码器层。 各层的具体流程可以描述如下:

在这里插入图片描述

这里,BatchNorm(·) 表示批量归一化(Ioffe & Szegedy, 2015)。 MLP(·)是多层线性前馈神经网络。 多头自注意力 MSA(·) 机制通过采用多个独立的自注意力头来增强表示能力。 每个头捕获不同补丁之间不同类型的长期依赖关系。 所有这些头组合起来可以通过以下方式获得更全面的依赖关系:
在这里插入图片描述
短期变化提取器:该模块包含一系列卷积块,每个卷积块由 Conv1d 层和非线性激活函数组成。 这些块按顺序构建,以逐渐扩大感受野,适应不同长度的周期。 对于每个局部切片 x l i , r x_{l}^{i,r} xli,r,每个块的过程为:

在这里插入图片描述
在这里插入图片描述
其中 SELU 表示缩放指数线性单位(Klambauer 等人,2017)。 为了得到卷积部分的最终预测,我们使用连接和截断操作:

在这里插入图片描述双变量建模模块的最终输出是 X g i  and  X l i X_g^i\text{ and }X_l^i Xgi and Xli的总和:
在这里插入图片描述

3.4 VARIATIONS AGGREGATION BLOCK

变体聚合块整合了 k 个 DVMB 的结果。 具体来说,我们连接这 k 个结果,然后通过参数共享线性层将它们映射以产生单变量预测 X O ∈ R T X_{O}\in\mathbb{R}^{T} XORT

在这里插入图片描述
通过堆叠d个单变量预测 X O X_O XO得到最终的多变量预测 X O ∈ R T × d \mathbf{X}_O\in\mathbb{R}^{T\times d} XORT×d

四、 EXPERIMENTS

数据集我们对七个流行的现实世界数据集(Zhou et al., 2021)进行了广泛的实验,包括电力变压器温度(ETT)及其四个子数据集(ETTh1、ETTh2、ETTm1、ETTm2)、天气、电力和交通。 我们采用与 Zhou 等人相同的训练/验证/测试分割比 0.6:0.2:0.2。 (2021) 对于 ETT 数据集,并按照 Wu 等人的做法,按照 0.7:0.1:0.2 的比例分割其余三个数据集。 (2021)。 基线我们从最近的 LTSF 领域中选择具有代表性的最先进方法作为基线,包括以下类别: 1)基于 Transformer 的模型:PatchTST(Nie 等人,2023)和 FEDformer(Zhou 等人,2022) ); 2)基于CNN的模型:TimesNet(Wu et al., 2023)和MICN(Wang et al., 2022); 3)基于线性的模型:TiDE(Das et al., 2023)和DLinear(Zeng et al., 2023)。 考虑到不同的回溯窗口大小会导致不同的性能,我们选择它们的最佳性能作为基线,并从原始论文中报告相应的结果。 遵循周等人的设置。 (2021),我们使用训练集的平均值和标准差将训练/验证/测试集标准化为零均值。 选择均方误差(MSE)和平均绝对误差(MAE)作为评价指标,与之前的方法一致。 所有模型均采用相同的预测长度 T = {96, 192, 336, 720}。 对于回顾窗口 t,我们使用 t = 336 和 t = 720 对 PDF 进行实验,而 TiDE、PatchTST 和 DLinear 使用 t = 720、512、336,所有其他模型使用 t = 96。

4.1 MAIN RESULTS

我们在表 1 中列出了多变量长期预测结果。关于计数值,PDF(720) 和 PDF(336) 取得了最好和第二好的结果,优于不同类别的所有其他方法。 从数量上来说,与基于 Transformer 的模型相比,PDF(720) 的 MSE 总体降低了 14.59%,MAE 降低了 10.77%。 与基于 CNN 的模型相比,PDF(720) 的 MSE 总体降低了 24.61%,MAE 降低了 19.91%。

与基于线性的模型相比,PDF(720) 的 MSE 总体降低了 7.05%,MAE 降低了 5.51%。 这些结果证实 PDF 可以有效地利用较长的历史回顾窗口。 此外,PDF(720) 始终优于所有基线,但 TiDE 除外,它在流量数据集上表现出较低的 MSE。 然而,TiDE 在流量数据集上的优越性能很大程度上归功于静态协变量的先验知识(Das et al., 2023)。
表1:不同预测长度T ∈ {96, 192, 336, 720}的多元长期预测结果。 方法旁边括号中的数字表示回溯窗口 t。 最好和第二好的结果用粗体和下划线表示。 最后一行 Count 表示每种方法获得最佳或次佳结果的次数。
在这里插入图片描述

4.2 EFFECTIVENESS OF PERIOD PATCHING

补丁信息分析。 最近的工作(Nie 等人,2023;Lin 等人,2023;Zhang 等人,2023)指出,增强补丁内的语义信息可以改进预测。 为了评估强调更多语义信息与长期信息的补丁的性能,我们进行了以下比较实验:1)PatchTST(336):按照原始的 PatchTST 实验设置,我们设置每个补丁长度 p = 16 和步幅 s = 8 ,总共产生 42 个补丁; 2)PatchTST(336)*:我们设置p = 64,s = 14并获得24个补丁。 与 PatchTST(336) 相比,每个补丁更长并且包含更多语义信息。 3) PDF(336):我们采用周期长度 p1 = 24 的单周期补丁,并选择 p = s = 1。假设 f1 = 336/p1 = 14,每个补丁的长度为 p × f1 = 14。 这产生了 24 个补丁,每个补丁都包含丰富的长期信息。

表2中的实验结果表明,与PatchTST(336)和PatchTST(336)相比,PDF(336)在大多数数据集上表现出显着的性能改进。 这些发现强调了补丁中包含的长期信息的重要性。 值得注意的是,PatchTST(336) 和 PDF(336) 具有相同数量的补丁。 尽管 PatchTST(336)* 中的每个补丁较长,理论上表明有可能获得更好的预测结果,但其性能并没有提高,在某些情况下甚至比 PatchTST(336) 更差。 这进一步表明仅仅扩展补丁内的语义信息不足以增强预测。 关键是要确保每个补丁捕获更多的长期信息,而我们的周期补丁方法可以有效解决这个问题。

效率分析。 为了进一步验证我们的周期修补方法的计算效率,我们进行了实验,将我们的 PDF 的乘法累加运算 (MAC)(Cao 等人,2022)与其他两种基于修补的方法在不同的回溯窗口 t ε 上进行比较 {336, 512, 720, 960} 且预测长度 T ∈ {96, 192, 336, 720}。 结果总结在表 3 中。总体而言,与 PatchTST 相比,PDF 的 MAC 减少了 34.64%,与 Crossformer 相比减少了 74.38%。 对于固定的回溯窗口 t,与预测长度 T 的增长相对应的 PDF MAC 的增加通常为数百万量级,而对于 PatchTST 和 Crossformer,则为数百万量级。 当保持预测长度恒定并增加回溯窗口的大小时,会注意到相同的观察结果。 在极端情况下,特别是对于 t = 960 和 T = 720 的 ETTh1,PDF 表现出了卓越的轻量级性能,与 PatchTST 和 Crossformer 相比,MAC 分别减少了 54.12% 和 99.71%。
表 2:具有各种语义信息的每个补丁的结果。 PatchTST(336)* 表示具有更长补丁的 PatchTST 变体(例如更多语义信息)。 最好的结果以粗体显示。
在这里插入图片描述
表 3:PDF 与其他两种基于 patch 的 Transformer 方法(PatchTST (Nie et al., 2023) 和 Crossformer (Zhang & Yan, 2023))在不同回溯窗口 t 的乘法累加运算 (MAC) 的比较 {336, 512, 720, 960} 和预测长度 T ∈ {96, 192, 336, 720}。 “M”和“G”分别代表百万和千兆操作。 最低的计算成本以粗体显示。
在这里插入图片描述

4.3 ABLATION STUDIES

卷积模块。 为了研究卷积在短期变化建模中的影响,我们进行了一项研究,比较了以下三种情况:1)并行卷积; 2)顺序卷积; 3)没有卷积。 我们在四个数据集中进行这些比较。 表 4 中的结果表明,并行卷积始终优于其串行卷积,这一优势可能源于串行架构中更深网络所带来的训练挑战。 有趣的是,没有卷积的模型比使用顺序卷积的模型产生更好的结果,凸显了过深的串行网络的缺点。 此外,与没有卷积的模型相比,并行方法在周期性较弱的数据集上实现了显着的性能改进,证明了其在不增加网络深度的情况下保留短期信息的有效性。 观察到的具有强周期性的数据集(例如流量)的性能下降强调了强调跨时期长期变化的必要性。

变异聚合方法。 我们探索了两种在变化聚合块内聚合多个 DVMB 输出的方法: 1)Concat:连接所有 DVMB 的输出并通过线性投影映射它们; 2) 平均值:计算所有 DVMB 的平均输出。 这两种聚合策略的实验结果如表5所示,这表明Concat操作通常比Mean操作具有更好的性能。

表 4:PDF 中卷积模块的消融研究。 “Par Conv”、“Seq Conv”和“w/o Conv”表示并行卷积、顺序卷积和无卷积。 最好的结果以粗体显示。
在这里插入图片描述
在这里插入图片描述

4.4 COMPUTATIONAL COMPLEXITY ANALYSIS

表 6 比较了不同基于 Transformer 的模型每层的理论复杂度。 原始 Transformer 中编码器层的复杂度为 O(t2)。 后续工作设法将编码器层的复杂度降低到 O(t log t) 甚至 O(t)。 虽然基于补丁的方法保留了二次复杂度,但当 t 不太大时,补丁长度 p 的引入使得 O(( t p)2) 优于 O(t)。 值得注意的是,除了 PDF 之外,所有现有的基于 Transformer 的方法都具有与回溯窗口 t 的长度相关的编码器层的复杂性。 PDF的计算复杂度仅与最大解耦周期长度pi有关。 这确保了即使 t 非常大,计算成本仍然很低。 例如,如果我们选择 t = 105 的电力数据集,并选择其最具代表性的周期 pi = 24 和补丁长度 p = 24,我们的计算复杂度将显着低于所有其他方法。

表 6:基于 Transformer 的模型中每层的理论计算复杂度。 t和T分别表示回溯窗口和预测窗口的长度。 d 表示变量的数量。 p 表示基于补丁的方法中每个补丁的长度。
在这里插入图片描述

五、CONCLUSIONS

本文介绍了一种用于长期序列预测的高效周期性解耦框架(PDF)。 PDF 捕获二维空间中的短期和长期时间变化。 该方法涉及使用基于周期性的多周期解耦块 (MDB) 分解复杂的一维时间序列。 此外,还提出了双变量建模模块(DVMB)来并行地从解耦的二维序列中学习短期和长期变化。 与之前仅对一维时间变化进行建模的方法相比,我们的 PDF 通过有效提取短期和长期变化而表现更好。 对现实世界数据集的实验表明,与其他最先进的方法相比,具有卓越的预测性能和计算效率。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值