MSGNet: Learning Multi-Scale Inter-Series Correlations for Multivariate Time Series Forecasting

系列文章目录

多元时间序列预测的多尺度序列间相关性学习 AAAI2024



摘要

多变量时间序列预测对各个学科提出了持续的挑战。时间序列数据往往表现出不同的序列内和序列间的相关性,导致复杂和相互交织的依赖关系,这一直是许多研究的重点。然而,在理解多个时间序列在不同时间尺度上的序列间相关性变化方面仍存在显著的研究空白,这一领域在文献中受到的关注有限。为了弥补这一差距,本文介绍了MSGNet,这是一种先进的深度学习模型,旨在利用频域分析和自适应图卷积捕捉多个时间尺度上不同的序列间相关性。通过利用频域分析,MSGNet有效地提取显著的周期模式,并将时间序列分解为不同的时间尺度。该模型采用自关注机制捕获序列内的依赖关系,同时引入自适应mixhop图卷积层,在每个时间尺度内自主学习不同的序列间相关性。在多个真实数据集上进行了大量实验,以展示MSGNet的有效性。此外,MSGNet具有自动学习可解释的多尺度序列间相关性的能力,即使应用于分布外样本也表现出强大的泛化能力。代码可从https://github.com/YoZhibo/MSGNet获得。


一、介绍

几个世纪以来,预测的艺术一直是科学家、政策制定者、精算师和销售人员的宝贵工具。它的基础在于认识到隐藏的结果,无论是未来的还是隐藏的,往往揭示了过去观察的模式。预测包括熟练地分析可用数据,揭示相互依赖关系和时间趋势,以自信地导航未知领域,并清晰而有远见地设想尚未遇到的情况。在这种情况下,时间序列预测作为一个基本概念出现,能够分析和预测随着时间推移收集的数据点,提供对股票价格(Cao 2022),天气条件(Bi et al. 2023)或客户行为(Salinas et al. 2020)等变量的见解。

在这里插入图片描述
图1:在较长的时间尺度1中,绿色和红色时间序列呈正相关,而在较短的时间尺度2中,二者呈负相关。因此,我们在这两个不同的时间尺度上观察到两个不同的图结构。

时间序列预测中有两个相互关联的领域在发挥作用:序列内相关建模(基于特定时间序列中的模式预测未来值)和序列间相关建模(探索多个时间序列之间的关系和依赖关系)。最近,深度学习模型已经成为时间序列预测突破的催化剂。一方面,循环神经网络(rnn) (Salinas et al. 2020)、时间卷积网络(TCNs) (Yue et al. 2022)和变形金刚(Zhou et al. 2021)在捕捉单个序列中的时间动态方面表现出了非凡的潜力。同时,当考虑多变量时间序列作为图信号时,出现了一个新的视角。在这个视图中,多变量时间序列中的变量可以解释为图中的节点,通过隐藏的依赖关系相互连接。因此,图神经网络(gnn) (Kipf and Welling 2017)为利用多个时间序列之间复杂的相互依赖关系提供了一个有前途的途径。

在时间序列分析领域,对于多个时间序列之间不同时间尺度的序列间相关性变化存在明显的疏忽,现有的深度学习模型无法准确描述。例如,在金融领域,包括股票、债券和大宗商品在内的各种资产价格之间的相关性,在市场不稳定时期,资产相关性可能会由于避险现象而增加。相反,在经济增长期间,随着投资者将投资组合多样化以利用各种机会,资产相关性可能会降低(Baele et al. 2020)。同样,在生态系统中,控制物种种群和环境变量的动态揭示了在多个时间尺度上运行的复杂的时间相关性(Whittaker, Willis, and Field 2001)。在图1中,我们提供了一个示例,在时间尺度1中,我们可以观察到两个时间序列之间的正相关性,而在较短的尺度2中,我们可能会注意到它们之间的负相关性。通过采用基于图的方法,我们得到了两种不同的图结构。

在上述示例中,现有深度学习模型的局限性变得明显,因为它们通常无法捕获所考虑的变量之间的各种相互依赖关系和时变相关性。例如,当仅依赖一种类型的序列间相关性时,例如使用具有一个固定图结构的gnn (Yu, Yin, and Zhu 2018;Li et al. 2018),在具有复杂和变化的序列间相关性的场景中,这些模型可能会降低预测精度和次优预测性能。虽然有些方法考虑使用动态和时变图结构来建模序列间相关性(Zheng et al. 2020;Guo et al. 2021),但他们忽略了一个关键事实,即这些相关性可能与显著稳定的时间尺度密切相关,例如经济和环境周期。

为了解决所发现的差距并克服先前模型的局限性,我们引入了MSGNet,该模型由三个基本组成部分组成:尺度学习和转换层、多图卷积模块和时间多头注意模块。认识到周期性在时间序列数据中的重要性,并有效地捕获主导时间尺度,我们利用广泛认可的快速傅里叶变换(FFT)方法。通过将FFT应用于原始时间序列数据,我们将其投影到与最突出的时间尺度相关的空间中。这种方法使我们能够恰当地捕捉和表示在不同时间尺度上展开的各种序列间相关性。此外,我们还引入了一个具有可学习邻接矩阵的多自适应图卷积模块。对于每个时间尺度,动态学习一个专用的邻接矩阵。我们的框架进一步结合了一个多头自注意机制,该机制善于捕捉数据中的序列内时间模式。我们的贡献可以概括为三个方面:

•我们做了一个关键的观察,序列间相关性与不同的时间尺度错综复杂。为了解决这个问题,我们提出了一个名为MSGNet的新结构,它可以有效地发现和捕获这些多尺度序列间的相关性。
•为了解决同时捕获序列内和序列间相关性的挑战,我们引入了多头注意和自适应图卷积模块的组合。
•通过对真实世界数据集的广泛实验,我们提供了经验证据,表明MSGNet在时间序列预测任务中始终优于现有的深度学习模型。此外,MSGNet具有较好的泛化能力。

二、相关工作

时间序列预测
时间序列预测历史悠久,VAR (Kilian and L¨utkepohl 2017)和Prophet (Taylor and Letham 2018)等经典方法假设序列内的变化遵循预定义的模式。然而,现实世界的时间序列经常表现出复杂的变化,超出了这些预定义模式的范围,限制了经典方法的实际适用性。作为回应,近年来出现了各种深度学习模型,包括mlp (Oreshkin et al. 2020;Zeng et al. 2023), tcn (Yue et al. 2022), rnn (Rangapuram et al. 2018;Gasthaus et al. 2019;Salinas et al. 2020)和基于transformer的模型(Zhou et al. 2021;Wu et al. 2021;Zhou et al. 2022;Wen et al. 2022;Wang et al. 2023),设计用于时间序列分析。然而,关于最适合建模序列内相关性的候选问题仍然存在,无论是MLP还是基于变压器的体系结构(Nie et al. 2023;Das et al. 2023)。一些方法认为周期性是时间序列分析的关键特征。例如,DEPTS (Fan et al. 2022)将周期函数实例化为一系列余弦函数,而TimesNet (Wu et al. 2023a)对序列进行周期维变换。值得注意的是,这些方法都没有考虑到在不同周期尺度上存在的不同序列间相关性,这是本文的中心焦点。

用于序列间相关学习的gnn
最近,gnn的使用显著增加(Defferrard, Bresson, and Vandergheynst 2016;Kipf and Welling 2017;Abu-El-Haija et al. 2019)用于学习序列间相关性。最初用于解决流量预测(Li et al. 2018;Yu, Yin, and Zhu 2018;Cini et al. 2023;Wu et al. 2023b)和基于骨架的动作识别(Shi et al. 2019), gnn在短期时间序列预测方面比传统方法有了显著改进。然而,重要的是要注意,大多数现有的gnn是为预定义的图结构可用的场景设计的。例如,在交通预测中,可以利用不同传感器之间的距离来定义图结构。尽管如此,在处理一般的多元预测任务时,基于先验知识定义一般的图结构可能具有挑战性。尽管一些方法已经探索了可学习图结构的使用(Wu et al. 2019;Bai et al. 2020;Wu et al. 2020),他们通常考虑有限数量的图结构,并且不将学习到的图结构与不同的时间尺度联系起来。因此,这些方法可能不能完全捕获复杂的和不断发展的序列间相关性。在这里插入图片描述
图2:MSGNet使用了几个ScaleGraph模块,每个模块包含三个关键模块:用于多尺度数据识别的FFT模块,用于时间尺度内序列间相关学习的自适应图卷积模块,以及用于序列内相关学习的多头部注意模块。

三、问题描述

在多元时间序列预测的背景下,考虑这样一个场景,其中变量的数量用n表示。我们给出输入数据 X t − L : t ∈ R N × L , \mathbf{X}_{t-L:t}\in\mathbb{R}^{N\times L}, XtL:tRN×L,,它代表了一个回顾性的观测窗口,包括在t−L到t−1范围内,每个变量i在τ个时间点的 X τ i X_{\tau}^{i} Xτi值。其中,L表示回顾窗口的大小,t表示预测窗口的初始位置。时间序列预测任务的目标是在T个未来时间步长的时间跨度内预测N个变量的未来值。预测值表示为: X ^ t : t + T ∈ R N × T \hat{\mathbf{X}}_{t:t+T}\in\mathbb{R}^{N\times T} X^t:t+TRN×T,其中包含所有变量在t到t+ T−1的每个时间点τ处的 X τ i X_{\tau}^i Xτi值。

我们假设有能力在不同的时间尺度上识别N个时间序列之间变化的序列间相关性,这可以用图来表示。例如,给定一个时间尺度 s i < L , s_{i}<L, si<L,,我们可以从时间序列 X p − s i : p . {\mathbf{X}_{p-s_{i}:p}}. Xpsi:p.中识别出一个图结构 G i = { V i , E i } \mathcal{G}_i=\{\mathcal{V}_i,\mathcal{E}_i\} Gi={Vi,Ei}。式中,Vi为 ∣ V i ∣ = N , E i ⊆ V i × V i |\mathcal{V}_{i}|=N,\mathcal{E}_{i}\subseteq\mathcal{V}_{i}\times\mathcal{V}_{i} Vi=N,EiVi×Vi的节点集,为加权边,p为任意时间点。考虑k个时间尺度的集合,表示为 { s 1 , ⋯   , s k } \{s_{1},\cdots,s_{k}\} {s1,,sk},我们可以识别k个邻接矩阵,表示为 { A 1 , ⋯   , A k } \{\mathbf{A}^{1},\cdots,\mathbf{A}^{k}\} {A1,,Ak},其中每个 A k ∈ R N × N . \mathbf{A}^{k}\in\mathbb{R}^{N\times N}. AkRN×N.。这些邻接矩阵在不同的时间尺度上捕获不同的序列间相关性。

四、方法

如前所述,我们的工作旨在通过引入MSGNet来弥补现有时间序列预测模型的空白,MSGNet是一个旨在捕捉不同时间尺度上不同序列间相关性的新框架。整个模型体系结构如图2所示。MSGNet包含多个ScaleGraph块,其本质在于它能够无缝地交织各种组件。每个ScaleGraph块包含一个四步序列:1)识别输入时间序列的尺度;2)利用自适应图卷积块揭示尺度关联的序列间相关性;3)通过多头关注捕捉序列内相关性;4)使用SoftMax函数自适应地聚合来自不同尺度的表示。
Input Embedding and Residual Connection
我们在同一时间步将N个变量嵌入到一个大小为dmodel的向量中 d m o d e l  ⁣ : X t − L : t → X e m b d_{\mathrm{model}}\colon\mathbf{X}_{t-L:t}\to\mathbf{X}_{\mathrm{emb}} dmodel:XtL:tXemb,其中 X e m b ∈ R d m o d e l × L \mathbf{X}_{\mathrm{emb}}\in\mathbb{R}^{d_{\mathrm{model}}\times L} XembRdmodel×L。我们使用(Zhou et al. 2021)中提出的统一输入表示来生成嵌入。具体来说,Xemb是使用以下公式计算的:

在这里插入图片描述
在这里,我们首先对输入 X t − L : t \mathrm{X}_{t-L:t} XtL:t进行归一化,得到 X ^ t − L : t \mathbf{\hat{X}}_{t-L:t} X^tL:t,因为归一化策略已被证明在提高平稳性方面是有效的(Liu et al. 2022)。然后,我们使用一维卷积滤波器(内核宽度=3,步幅=1)将 X ^ t − L : t \mathbf{\hat{X}}_{t-L:t} X^tL:t投影到dmodel维矩阵中。参数α作为一个平衡因子,调节标量投影和局部/全局嵌入之间的大小。 P E ∈ R d m o d e l × L \mathrm{PE}\in\mathbb{R}^{d_{\mathrm{model}}\times L} PERdmodel×L表示输入X的位置嵌入, S E p ∈ R d m o d e l × L \mathrm{SE}_{p}\in\mathbb{R}^{d_{\mathrm{model}}\times L} SEpRdmodel×L是一个可学习的全局时间戳嵌入,词汇量有限(以分钟为最细粒度为60)。

我们以残差方式实现MSGNet (He et al. 2016)。一开始,我们设置 X 0 = X e m b \mathbf{X}^0=\mathbf{X}_{\mathrm{emb}} X0=Xemb,其中Xemb表示由嵌入层投影到深度特征中的原始输入。在MSGNet的第l层,输入为 X l − 1 ∈ R d m o d e l × L \mathbf{X}^{l-1}\in\mathbb{R}^{d_{\mathrm{model}}\times L} Xl1Rdmodel×L,其过程可以正式表示为:
在这里插入图片描述
这里,ScaleGraphBlock表示构成MSGNet层核心功能的操作和计算。

Scale Identification

我们的目标是通过利用不同时间尺度的序列间相关性来提高预测的准确性。尺度的选择是我们方法的一个关键方面,我们特别重视选择周期性作为尺度源。这种选择背后的基本原理在于时间序列数据中周期性的内在意义。例如,在太阳能电池板暴露在阳光下的白天,能量消耗和太阳能电池板输出的时间序列往往表现出更强的相关性。如果我们选择不同的周期,例如考虑一个月或一天过程中的相关性,那么这种相关性模式就会有所不同。

受TimesNet (Wu et al. 2023a)的启发,我们采用快速傅里叶变换(FFT)来检测突出的周期性作为时间尺度:
在这里插入图片描述
其中,FFT(·)和Amp(·)分别表示FFT和幅度值的计算。向量 F ∈ R L \mathbf{F}\in\mathbb{R}^L FRL表示每个频率的计算振幅,通过函数Avg(·)在dmodel维度上取平均值。

在这种情况下,值得注意的是,时间变化的输入可能表现出明显的周期性,从而使我们的模型能够检测到不断变化的尺度。我们假设这个随时间变化的周期尺度的内在相关性保持稳定。这种观点使我们观察到我们的模型学习到的序列间和序列内相关性中的动态属性。

基于所选时间尺度 { s 1 , … , s k } , \{s_{1},\ldots,s_{k}\}, {s1,,sk},,我们可以得到几种对应于不同时间尺度的表示,通过使用以下方程将输入重塑为三维张量:

在这里插入图片描述
其中Padding(·)用于沿着时间维度将时间序列扩展0,以使其与 R e s h a p e s i , f i ( ⋅ ) . \mathrm{Reshape}_{s_{i},f_{i}}(\cdot). Reshapesi,fi().兼容。注意, X i ∈ R d m o d e l × s i × f i \mathcal{X}^{i}\in\mathbb{R}^{d_{\mathrm{model}}\times s_{i}\times f_{i}} XiRdmodel×si×fi表示基于时间尺度i的第i个重构时间序列。我们使用Xin表示ScaleGraph块的输入矩阵。

Multi-scale Adaptive Graph Convolution

我们提出了一种新的多尺度图卷积方法来捕获特定的和全面的序列间依赖关系。为了实现这一点,我们通过将第i个尺度对应的张量投影回具有N个变量的张量来启动该过程,其中N表示时间序列的数量。这个投影是通过一个线性变换来实现的,定义如下:
在这里插入图片描述

其中, H i ∈ R N × s i × f i \mathcal{H}^i\in\mathbb{R}^{N\times s_i\times f_i} HiRN×si×fi, W i ∈ R N × d m o d e l \mathbf{W}^i\in\mathbb{R}^{N\times d_{\mathrm{model}}} WiRN×dmodel是一个可学习的权重矩阵,针对第i个尺度张量量身定制。人们可能会担心,在应用线性映射和随后的线性映射后,序列间的相关性可能会受到损害。然而,我们的综合实验证明了一个值得注意的结果:所提出的方法通过图卷积方法巧妙地保留了序列间的相关性。

我们方法中的图学习过程包括生成两个可训练参数, E 1 i a n d E 2 i ∈ R N × h \mathbf{E}_{1}^{i}\mathrm{and}\mathbf{E}_{2}^{i}\in\mathbb{R}^{N\times h} E1iandE2iRN×h。然后,将这两个参数矩阵相乘得到一个自适应邻接矩阵,公式为:

在这里插入图片描述
在这个公式中,我们利用SoftMax函数对不同节点之间的权重进行归一化,确保了序列间关系的平衡和有意义的表示。

在获得第i个尺度的邻接矩阵 A i \mathbf{A}^{i} Ai后,我们使用Mixhop图卷积方法(Abu-ElHaija et al. 2019)来捕获序列间相关性,因为它证明了能够表示其他模型可能无法捕获的特征(见附录)。图卷积的定义如下:

在这里插入图片描述
其中 H o u t i \mathcal{H}_{\mathrm{out}}^{i} Houti表示i尺度融合后的输出,σ()为激活函数,超参数P是邻接幂的整数集合, ( A i ) j (\mathbf{A}^i)^j (Ai)j表示学习到的邻接矩阵 A i \mathbf{A}^{i} Ai乘以自身j次,∥表示列级连接,连接每次迭代产生的中间变量。然后,我们继续利用多层感知器(MLP)将 H o u t i \mathcal{H}_{\mathrm{out}}^{i} Houti投影回3D张量 X ^ i ∈ R d model × s i × f i . \hat{\mathcal{X}}^i\in\mathbb{R}^{d_\text{model}\times s_i\times f_i}. X^iRdmodel×si×fi.

Multi-head Attention and Scale Aggregation多头注意与规模聚合
在每个时间尺度上,我们采用多头注意(MHA)来捕捉序列内相关性。具体来说,对于每个时间尺度张量 χ ^ i \hat{\chi}^{i} χ^i,我们在张量的时间尺度维度上应用自MHA:
X ^ o u t i = M H A s ( X ^ i ) . \hat{\mathcal{X}}_{\mathrm{out}}^i=\mathrm{MHA}_s(\hat{\mathcal{X}}^i). X^outi=MHAs(X^i).

其中MHAs(·)是指(Vaswani et al. 2017)在尺度维度上提出的多头注意函数。在实现上,它涉及将大小为 B × d m o d e l × s i × f i B\times d_{\mathrm{model}}\times s_{i}\times f_{i} B×dmodel×si×fi的输入张量重塑为在这里插入图片描述

张量,B为批大小。尽管一些研究对MHA在捕获时间序列中长期时间相关性方面的有效性提出了担忧(Zeng et al. 2023),但我们通过采用尺度变换将长时间跨度转换为周期长度,成功地解决了这一限制。我们的结果,如附录中所示,表明即使输入时间增加,MSGNet也能保持其性能一致。

最后,为了进入下一层,我们需要积分k个不同尺度的张量 X ^ o u t 1 , ⋯   , X ^ o u t k . \hat{\mathcal X}_{\mathrm{out}}^{1},\cdots,\hat{\mathcal X}_{\mathrm{out}}^{k}. X^out1,,X^outk.。首先,我们将每个尺度的张量重塑回一个2路矩阵(i), X ^ o u t i ∈ R d m o d e l × L \mathbf{\hat{X}}_{\mathrm{out}}^{i}\in \mathbb{R}^{d_{\mathrm{model}}\times L} X^outiRdmodel×L。然后,我们根据它们的振幅汇总不同的尺度:
在这里插入图片描述
在这个过程中, F f 1 , ⋯   , F f k \mathbf{F}_{f_{1}},\cdots,\mathbf{F}_{f_{k}} Ff1,,Ffk是每个尺度对应的幅度,使用FFT计算。然后应用SoftMax函数计算幅值 a ^ 1 , ⋯   , a ^ k . \hat{a}_1,\cdots,\hat{a}_k. a^1,,a^k.。这种混合专家(MoE) (Jacobs et al. 1991)策略使模型能够根据各自的幅度强调来自不同尺度的信息,从而促进将多尺度特征有效地纳入下一层(附录)。

Output Layer
为了进行预测,我们的模型利用时间维度和变量维度的线性投影将 X ^ o u t ∈ R d m o d e l × L \mathbf{\hat{X}}_{\mathrm{out}}\in\mathbb{R}^{d_{\mathrm{model}}\times L} X^outRdmodel×L转换为\mathbf{\hat{X}}_{t:t+T}\in\mathbb{R}^{N\times T}。这个变换可以表示为:
在这里插入图片描述
其中, W s ∈ R N × d m o d e l \mathbf{W_s}\in\mathbb{R}^{N\times d_{\mathrm{model}}} WsRN×dmodel, W t ∈ R L × T , \mathrm{W_t}\in\mathbb{R}^{L\times T}, WtRL×T,, b   ∈ R T \mathrm{b~}\in\mathbb{R}^T b RT为可学习参数。Ws矩阵沿着可变维度进行线性投影,Wt沿着时间维度进行同样的投影。得到的 x ^ t : t + T \mathbf{\hat{x}}_{t:t+T} x^t:t+T为预测数据,其中N表示变量数,L表示输入序列长度,T表示预测范围。

五、实验

数据集
为了评估MSGNet在时间序列预测方面的先进能力,我们在8个数据集上进行了实验,即飞行、天气、ETT (h1, h2, m1, m2) (Zhou et al. 2021)、汇率(Lai et al. 2018)和电力。除了Flight数据集,所有这些数据集都是现有文献中常用的。航班数据集的原始数据来自OpenSky官方网站1,其中包括与COVID-19大流行相关的航班数据。在附录的图1和图2中,我们可视化了这一时期飞行数据的变化。值得注意的是,航班受到大流行的严重影响,导致所有深度学习模型的样本都出现了分布外(OOD)。这为我们提供了一个机会来评估所提出的模型对OOD样本的鲁棒性。

基线
我们选择了六种时间序列预测方法进行比较,包括基于变压器架构的Informer (Zhou et al. 2021)和Autoformer (Wu et al. 2021)等模型。此外,我们纳入了MTGnn (Wu et al. 2020),它依赖于图卷积,以及DLinear和NLinear (Zeng et al. 2023),它们是线性模型。最后,我们考虑了TimesNet (Wu et al. 2023a),它基于周期分解,目前拥有最先进的性能。

实验设置
实验采用NVIDIA GeForce RTX 3090 24GB GPU,均方误差(Mean Squared Error, MSE)作为训练损失函数。所有模型的回顾窗口大小设为L = 96(为了公平比较),预测长度为T ={96, 192, 336, 720}。值得注意的是,我们的模型可以在更长的审查窗口下获得更好的性能(见附录)。这些设置应用于所有模型。初始学习率LR = 0.0001,批大小batch = 32, epoch数epochs = 10,适用时采用提前终止。关于我们模型的超参数设置的详细信息,请参见附录。数据的(0.7,0.1,0.2)或(0.6,0.2,0.2)分别用作训练数据、验证数据和测试数据。基线采用论文(Wu et al. 2023a)或官方规范(Wu et al. 2020)的相关数据。在这里插入图片描述
图3:飞行预测结果的可视化:黑线表示真实值,橙线表示预测值,蓝色标记表示显著偏差。

结果与分析
表1总结了所有方法在8个数据集上的预测性能,显示了MSGNet的优异结果。具体而言,对于不同预测长度的平均均方误差(Mean Squared Error, MSE),该方法在5个数据集上的性能最好,在2个数据集上的性能次之。在Flight数据集的情况下,MSGNet优于TimesNet(当前的SOTA),平均将MSE和MAE分别降低21.5%(从0.265降至0.208)和13.7%(从0.372降至0.321)。虽然TimesNet使用了多尺度信息,但它采用了纯粹的计算机视觉模型来捕捉序列间和序列内的相关性,这对于时间序列数据不是很有效。Autoformer在Flight数据集上表现出色,可能归功于其建立的自相关机制。然而,即使使用基于gnn的序列间相关建模,由于缺乏对不同尺度的关注,MTGnn仍然明显弱于我们的模型。此外,我们通过计算其在所有数据集上的平均排名来评估模型的泛化能力。值得注意的是,MSGNet在平均排名上优于其他模型。

MSGNet的卓越性能在图3中是显而易见的,因为它紧密地反映了基本事实,而其他模型在特定时间段内的性能明显下降。图中所描绘的波峰和波谷与关键的飞行数据事件、趋势或周期性动态相一致。其他模型无法准确地遵循这些变化可能源于架构约束,阻碍了它们掌握多尺度模式、突然变化或复杂的序列间和序列内相关性的能力。

在这里插入图片描述
表1:96个回顾窗口和预测长度{96,192,336,720}的预测结果。最佳结果以粗体表示,后跟下划线。

习得的序列间相关性的可视化
图4展示了不同时间尺度的三个学习邻接矩阵。在这种情况下,我们的模型确定了三个重要的尺度,分别对应于24、6和4小时。如图所示,我们的模型针对不同的尺度学习不同的自适应邻接矩阵,有效地捕获飞行数据集中机场之间的相互作用。例如,以机场6为例,它位于距离机场0、1和3较远的地方,它主要在延长的时间尺度(24小时)上对这三个机场产生实质性影响。然而,在随后的较短时间内(6和4小时),随着邻接矩阵值的减少,影响显著减弱。另一方面,距离较近的0、3、5机场在较短的时间尺度上相互影响更强。这些观察结果反映了现实生活中的场景,表明在某些时间尺度上,航班之间可能存在更强的空间相关性,这与它们的物理距离有关。在这里插入图片描述
表2:飞行、天气和ETTm2数据集的消融分析。结果表示预测长度{96,336}的平均误差,效果最好的用粗体黑色表示。

在这里插入图片描述
表3:COVID-19影响下的泛化检验:所有预测长度的平均误差,黑色粗体表示性能最佳。“减少”表示修改分区后性能降低的百分比。

在这里插入图片描述
图4:Flight数据集的学习邻接矩阵(第一层24h、6h和4h)和机场地图。

消融分析

我们进行了烧蚀测试来验证MSGNet设计的有效性。我们考虑了5种消融方法,并在3个数据集上对它们进行了评估。以下将解释其实现的变体:

  1. w/o-AdapG:我们从模型中删除了自适应图卷积层(图学习)。
  2. w/o-MG:我们去掉了多尺度图卷积,只使用一个共享的图卷积层来学习整体的序列间依赖关系。
  3. w/o-A:我们去除多头自注意并消除序列内相关学习。
  4. w/o-Mix:我们用传统的卷积方法取代了混合跳跃卷积方法(Kipf and Welling 2017)。

表2显示了消融研究结果。具体来说,我们总结了以下四点改进:

  1. 图学习层的改进:去掉图结构后,模型的性能明显下降。这表明学习变量之间的序列间相关性对于预测多变量时间序列至关重要。

  2. 多尺度图学习的改进:基于变量w/o-MG的结果,可以得出多尺度图学习方法对提高模型性能有显著贡献。这一发现表明,不同时间序列在不同尺度上存在不同的序列间相关性。

  3. MHA层的改进:检查w/o-A和TimesNet的结果,很明显,使用多头自关注在性能上产生了边际增强。

  4. 混合跳卷积的改进:变量w/o-Mix的结果表明混合跳卷积方法在提高模型性能方面是有效的,w/o-Mix比MSGNet略差。

泛化能力

为了验证疫情对飞行预测的影响以及MSGNet抵抗外部影响的性能,我们设计了一个新的消融测试,将flight数据集的划分修改为4:4:2。该设计保留了相同的测试集,同时将训练集限制为流行病爆发前的数据,并使用后续数据作为验证和测试集。具体结果如表3所示。通过捕获多尺度序列间相关性,MSGNet不仅在两种不同数据分区下获得了最佳性能,而且表现出最小的性能下降和最强的抗外部影响能力。结果表明,MSGNet对分布外样本具有较强的泛化能力。我们假设这种强度归因于MSGNet捕获多个序列间相关性的能力,其中一些即使在多元时间序列的OOD样本下仍然有效。TimesNet的性能进一步支持了这一假设,其性能下降幅度相对较小,仅次于我们的方法。值得注意的是,TimesNet也利用了多尺度信息,类似于我们的方法。

结论

在本文中,我们介绍了MSGNet,这是一个新的框架,旨在解决现有深度学习模型在时间序列分析中的局限性。我们的方法利用周期性作为时间尺度源来捕获不同时间尺度上的不同序列间相关性。通过对各种真实数据集的广泛实验,我们证明MSGNet在预测精度方面优于现有模型,并捕获了多个时间序列之间复杂的相互依赖关系。我们的研究结果强调了在时间序列数据分析中识别不同时间尺度的序列间相关性的重要性。

A Mixture-of-Experts Perspective of MSGNetMSGNet的专家混合视角

1.1 背景:专家的混合
专家混合是集成学习领域的一项成熟技术”(Jacobs et al. 1991)。它同时训练一组专家模型,记为 f i = 1 , ⋯   , k , f_{i=1,\cdots,k}, fi=1,,k,这些专家模型被设计成专门针对不同的输入情况。这些专家生成的输出使用线性组合进行组合,其中“门控函数” g = [ g 1 , … , g k ] g=[g_1,\ldots,g_k] g=[g1,,gk]决定了每个专家在最终决策过程中的相对重要性:
在这里插入图片描述
门控函数,通常作为神经网络实现,参数化每个专家的贡献。

1.2多尺度图卷积:混合专家视角
为简单起见,我们给出了我们的多尺度图卷积的简化形式。在每一层中,给定输入 X ∈ R N × c X\in \mathbb{R}^{N\times c} XRN×c,我们计算变换后的特征如下:
在这里插入图片描述
其中, H ^ i ∈ R N × d \hat{\boldsymbol{H}}_i\in\mathbb{R}^{N\times d} H^iRN×d表示第i个特征集, A ^ i ∈ R N × N \hat{A}^i\in \mathbb{R}^{N\times N} A^iRN×N对应第i个邻接矩阵, W i ∈ R c × d W_{i}\in\mathbb{R}^{c\times d} WiRc×d表示学习到的变换矩阵。

忽略ScaleGraph块中的其他操作,ScaleGraph块的输出特征如下:在这里插入图片描述
其中k表示图的卷积数(尺度)。 a ^ i \hat{a}_{i} a^i作为门控函数,类似于式11中的 g i g_{i} gi, H ^ i \hat{\boldsymbol{H}}_{i} H^i对应于专家 f i ( X ) f_i(\boldsymbol{X}) fi(X).应该注意的是, a ^ i \hat{a}_{i} a^i也依赖于X,因为它是基于时间序列傅立叶变换的振幅计算的。

如果我们设k = 1,很明显,只有一个图卷积的模型简化为Z = H1,表示单个专家模型。许多理论研究,如(Chen et al. 2022)中讨论的,提供了证据表明专家混合(MoE)优于单一专家模型。这些研究强调了利用多个专家来增强模型捕获复杂模式的能力、利用不同的专业知识以及与单一专家方法相比获得更好的性能的优势。


  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值