CrossGNN: Confronting Noisy Multivariate Time Series Via Cross Interaction Refinement-CSDN博客

系列文章目录

CrossGNN：通过交叉交互细化应对嘈杂的多元时间序列 NeurIPS 2023

文章目录

系列文章目录
摘要
一、引言
二、 Related Work
三、 Methodology
四、 Experiment
五、 Conclusion and Future Work

摘要

近年来，多元时间序列（MTS）预测技术得到了快速发展并在各个领域得到广泛应用。基于 Transformer 和基于 GNN 的方法由于其对时间和变量交互建模的强大能力而显示出巨大的潜力。然而，通过对现实世界数据进行全面分析，我们发现现有方法并不能很好地处理变量之间的时间波动和异质性。为了解决上述问题，我们提出了 CrossGNN，一种线性复杂性 GNN 模型，用于细化 MTS 的跨尺度和跨变量交互。为了处理时间维度上的意外噪声，利用自适应多尺度标识符（AMSI）来构建降噪的多尺度时间序列。提出了 Cross-Scale GNN 来提取趋势更清晰、噪声更弱的尺度。跨变量 GNN 的提出是为了利用不同变量之间的同质性和异质性。通过同时关注显着性分数较高的边缘并限制分数较低的边缘，CrossGNN 的时间和空间复杂度（即 O(L)）可以与输入序列长度 L 呈线性关系。在 8 个真实世界中进行的广泛实验结果 MTS 数据集证明了 CrossGNN 与最先进方法相比的有效性。代码可在 https://github.com/hqh0728/CrossGNN 获取。

提示：以下是本篇文章正文内容

一、引言

时间序列预测已广泛应用于许多领域（即气候[1]、交通[31]、能源[3]、金融[13]等）[8,29,20,10]。多元时间序列（MTS）由具有多个变量的时间序列组成，MTS预测的目的是根据历史时间序列预测未来值。深度学习模型 [26,24,17,4,21] 在 MTS 预测中表现出了卓越的性能。特别是，基于 Transformer 的模型[34,27,35]在 MTS 中取得了巨大的威力，这得益于其注意力机制，可以模拟序列不同时间点之间的长期交互（跨时间）。图神经网络（GNN）[28,16,2,19,7]也显示出 MTS 预测的有希望的结果，它可以提取不同变量（交叉变量）之间的预定义或自适应交互。

然而，最近的一项研究[33]表明，简单的线性模型显着优于许多最先进的（SOTA）模型，这启发我们研究现有的跨时间和跨变量交互模型无法增强性能的原因。预测性能。通过对现实世界的数据进行彻底分析，我们发现一些意外噪声（由人类引起的、传感器失真）的存在可能是造成这种情况的原因。在时间维度上，如图1（a）所示，基于Transformer的模型严重依赖输入序列来生成注意力图，而其预测可能容易受到偶然噪声的影响，甚至一些小的波动（即噪声）也很容易受到影响。导致时间依赖性的重大转变。我们的研究结果表明，自注意力机制倾向于将高分分配给时间序列中的异常点，从而导致虚假的跨时间相关性。在变量维度中，跨变量相关性随着时间的推移表现出复杂且动态的演变[18]。尽管变量之间存在潜在的因果关联，但由于噪声干扰的影响，提取跨变量的交互作用很困难。此外，如图1（b）所示，我们观察到这种可以通过异常值检测算法[14]检测到的意外噪声在时间序列中所占比例很高。
在这里插入图片描述图 1：对现实世界数据集的数据分析 [31]。 (a) 基于 Transformer 的模型受到意外噪声影响的预测结果。 (b) [14] 检测到的 ETTh1、ETTm1、交通和天气数据集 [27] 中的噪声比例。 © 多尺度时间序列中不同水平的噪声信号。 (d) 变量之间的同质和异质关系。

尽管时间序列中存在不可忽视的噪声，但我们仍然可以发现应对噪声挑战的潜在机会。 (1)跨尺度互动。如图 1（c）所示，通过对时间序列进行多尺度提取，我们观察到不同尺度具有不同水平的噪声强度，通常尺度越粗，噪声强度越低。显然，捕获不同尺度的依赖关系使得跨时间关系能够对噪声具有鲁棒性[15]。 (2)跨变量交互作用。如图1（d）所示，现实世界数据中的跨变量交互既存在同质性，也存在异质性[36]。事实上，这两种关系都可以在时间进程中形成不变的连接。因此，学习变量之间包含同质和异质关系的不变关联可以提高其对抗噪声的鲁棒性。基于上述分析，在噪声 MTS 中细化交互仍然具有挑战性。主要障碍可概括如下：1）如何捕获对意外输入噪声不敏感的跨尺度交互。 2）如何提取异构变量之间的跨变量关系。

在这项工作中，我们提出了 CrossGNN，这是第一个为 MTS 预测优化跨时间和跨变量交互的 GNN 解决方案。为了处理时间维度上的意外噪声，我们首先设计了一种自适应多尺度标识符（AMSI）来构造具有不同噪声水平的多尺度时间序列。在时间维度上，我们提出了 Cross-Scale GNN，它是一个时间相关图，来建模不同尺度之间的依赖关系。趋势更清晰、噪声更弱的尺度将被分配更多的边缘权重。在变量维度，我们首先将变量之间的异构交互建模引入 MTS 预测，并提出跨变量 GNN，以利用具有正负边缘权重的不同变量之间的同质性和异质性。通过关注显着性分数较高的边缘并同时约束分数较低的边缘，CrossGNN 实现了输入序列长度为 L 的线性时间和空间复杂度（即 O(L)）。主要贡献总结如下：

• 我们对现实世界的 MTS 数据进行了全面的研究，发现现有的基于 Transformer 和基于 GNN 的模型不能很好地处理时间维度上的意外噪声和变量之间的变量异质性。
• 我们提出了线性复杂度CrossGNN 模型，这是第一个为MTS 预测优化跨尺度和跨变量交互的GNN 模型。
1）为了处理时间维度上的意外噪声，利用AMSI构建具有不同噪声水平的多尺度时间序列，并提出跨尺度GNN来捕获趋势更清晰、噪声更弱的尺度。 2）跨变量GNN旨在对不同变量之间的动态相关性进行建模。这是第一个将变量之间的异构交互建模引入 MTS 预测的模型。
• 对 8 个真实 MTS 数据集的广泛评估证明了 CrossGNN 的有效性。具体来说，与具有不同预测长度的 9 个最先进模型相比，CrossGNN 在 47 种设置上实现了 top-1 性能，在 9 种设置上实现了 top-2 性能。

二、 Related Work

多元时间序列预测。由于深度神经网络的出现，MTS 预测取得了显着进步。这些网络可以基于卷积神经网络 (CNN) [26, 23]、循环神经网络 (RNN) [5, 6]、Transformer [11, 25, 27, 35, 9] 或图神经网络 (GNN) [28, 32]。一般来说，这些研究的主要重点在于设计时间维度（跨时间）和变量维度（跨变量）之间的相互作用。

跨时间交互建模。跨时间交互建模旨在捕获不同时间点之间的相关性。最近，基于 CNN 的模型 TimesNet [26] 将时间序列转换为二维矩阵，并使用基于 CNN 的主干进行特征提取。基于 RNN 的模型 LSTnet [6] 利用长短期记忆 (LSTM) 来对时间依赖性进行建模，但它可能受到 RNN 中梯度消失/爆炸的固有问题的限制。基于 Transformer 的模型受益于其自我关注机制，使它们能够捕获长期的跨时间依赖性。 AutoFormer [27] 采用了一种分解机制，将输入序列分为趋势和季节性，并将自相关模块集成到变压器中以捕获长期跨时间依赖性。 FedFormer [35] 利用频率增强分解机制，同时纳入额外的频率信息。然而，尽管基于 Transformer 的方法具有出色的性能，但我们观察到它们的自注意力机制容易受到意外噪声的影响，如图 1(a) 所示。基于这些发现，我们提出了一种基于 GNN 的创新方法，该方法构建跨尺度时间图，以减轻时间噪声对跨时间相关性建模的影响。

跨变量交互建模。跨变量交互被证明对于 MTS 预测至关重要 [34]，并且许多工作都采用图神经网络 (GNN) [22,37,30,38] 来捕获跨变量关系。 STGCN[32]首先利用GNN对交通预测中的跨变量依赖关系进行建模，可以有效捕获预定义拓扑图中不同道路之间的依赖关系。 MTGNN [28]将 GNN 的使用从时空预测扩展到 MTS 预测，并提出了一种计算自适应交叉变量图的简单方法。另一方面，基于Transformer的MTS预测工作也认识到跨变量交互增强预测性能的潜力，例如CrossFormer [34]。然而，跨变量关系是动态的，在学习过程中会受到噪声的很大影响。鉴于此，我们通过解耦 MTS 中的同质性和异质性来细化跨变量关系，从而在时间演化过程中产生对噪声不敏感的关系。

三、 Methodology

在长期多元时间序列 (MTS) 预测中，输入包括 D 个变量的历史序列，用 $\mathcal{X}=\{X_{1}^{t},...,X_{D}^{t}\}_{t=1}^{L}\in\mathbb{R}^{L\times\bar{D}}$ 表示，其中 L 表示外观后窗大小， $X_i^t$ 表示第 t 个时间步长的第 i 个变量的时间序列。 MTS预测的目标是基于X预测未来时间序列，表示为 $\hat{\mathcal{X}}=\{\hat{X_{1}^{t}},...,\hat{X_{D}^{t}}\}_{t=L+1}^{L+T}\in\mathbb{R}^{T\times D}$ ，其中T表示预测时间步长并且T≫1。CrossGNN的详细结构如图2所示。我们首先采用自适应多尺度标识符（AMSI）来生成多尺度时间序列并减少粗尺度上的噪声。然后，我们构建尺度敏感且趋势感知的时间图来提取跨尺度交互。我们通过对变量之间的同质和异质关系进行建模来执行跨变量聚合。最后，解码器采用直接多步（DMS）预测来预测未来时间序列。

在这里插入图片描述图 2：CrossGNN 架构。 (a) 自适应多尺度标识符 (AMSI) 旨在从输入 X 中提取多尺度 MTS $\mathcal{X}^{\prime}$ 。 (b) 跨尺度 GNN 促进不同尺度内和跨尺度的跨时间交互，而跨变量 GNN 为同质和异质关系建模跨变量交互。 © 利用直接多步 (DMS) 预测基于两个 MLP 来预测未来时间序列。

3.1 Adaptive Multi-Scale Identifier

自适应多尺度识别器（AMSI）旨在捕获MTS从粗到细的不同尺度，并减少粗尺度上的意外噪声。从技术上讲，受[26]的启发，我们利用快速傅里叶变换（FFT）来分析频域中的时间序列并计算时间序列的潜在周期。我们使用 FFT 计算不同频率下每个时间序列的幅度，然后在变量维度上平均 X 的幅度：

在这里插入图片描述其中Amp(·)是幅度的计算，FFT(·)是FFT的计算， $A\in\mathbb{R}^{L}$ 表示计算出的每个频率的幅度，它是由D个变量通过Avg(·)平均得到的。我们选择与 Top-S 幅度值相对应的频率 $\{f_1,f_2,\cdots,f_S\}$ ：

在这里插入图片描述
其中 arg Top-S(·) 从 A 中挑选出幅度最高的 S 频率值。周期长度 $\{p_1,p_2,\cdots,p_S\}$ 通过所选频率计算如下：

然后，将具有核大小 $p_s$ 和步长 $p_s$ , s ∈ {1, 2, …, S} 的 AvgPool(·) 应用于时间维度中的 MTS $\mathcal{X}\in\mathbb{R}^{L\times{D}}$ 以捕获第 s 处的 MTS ：

在这里插入图片描述
其中AvgPool(·)对时间序列进行下采样得到 $\mathcal{X}_s\in\mathbb{R}^{L(s)\times D}$ ， $L(s)=\lfloor\frac{L}{p_{s}}\rfloor$ 是第s尺度下的时间序列长度，⌊·⌋是向下取整的操作。我们将捕获的时间维度上的不同尺度连接起来，得到周期多尺度 MTS $\mathcal{X}^{\prime}\in\mathbb{R}^{L^{\prime}\times D}$ 作为 AMSI 的输出， $L^{\prime}=\sum_{s=1}^{S}L(s)$ 是跨段的长度之和所有尺度：
在这里插入图片描述在这里，我们采用扩展维度策略（使用 MLP），为不同尺度的每个时间步创建嵌入。该策略继承自 MTGNN [28]，旨在增强每个时间步的局部语义，并对后续的跨尺度和跨变量交互产生积极影响。 X′的形状最终扩展为 $\mathbb{R}^{L\times D\times C}$ 。

3.2 Cross-Scale GNN

Cross-Scale GNN旨在利用多尺度MTS X′的相互作用，提取关联更清晰、噪声更弱的尺度。时间维度上的跨尺度图表示为 $G^{scale}=(V^{scale},E^{scale}).V^{scale}=\{v_{1}^{scale},v_{2}^{scale},...,v_{L^{\prime}}^{scale}\}$ 为所有时间尺度下设置的时间节点，其中 $v_i^{scale}$ 为第i个时间节点。 $E^{scale}\in\mathbb{R}^{L^{\prime}\times L^{\prime}}$ 分配每个时间节点之间的相关权重， $E_{scale}$ 中的每个元素表示两个时间节点（尺度间或尺度内）之间的相关权重。 Cross-scale GNN的主要目的是学习对噪声干扰不敏感的跨尺度时间相关权重 $E_{scale}$ 。为了减少噪声对相关权重的影响，我们通过生成两个可学习向量 $vec_1^{scale}$ 和 $vec_2^{scale}$ 来初始化 $E_{scale}$ 来保持独立性，确保 Escale 不受输入中隐藏的噪声影响：

在这里插入图片描述
其中ReLU(·)是主动函数，对权重矩阵进行正则化，使每个元素都为正，Softmax(·)是确保与特定时间节点相关的所有节点的权重总和为1的操作。
Scale-sensitive Restriction 我们认为对于任何时间节点，其相关时间节点在细尺度上的数量应该多于在粗尺度上的数量。对于任意时间节点 $v_{i}^{scale}$ ，其在第 s 尺度的相关节点数限制为 $k_s=\lceil\frac K{p_s}\rceil$ ，其中 $p_{s}$ 为第 s 尺度的周期长度，⌈·⌉ 表示上限函数，K 为一个常数。这确保了更精细尺度的时间序列贡献更多的时间节点关联。 $v_{i}^{scale}$ 的第 s 尺度的邻居时间节点集合（即第 s 尺度的相关时间节点）表示为：
在这里插入图片描述其中arg Top-ks(·)是提取相关权重最高的ks个节点的操作， $E_s^{scale}(v_i^{scale})\in\mathbb{R}^{L(s)}$ 是时间节点 $v_{i}^{scale}$ 在第s尺度的相关权重。这样就可以根据相关权重矩阵 $E^{scale}$ 来限制不同尺度的邻居节点的数量。

趋势意识选择。为了确保可以捕获时间趋势，我们保留时间节点与其前后节点之间的关联。将 $\mathcal{N}^{trend}(v_i^{scale})$ 表示为时间节点 $v_i^{scale}$ 的趋势邻居集，其定义如下：
在这里插入图片描述
其中scale(·)提供时间节点的比例。 $v_i^{scale}$ 的趋势邻居集由共享相同尺度的相邻时间节点（即 |i − j| ≤ 1）组成。这使得能够保留跨尺度相关图中的时间趋势。

相关权重重新归一化。将 $\mathcal N(v_{i})=\mathcal N^{scale}(v_{i})\cup\mathcal N^{trend}(v_{i})$ 表示为时间节点 $v_i^{scale}$ 的选定邻居集。最终的相关权重重新归一化如下：

在这里插入图片描述
其中 $E^{scale}[i,j]$ 是 $v_i^{scale}\text{ and }v_j^{scale}$ 之间的相关权重。此步骤过滤掉不显着的相关性，并为每个节点保留一组受限的相邻节点 $\mathcal{N}(v_i^{scale})$ 。此外，重新归一化应用于保留的相关性。然后，构建不同尺度时间节点之间的跨尺度相关图。

跨尺度互动。得到跨尺度时间相关图后，我们基于GNN在时间维度上进行跨尺度交互，信息传播过程将堆叠N层：在这里插入图片描述
其中 σ 是激活函数； W 是可学习矩阵； $\mathcal{H}^{time}$ 为时间节点特征； $\mathcal{H}\mathcal{N}^{time}$ 是邻居时间节点特征的聚合。 $\mathcal{HN}_{i,:}^{time,N}$ 聚合与 vscale i 的时间节点相关的上一层的相邻节点特征。然后通过聚合时间节点特征 $\mathcal{HN}_{i,:}^{time,N}$ 及其前一层特征 $\mathcal{HN}_{i-1,:}^{time,N}$ 来更新 $\mathcal{HN}_{i,:}^{time,N}$ 。最后，第 N 层的归一化 $\mathcal{H}_{:,:}^{time,N}$ 是 Cross-Scale GNN 的输出。

3.3 Cross-Variable GNN

跨变量 GNN 旨在提取由同质和异质关系组成的不变相关性。在变量维度中，交叉变量图表示为 $G^{var}=(V^{var},E^{var}).V^{var}=\{v_{1}^{var},v_{2}^{var},...,v_{D}^{var}\}$ 为变量节点集合，其中D为变量个数， $v_i^{var}$ 为第i个变量节点。 ${E}^{var}$ 是变量相关权重矩阵， ${E}^{var}$ 中的每个元素表示两个变量之间的相关权重。 ${E}^{var}$ 通过生成两个潜在向量 $vec_{1}^{var}\mathrm{~and~}vec_{2}^{var}$ 来初始化：
在这里插入图片描述
**Heterogeneity Disentanglement.**具体来说，我们选择具有 $K_{+}^{var}$ 最高相关权重的节点作为具有同质连接的正邻居，并将具有 $K_{-}^{var}$ 相关性得分最低的节点作为具有异构连接的负邻居。将 $E^{var}(v_{i}^{var})$ 表示为与 $v_{i}^{var}$ 相关的D个变量节点的相关权重。对于变量 $v_i$ ，它的两个解耦邻居集可以分别表示为 $\mathcal{N}_{-}^{var}(v_{i})=\mathrm{Bottom-K_{-}^{var}}(E^{var}(v_{i}))\mathrm{and}\mathcal{N}_{+}^{var}(v_{i})=\mathrm{Top-K_{+}^{var}}(E^{var}(v_{i}))$ 。

相关权重重新归一化。相应的同质和异质相关权重推导如下：

在这里插入图片描述
该过程过滤掉同质和异质边缘以外的边缘。同质边的权重与其相关性得分正相关，而异质边的权重与其相关性得分负相关。此外，单独的重整化分别应用于同质边缘和异质边缘的权重。然后，用解开的同质和异质相关性构建交叉变量图。

跨变量交互。对于变量 $v_{i}$ ，解缠结的跨变量消息传递可以表示为：
在这里插入图片描述
$\mathcal{H}^{var}$ 为变量节点特征； $\mathcal{HN}^{var}$ 是邻居变量节点特征的聚合。 $\mathcal{HN}_{:,i}^{var,N}$ 聚合与 $v_i^{var}$ 相关的前一层的同质和异构邻居节点特征。 $\mathcal{HN}_{:,i}^{var,N}$ 由聚合变量特征 $\mathcal{HN}_{:,i}^{var,N}$ 及其前一层特征 $\mathcal{HN}_{:,i}^{var,N-1}$ 更新。最后，第 N 层的归一化 $\mathcal{H}_{:,i}^{var,N}$ 是 Cross-variable GNN 的输出。

3.4 Direct Multi-step forecasting

在获得跨变量 GNN 的输出特征后，我们利用解码器的直接多步（DMS）预测[33]来一次性预测多步 MTS。我们采用两个 MLP 作为解码器，其中第一个 MLPC 将特征的时间维度从 C 映射到 1，而第二个 MLPT 将时间维度从历史输入序列 L’ 映射到输出序列长度。最终的预测可以通过以下方式获得：

在这里插入图片描述
表 1：MTS 的 MSE 和 MAE 预测结果，越低越好。预测长度 T ∈ {96, 192, 336, 720} 和回顾窗口大小设置为 96。最好的结果以粗体突出显示，次好的结果加下划线。

四、 Experiment

4.1 Datasets And Experiment Setup

数据集我们对[27]之后的 8 个真实世界数据集进行了广泛的实验，包括天气、交通、汇率、电力和 4 个 ETT 数据集（ETTh1、ETTh2、ETTm1 和 ETTm2）。我们遵循[27]中的标准协议，将最后 4 个 ETT 数据集按 6:2:2 的比例分割为训练集、验证集和测试集，其他数据集按 7:1:2 的比例分割。

基线和设置我们将我们的方法与 9 种最先进的方法进行比较，包括 TimesNet [26]； 6种基于Transformer的方法：PatchTST [12]、Crossformer [34]、ETSformer [25]、FEDformer [35]、Pyraformer [11]、Autoformer [27]；基于GNN的方法：MTGNN[28]；简单而强大的线性模型 D线性 [33]。所有模型都遵循与原始论文中相同的实验设置，所有数据集的预测长度 T ∈ {96, 192, 336, 720}。我们从[26]收集除MTGNN之外的所有基线结果，默认回溯窗口L = 96。我们根据原始设置在所有数据集上重现了回溯窗口L = 96的MTGNN [28]的结果纸。我们计算 MTS 预测的均方误差 (MSE) 和平均绝对误差 (MAE) 作为指标。有关数据集、基线、实现、超参数的更多详细信息请参见附录 A.3。

Table 2: Performance comparisons on ablative variants
在这里插入图片描述

4.2 Main Results

使用不同方法进行MTS预测的定量结果如表1所示。CrossGNN在各种预测长度设置的大多数数据集上都取得了出色的性能，在总共64个设置中获得了47个第一名和9个第二名的排名。从数量上来说，与基于 Transformer 的方法所能提供的最佳结果相比，CrossGNN 的 MSE 总体降低了 10.43%，MAE 降低了 10.11%。与基于 GNN 的方法 MTGNN 相比，CrossGNN 在 MSE 上实现了更显着的降低 22.57%，在 MAE 上实现了 25.74%。与 TimesNet 和 D Linear 等其他强基线相比，CrossGNN 总体上仍然可以超越它们。我们的方法没有在电力数据集上达到最佳性能。进一步的分析表明，电力数据集中更严重的分布外（OOD）问题导致测试集上学习的时间图关系的泛化程度较低。

4.3 Robustness Analysis of Noise

为了评估模型对噪声的鲁棒性，我们在原始 MTS 中添加不同强度的高斯白噪声，并观察不同方法的性能变化。图 3：ETTm2 不同信噪比 (SNR) 下的鲁棒性分析。图3显示了CrossGNN、ETSformer[25]和MTGNN[28]在ETTm2数据集上不同噪声比下的MSE结果，输入长度设置为96。随着信噪比（SNR）从100db降低到 0db 时，与 ETSformer (0.191) 和 MTGNN (0.205) 相比，CrossGNN (0.177) 上的均方误差 (MSE) 增加得更慢。定量结果表明，CrossGNN 对噪声数据表现出良好的鲁棒性，在处理意外波动时具有很大优势。我们推测这种改进受益于各自尺度级别和变量级别交互的显式建模。
在这里插入图片描述
图 3：ETTm2 不同信噪比 (SNR) 下的鲁棒性分析。

4.4 消融研究

我们通过从三个数据集上的 CrossGNN 中删除相应的模块来进行消融研究。 C-AMSI去掉了自适应多尺度标识符（AMSI），直接使用k个固定长度（例如1、2、3、…、k）进行平均池化。 C-CS 删除了 Cross-Scale GNN 模块。 C-Hete去除了异质连接，专注于不同变量之间的同质相关建模。 C-CV 消除了同质和异质连接。我们分析了表 2 中所示的结果。 Obs.1）删除跨尺度 GNN 导致预测指标下降最显着，强调了其对不同尺度和时间点之间的交互进行建模的强大能力。 Obs.2) Cross-Variable GNN 也极大地提高了模型性能，证明了对不同变量之间复杂且动态的交互进行建模的重要性。 Obs.3）AMSI不断提高预测精度，表明不同尺度的MTS包含丰富的交互信息。

4.5 超参数敏感性

回溯窗口大小图 4 显示了四个数据集上具有不同回溯窗口大小的模型的 MSE 结果。随着窗口大小的增加，基于 Transformer 的模型的性能会波动，而 CrossGNN 则不断改进。这表明基于 Transformer 的方法的注意力机制可能更多地关注时间噪声，但我们的方法可以通过 Cross-Scale GNN 更好地提取不同时间节点之间的关系。

尺度数量我们将尺度数量从 4 变为 8，并报告天气和交通数据集的 MSE 和 MAE 结果。如图5（a）和图5（b）所示，我们观察到一定数量的尺度后性能改进变得不那么显着，这表明一定的尺度大小足以消除大部分时间噪声的影响。节点邻居数量每个时间节点限制的邻居节点数量主要由超参数K决定。如图5©和图5(d)所示，我们以K值10、15、20、25进行实验，和30，发现CrossGNN对K的数量不敏感。这表明只需要关注强相关节点即可在时间交互中进行有效的信息聚合。
在这里插入图片描述
图 4：不同回溯窗口大小（X 轴）的模型在 ETTh2、ETTm2、Traffic 和 Weather 上的 MSE 结果（Y 轴），输出长度设置为 336。

4.6 Complexity Analysis

表 3 说明了 CrossGNN 和现有基于 Transformer 的方法的理论复杂性。详细的复杂度推导可以在附录C中找到。为了验证我们的方法的时间和空间复杂度确实是O(L)，我们使用TVM来实现GNN计算部分，并比较与全连接的计算时间和内存使用情况 ETTh2 推理过程中的图表。比较实验在 Intel® 8255C CPU @ 2.50GHZ、40GB 内存、centos 7.8 和 TVM 1.0.0 上进行。图 6 说明了 GNN 模块的时间和内存成本，我们提出的方法与输入长度接近线性。

在这里插入图片描述
表3：理论上的计算复杂度。 L表示输入数据的长度。

在这里插入图片描述
图 6：ETTh2 上的时间和内存消耗比较。 (一)内存占用。 (b) 计算时间。

五、 Conclusion and Future Work

在这项工作中，我们对现实世界数据进行了全面分析，并观察到当前流行的时间序列预测方法不能很好地处理由意外噪声引起的变量之间的时间波动和异质性。为了解决上述问题，我们提出了一种线性复杂度 CrossGNN 模型，这是第一个为 MTS 预测优化跨尺度和跨变量交互的 GNN 模型。利用自适应多尺度标识符 (AMSI) 来获取输入 MTS 中噪声较少的多尺度时间序列。特别是，Cross-Scale GNN 捕获了趋势更清晰、噪声更弱的尺度，而 Cross-Variable GNN 最大限度地利用了不同变量之间的同质性和异质性。对 8 个真实 MTS 数据集的大量实验证明了 CrossGNN 相对于现有 SOTA 方法的有效性，同时随着输入大小的增加保持线性内存占用和计算时间。对于未来的工作，值得探索动态图网络的设计，它可以有效地捕获分布外（OOD）场景中的复杂交互。