FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure Graph Perspective

最新推荐文章于 2024-12-06 18:47:08 发布

萧宛亦

最新推荐文章于 2024-12-06 18:47:08 发布

阅读量281

点赞数

文章标签：机器学习人工智能深度学习

原文链接：https://arxiv.org/abs/2311.06190

版权

系列文章目录

FourierGNN：从纯图角度重新思考多元时间序列预测 NeurIPS 2023

文章目录

系列文章目录
摘要
一、引言
二、 Related Work
三、 Problem Definition
四、 Methodology
五、 Experiments
六、 Conclusion Remarks

摘要

多元时间序列 (MTS) 预测在许多行业中表现出非常重要的作用。当前最先进的基于图神经网络（GNN）的预测方法通常需要图网络（例如 GCN）和时间网络（例如 LSTM）来捕获系列间（空间）动态和系列内（分别是时间）依赖性。然而，两个网络的不确定兼容性给手工模型设计带来了额外的负担。此外，分离的时空建模自然违反了现实世界中统一的时空相互依赖关系，这在很大程度上阻碍了预测性能。为了克服这些问题，我们探索了直接应用图网络的有趣方向，并从纯图的角度重新思考 MTS 预测。我们首先定义了一种新颖的数据结构——超变量图，它将每个序列值（无论变量或时间戳）视为图节点，并将滑动窗口表示为时空全连接图。该观点统一考虑时空动力学，并将经典 MTS 预测重新表述为超变量图的预测。然后，我们提出了一种新颖的架构傅里叶图神经网络（FourierGNN），通过堆叠我们提出的傅里叶图运算符（FGO）来在傅里叶空间中执行矩阵乘法。 FourierGNN 具有足够的表达能力并实现了较低的复杂度，可以有效且高效地完成预测。此外，我们的理论分析揭示了 FGO 在时域上与图卷积的等价性，这进一步验证了 FourierGNN 的有效性。对七个数据集的广泛实验证明了与最先进的方法相比，我们具有更高的效率和更少的参数的卓越性能。代码可在此存储库中找到：https://github.com/aikunyi/FourierGNN。

提示：以下是本篇文章正文内容

一、引言

多元时间序列（MTS）预测在许多现实场景中发挥着重要作用，例如交通系统中的交通流量预测[1, 2]、天气预报中的温度估计[3, 4]以及能源中的电力消耗规划市场 [5, 6] 等。在 MTS 预测中，核心挑战是对系列内（时间）依赖性进行建模并同时捕获系列间（空间）相关性。现有文献主要集中在时间建模上，并提出了几种预测架构，包括基于循环神经网络（RNN）的方法（例如 DeepAR [7]）、基于卷积神经网络（CNN）的方法（例如时间卷积网络 [ 8]）和更新的基于 Transformer 的方法（例如 Informer [9] 和 Autoformer [4]）。此外，MTS 预测方法的另一个分支已被开发出来，不仅可以对时间依赖性进行建模，而且还强调空间相关性。最具代表性的方法是新兴的基于图神经网络（GNN）的方法[10,2,11]，它们在 MTS 预测任务中取得了最先进的性能。

以前基于 GNN 的预测方法（例如 STGCN [12] 和 TAMP-S2GCNets [11]）严重依赖预定义的图结构来指定空间相关性，事实上，它无法捕获空间动态，即随时间演变的空间相关模式。后来的先进方法（例如，StemGNN [10]、MTGNN [13]、AGCRN [2]）可以自动学习系列间相关性，并相应地对空间动态进行建模，而无需预先定义的先验，但几乎所有这些方法都是通过堆叠图网络来设计的（例如，GCN 和 GAT）来捕获空间动态，时间网络（例如，LSTM 和 GRU）来捕获时间依赖性。然而，图网络和时间网络的不确定兼容性给手工模型设计带来了额外的负担，从而阻碍了预测性能。此外，两个网络各自的建模分别学习空间/时间相关性，这自然违反了现实世界统一的时空相互依赖性。在本文中，我们探索了直接应用图网络进行预测的相反方向，并研究了一个有趣的问题：即使没有时间网络，纯图网络也能捕获空间动态和时间依赖性吗？

为了回答这个问题，我们从纯图的角度重新思考 MTS 预测任务。我们从构建一个新的数据结构——超变量图开始，用空间/时间动态的统一视图来表示时间序列。超变量图的核心思想是构建时空全连通结构。具体来说，给定时间戳 t 处的多元时间序列窗口（例如输入窗口） $X_{t}\in\mathbb{R}^{N\times T}$ ，其中 N 是序列（变量）的数量，T 是输入窗口的长度，我们构造一个相应的超变量图结构，表示为 $\mathcal{G}_{t}^{T}=(X_{t}^{T},{A_{t}^{T}}),$ ，通过考虑每个值 $x_t^{(n)}\in\mathbb{R}^1$ 来初始化为 NT 节点的全连接图，邻接矩阵 $A_{t}^{T}\in\mathbb{R}^{NT\times NT}$ 和节点特征 $\begin{aligned}X_t^T\in\mathbb{R}^{NT\times1}\end{aligned}$ 输入窗口的 $R^1$ （步骤 t 处的变量 n）作为超变量图的不同节点。这种特殊的结构设计将多元序列的序列内和序列间相关性表述为超变量图中的纯节点-节点依赖关系。与制作空间相关图并在两阶段（空间和时间）过程中学习动态的经典公式不同[13]，我们的观点将时空相关性视为一个整体。它放弃了时空建模的不确定兼容性，构建了自适应时空相互依赖关系，并在 MTS 预测中提出了跨多个变量和时间戳的更高分辨率融合。

然后，利用这样的图结构，多元预测可以原始地表达为对超变量图的预测。然而，超变量图的节点数量随着级数（N）和窗口长度（T）的增加而增加，导致图的阶数和尺寸都很大。这可能会使经典图网络（例如 GCN [14]、GAT [15]）的计算成本昂贵（通常具有二次复杂度），并且在获得准确的节点表示方面遇到优化困难 [16]。为此，我们提出了一种新颖的架构——傅立叶图神经网络（FourierGNN），用于从纯图角度进行 MTS 预测。具体来说，FourierGNN 建立在我们提出的傅里叶图算子（FGO）之上，它作为经典图操作单元（例如卷积）的替代品，在图的傅里叶空间中执行矩阵乘法。通过在 Fourier 空间中堆叠 FGO 层，FourierGNN 可以提供足够的学习表达力，同时实现更低的复杂度（对数线性复杂度），从而可以有效且高效地完成 MTS 预测。此外，我们还提出了理论分析来证明 FGO 相当于时域中的图卷积，这进一步解释了 FourierGNN 的有效性。

最后，我们对七个现实世界基准进行了广泛的实验。实验结果表明，与最先进的方法相比，FourierGNN 的准确率平均提高了 10% 以上。此外，与大多数轻量级基于 GNN 的预测方法相比，FourierGNN 实现了更高的预测效率，训练时间成本减少了约 14.6%，参数量减少了 20%。

二、 Related Work

用于多元时间序列预测的图神经网络多元时间序列 (MTS) 已经采用了 GNN，因为它们具有对变量之间的结构依赖关系进行建模的最佳能力 [17,2,13,12,11,18,19]。大多数这些模型，例如 STGCN [12]、DCRNN [18] 和 TAMP-S2GCNets [11]，都需要预定义的图结构，而该结构在大多数情况下通常是未知的。对于这一限制，一些研究能够通过系列间相关性自动学习图，例如通过节点相似性[20,2,17]或自注意力机制[10]。然而，这些方法总是分别采用用于空间相关性的图网络和用于时间依赖性的时间网络[20,17,10,2]。例如，AGCRN [2]使用GCN [14]和GRU [21]，GraphWaveNet [17]使用GCN和TCN [8]等。在本文中，我们提出了一种纯图网络的统一时空公式用于 MTS 预测。

利用傅里叶变换进行多元时间序列预测最近，许多 MTS 预测模型已将傅里叶理论集成到深度神经网络中 [22, 23]。例如，SFM[24]通过离散傅里叶变换（DFT）将LSTM的隐藏状态分解为多个频率。 mWDN [25]通过离散小波分解（DWT）将时间序列分解为多级子序列，并将它们输入到 LSTM 网络。 ATFN [26] 提出了一种基于离散傅立叶变换的模块来捕获时间序列数据的动态且复杂的周期性模式。 FEDformer [27] 提出了基于离散傅里叶变换的注意力机制，频率上具有低秩近似。虽然这些模型仅通过傅里叶变换捕获时间依赖性，但 StemGNN [10] 通过利用图傅里叶变换（GFT）执行图卷积和离散傅里叶变换（DFT）来计算，从而利用谱域中的空间相关性和时间依赖性的优势系列关系。

三、 Problem Definition

给定多变量时间序列输入，即回溯窗口 $X_t=[\boldsymbol{x}_{t-T+1},...,\boldsymbol{x}_t]\in\mathbb{R}^{N\times T}$ 在时间戳 t 上，序列（变量）数量为 N ，回溯窗口大小为 T，其中 $x_t\in\mathbb{R}^N$ 表示时间戳 t 处 N 系列的多元值。然后，多元时间序列预测任务是根据历史 T 个观测值 $X_t=[\boldsymbol{x}_{t-T+1},...,\boldsymbol{x}_t]$ 来预测下一个 τ 时间戳 $Y_{t}=[{\boldsymbol{x}_{t+1}},...,\boldsymbol{x}_{t+\tau}]\in\mathbb{R}^{N\times\tau}$ 。预测过程可由下式给出：
在这里插入图片描述
其中 $\hat{Y}_{t}$ 是对应于真实值 ${Y}_{t}$ 的预测。预测函数表示为由 θ 参数化的 $F_{\theta}$ 。在实践中，许多MTS预测模型通常利用图网络（假设由 $\theta_{g}$ 参数化）来学习空间动态和时间网络（假设由 $\theta_{t}$ 参数化）来学习时间依赖性，分别[17,10,2,13,11 ]。因此，式(1)的原始定义可以改写为：
在这里插入图片描述

其中原始参数 θ 暴露给图网络 $θ_g$ 和时间网络 $θ_t$ 的参数，以根据学习到的时空依赖性进行预测。

四、 Methodology

在本节中，我们将详细阐述我们提出的框架：首先，我们从第 4.1 节中的纯图公式开始，采用新颖的超变量图结构进行 MTS 预测。然后，我们在第 4.2 节中说明了针对该公式所提出的神经架构：傅里叶图神经网络（FourierGNN）。此外，我们从理论上分析了 FourierGNN 以证明其架构的有效性，并进行复杂性分析以证明其效率。最后，我们在 4.3 节中引入了一定的归纳偏差来实例化 FourierGNN 以进行 MTS 预测。

4.1 The Pure Graph Formulation

为了克服第 1 节中提到的图网络和时间网络的不确定兼容性，并学习统一的时空动力学，我们提出了一种纯图公式，通过一种新颖的数据结构（超变量图）针对时间序列来完善方程（2）。
定义 1（超变量图）。给定一个多元时间序列窗口作为输入 $X_t\in\mathbb{R}^{N\times T}$ ofN 在时间戳 t 处的变量，我们构建一个 NT 节点的超变量图， $\mathcal{G}_t=(X_t^{\mathcal{G}},A_t^{\mathcal{G}})$ ，通过将 $X_{t}$ 的每个元素视为 $\mathcal{G}_{t}$ 的一个节点，使得 $X_{t}^{\mathcal G}\in\mathbb{R}^{NT\times1}$ 代表节点特征， $A_{t}^{\mathcal{G}}\in\mathbb{R}^{NT\times NT}$ 是初始化的邻接矩阵，使 $\mathcal{G}_{t}$ 成为全连接图。

由于先验图结构在大多数多元时间序列场景中通常是未知的[10,2,13]，并且由于时滞效应， $\mathcal{X}_{t}$ 的元素在空间或时间上彼此相关[28]，我们假设Xt中的所有节点超变量图 $\mathcal{G}_{t}$ 是全连接的。超变量图 $\mathcal{G}_{t}$ 包含表示 $\mathcal{X}_{t}$ 中每个时间戳处每个变量的值的 NT 节点，它可以学习跨时间戳和变量的高分辨率表示（超变量图的更多解释可以参见附录 C.1）。我们在图1中展示了一个包含三个时间序列的超变量图示例。因此，利用这样的数据结构，我们可以将多元时间序列预测任务重新表述为对超变量图的预测，并相应地将方程（2）重写为：

在这里插入图片描述
图 1：具有三个时间序列的超变量图的图示。输入窗口中的每个值都被视为图形的一个节点。

在这里插入图片描述其中 $\theta_{\mathcal{G}}$ 代表超变量图的网络参数。通过这样的表述，我们可以从统一的角度看待空间动态和时间依赖性，这有利于对现实世界的时空相互依赖性进行建模。

4.2 FourierGNN

虽然纯图公式可以增强时空建模，但超变量图的阶数和大小随着变量 N 的数量和窗口 T 的大小而增加，这使得经典图网络（例如 GCN [14] 和 GAT [15]）在计算上昂贵（通常是二次复杂度）并且在获得准确的隐藏节点表示方面面临优化困难[16]。在这方面，我们提出了一种高效且有效的方法，即 FourierGNN，用于纯图表述。 FourierGNN 的主要架构建立在我们提出的傅里叶图算子（FGO）之上，傅里叶空间中的可学习网络层，详细信息如下。

定义 2（傅里叶图算子）。给定一个图 G = (X, A)，其节点特征 $X\in\mathbb{R}^{n\times d}$ 和邻接矩阵 $A\in\mathbb{R}^{n\times n}$ ，其中 n 是节点数，d 是特征数，我们引入一个权重矩阵 $W\in\mathbb{R}^{d\times d}$ 获得定制的格林核 $\kappa:[n]\times[n]\to\mathbb{R}^{d\times d}$ 且 $\begin{aligned}\kappa[i,j]:=A_{ij}\circ W\textit{ and }\kappa[i,j]=\kappa[i-j]\end{aligned}$ 。我们将 $\mathcal{S}_{A,W}:=\mathcal{F}(\kappa)\in\mathbb{C}^{n\times{d\times d}}$ 定义为傅里叶图算子（FGO），其中 F 表示离散傅里叶变换（DFT）。

根据卷积定理[29]（参见附录B），我们可以将F(X)与FGO SA,W在傅立叶空间中的乘法写为：

在这里插入图片描述
其中 $(X*\kappa)[i]$ 表示 X 和 κ 的卷积。根据 $\begin{aligned}\kappa[i,j]=A_{ij}\circ W\end{aligned}$ 的定义，得出 $\sum_{j=1}^{n}X[j]\kappa[i,j]=\sum_{j=1}^{n}A_{ij}X[j]W=AXW$ 。据此，我们可以得到卷积方程：

在这里插入图片描述

特别是，转向我们的全连接超变量图的情况，我们可以采用 n 不变 FGO $\mathcal{S}\in\mathbb{C}^{d\times d}$ ，与之前的 $\mathbb{C}^{n\times d\times d}$ 相比，其计算成本较低。我们在附录 C.2 中提供了更多详细信息和解释。

从等式（5）中，我们可以观察到在傅立叶空间中执行 F(X) 和 FGO S 之间的乘法对应于时域中的图移位操作（即图卷积）[20]。由于傅里叶空间中的乘法 (O(n)) 比上述时域移位操作 (O(n2)) 的复杂度低得多（请参见下面的复杂度分析），因此它激励我们开发一种高效的图神经网络傅立叶空间。

为此，我们提出了基于FGO的傅里叶图神经网络（FourierGNN）。具体来说，通过堆叠多层 FGO，我们可以将 K 层傅里叶图神经网络定义为给定图 G = (X, A)，其中节点特征 $X\in\mathbb{R}^{n\times d}$ 和邻接矩阵 $A\in\mathbb{R}^{n\times n}$ 为：

在这里插入图片描述
其中， $S_k$ 为第k层的FGO，满足 $\mathcal{F}(X)\mathcal{S}_k=\mathcal{F}(A_kXW_k)$ ， $W_k\in\mathbb{R}^{d\times d}$ 为权值， $A_{k}\in\mathbb{R}^{n\times n}$ 对应于第k个邻接矩阵，共享相同的邻接矩阵 A 的稀疏模式， $b_{k}\in\mathbb{C}^{d}$ 是复值偏差参数； F代表离散傅立叶变换； σ 是激活函数。特别地， $S_0$ 、 $W_0$ 、 $A_0$ 是单位矩阵，我们在k=0时采用相同的激活来获得残差F(X)。 FourierGNN 中的所有操作都在傅里叶空间中执行。因此，所有参数，即 $\{\mathcal{S}_{k},b_{k}\}_{k=1}^{K}$ ，都是复数。

FourierGNN 的核心运算是非线性激活函数的递归乘法求和。具体来说，F(X)和S之间的递归乘法，即 $\mathcal{F}(X)\mathcal{S}_{0:k},$ 相当于图结构上的多阶卷积（见下面的理论分析）。引入非线性激活函数 σ 来解决求和中图上非线性信息扩散建模的能力限制。

命题1. 给定一个图G = (X, A)，其节点特征 $X\in\mathbb{R}^{n\times d}$ ，邻接矩阵 $A\in\mathbb{R}^{n\times n}$ ，FGO在傅立叶空间中的递归乘法相当于时域中的多阶卷积：

在这里插入图片描述
其中 $A_0$ , $S_0$ , $W_0$ 是单位矩阵， $A\in\mathbb{R}^{n\times n}$ 对应于共享 A 的相同稀疏模式的第 k 个扩散步骤， $W_{k}\in\mathbb{R}^{d\times d}$ 是第 k 个权重矩阵， $\mathcal{S}_k\in\mathbb{C}^{d\times d}$ 是第 k 个 FGO 满足 $\mathcal{F}(A_kXW_k)=\mathcal{F}(X)\mathcal{S}_k,$ ，F 和 F−1 分别表示 DFT 及其逆。

在时域中，操作 $A_{k:0}XW_{0:k}$ 采用不同的权重 $W_k\in\mathbb{R}^{d\times d}$ 来衡量不同扩散阶中不同邻居的信息，有利于捕获图上的广泛依赖关系[20,30,31]。这表明 FourierGNN 在建模图节点之间的复杂相关性（即超变量图中的时空依赖性）方面具有表现力。命题 1 的证明和 FourierGNN 的更多解释在附录 C.3 中提供。

复杂度分析 F(X)S 的时间复杂度为 $\begin{aligned}\mathcal{O}(nd\log n+nd^2)\end{aligned}$ ，包括离散傅里叶变换 (DFT)、离散傅里叶逆变换 (IDFT) 以及傅里叶空间中的矩阵乘法。相比之下，F(X)S在时域上的等效运算AXW的时间复杂度为 $\begin{aligned}\mathcal{O}(n^2d+nd^2)\end{aligned}$ 。然后，作为 F(X)S 的递归乘法的 K 阶求和，FourierGNN 实现了 $\begin{aligned}\mathcal{O}(nd\log n+Knd^2)\end{aligned}$ 的时间复杂度，包括 DFT 和 IDFT，以及 FGO 的递归乘法。总体而言，对数线性 O(n log n) 复杂度使 FourierGNN 更加高效。

FourierGNN 与其他图网络我们分析了 FourierGNN 与 GCN [14] 和 GAT [15] 之间的联系和区别。从复杂度的角度来看，具有对数线性复杂度的 FourierGNN 表现出比 GCN 和 GAT 高得多的效率。关于网络架构，我们主要从两个角度进行分析：（1）领域。 GAT在时域中实现操作，而GCN和FourierGNN在傅里叶空间中实现。然而，GCN 通过图傅里叶变换（GFT）实现变换，而 FourierGNN 利用离散傅里叶变换（DFT）。 (2)信息扩散：GAT通过注意力机制将不同权重的邻居节点聚合起来。 FourierGNN 和 GCN 通过卷积邻居节点来更新节点信息。与 GCN 不同，FourierGNN 在不同的扩散步骤中为邻居节点分配不同的重要性。我们在附录 D 中提供了详细的比较。

4.3 Multivariate Time Series Forecasting with FourierGNN

在本节中，我们实例化 FourierGNN 以进行 MTS 预测。我们模型的整体架构如图 2 所示。给定 MTS 输入数据 $X_t\in\mathbb{R}^{N\times T}$ ，首先我们构建一个全连接的超变量图 $\mathcal{G}_t=(X_t^{\mathcal{G}},A_t^{\mathcal{G}})$ ，其中 ${X}_{t}^{\mathcal{G}}\in\mathbb{R}^{NT\times1}\mathrm{~and~}A_{t}^{\mathcal{G}}\in\{1\}^{n\times n}$ 。然后，我们通过使用嵌入矩阵 $\begin{aligned}E_\phi\in\mathbb{R}^{1\times d}\end{aligned}$ 为每个节点分配 d 维向量，将 $\mathbf{X}_{t}^{\mathcal{G}}\in\mathbb{R}^{NT\times d}$ 投影到节点嵌入 $\mathbf{X}_{t}^{\mathcal{G}}\in\mathbb{R}^{NT\times d}$ 中，即 $\mathbf{X}_t^\mathcal{G}=X_t^\mathcal{G}\times E_\phi$ 。

在这里插入图片描述
图 2：使用 FourierGNN 进行 MTS 预测的网络架构（蓝色字符表示复数值，例如 $\mathcal{X}_t^{\mathcal{G}}\mathcal{S}_i$ ）。给定超变量图 $\mathcal{G}=(X_t^\mathcal{G},A_t^\mathcal{G})$ ，我们 1) 嵌入 $X_{t}^{\mathcal G}\in\mathbb{R}^{NT\times1}$ 的节点以获得节点嵌入 $\mathbf{X}_{t}^{\mathcal{G}}\in\mathbb{R}^{NT\times d}$ ； 2）将嵌入的超变量图输入 FourierGNN：（i）使用 DFT 将 $\mathcal{X}_{t}^{\mathcal{G}}$ 变换为 $\mathcal{X}_{t}^{\mathcal{G}}\in\mathbb{C}^{NT\times d}$ ； (ii) 递归乘法求和，输出 $\mathcal{Y}_{t}^{\mathcal{G}}$ ； (iii) 通过IDFT将 $\mathcal{Y}_{t}^{\mathcal{G}}$ 变换回时域，得到 $\mathbf{Y}_t^{\mathcal{G}}\in\mathbb{R}^{NT\times d}$ ； 3）通过将 $\mathcal{Y}_{t}^{\mathcal{G}}$ 馈送到全连接层来生成 τ 步预测 $\hat{Y}_t\in\mathbb{R}^{N\times\tau}$ 。

随后，为了同时捕获时空依赖性，我们的目标是将 $\mathbf{X}_t^{\mathcal{G}}$ 的多个嵌入超变量图馈送到 FourierGNN。首先，我们对嵌入 $\mathbf{X}_t^{\mathcal{G}}$ 的每个离散时空维度执行离散傅里叶变换（DFT）F，并获得频率输出 $\mathcal{X}_t^{\mathcal{G}}:=\mathcal{F}(\mathbf{X}_t^{\mathcal{G}})\in{\mathbb{C}}^{NT\times d}$ 。然后，我们在傅里叶空间中执行 $\mathbf{X}_t^{\mathcal{G}}$ 和 FGO $\mathcal{S}_{0:k}$ 之间的递归乘法，并将结果表示 $\mathcal{Y}_t^{\mathcal{G}}$ 输出为：
在这里插入图片描述
然后使用离散傅里叶逆变换（IDFT） $F^{−1}$ 将 $\mathcal{Y}_t^{\mathcal{G}}$ 变换回时域，得到 $\mathbf{Y}_{t}^{\mathcal{G}}:=\mathcal{F}^{-1}(\mathcal{Y}_{t}^{\mathcal{G}})\in\mathbb{R}^{NT\times d}.$ 。

最后，根据编码时空相互依赖性的 FourierGNN 输出 $\mathbf{Y}_t^{\mathcal{G}}$ ，我们使用两层前馈网络（FFN）（更多详细信息请参阅附录 E.4）将其投影到 τ 未来步骤上，从而得到 $\begin{aligned}\hat{Y}_t=\text{FFN}(\mathbf{Y}_t^{\mathcal{G}})\in\mathbb{R}^{N\times\tau}\end{aligned}$ 。

五、 Experiments

为了评估 FourierGNN 的性能，我们对七个真实时间序列基准进行了广泛的实验，以与最先进的基于图神经网络的方法进行比较。

5.1 实验设置

数据集。我们在来自不同应用场景的七个代表性数据集上评估了我们提出的方法，包括交通、能源、网络流量、心电图和 COVID-19。所有数据集均使用最小-最大标准化进行标准化。除 COVID-19 数据集外，我们将其他数据集按时间顺序按 7:2:1 的比例分为训练集、验证集和测试集。对于 COVID-19 数据集，该比例为 6:2:2。有关数据集的更多详细信息请参阅附录 E.1。

基线。我们在七个数据集上对我们的 FourierGNN 与几种代表性和最先进（SOTA）模型的预测性能进行了全面比较，包括经典方法 VAR [32]、基于深度学习的模型，如 SFM [24 ]、LSTNet [33]、TCN [8]、DeepGLO [34] 和 CoST [36]。我们还将 FourierGNN 与基于 GNN 的模型（如 GraphWaveNet [17]、StemGNN [10]、MTGNN [13] 和 AGCRN [2]）以及两个代表性的基于 Transformer 的模型（如 Reformer [35] 和 Informer [9]）进行比较，如下所示以及两个基于 Transformer 的频率增强模型，包括 Autoformer [4] 和 FEDformer [27]。此外，我们将 FourierGNN 与 TAMP-S2GCNets [11]、DCRNN [18] 和 STGCN [1] 等 SOTA 模型进行比较，这些模型需要预定义的图结构。请参阅附录 E.2 了解所采用基线的更多实施细节。

实验设置。所有实验均使用 Pytorch 1.8 [37] 在 Python 中进行（除了使用 Keras 的 SFM [24]），并在单个 NVIDIA RTX 3080 10G GPU 上执行。我们的模型使用 RMSProp 进行训练，学习率为 10−5，MSE（均方误差）作为损失函数。所有比较模型的最佳参数都是通过对验证集进行仔细的参数调整来选择的。我们使用平均绝对误差 (MAE)、均方根误差 (RMSE) 和平均绝对百分比误差 (MAPE) 来衡量性能。评估详细信息参见附录 E.3，更多实验设置参见附录 E.4。

表 1：预测模型在六个数据集上的总体性能。
在这里插入图片描述
表 2：在 COVID-19 数据集上不同预测长度下的性能比较。

5.2 Main Results

我们在表 1 中给出了输入长度为 12、预测长度为 12 的评估结果。总体而言，FourierGNN 在所有数据集上都实现了新的最先进水平。平均而言，与所有数据集中表现最佳的模型相比，FourierGNN 的 MAE 提高了 9.4%，RMSE 提高了 10.9%。在这些基线中，Reformer、Informer、Autoformer 和 FEDformer 是基于 Transformer 的模型，它们在电力和 COVID19 数据集上展示了具有竞争力的性能，因为它们擅长捕获时间依赖性。然而，它们在明确捕获空间依赖性方面存在局限性。 GraphWaveNet、MTGNN、StemGNN 和 AGCRN 是基于 GNN 的模型，在 Wiki、Traffic、Solar 和 ECG 数据集上显示出有希望的结果，主要是因为它们能够处理变量之间的空间依赖性。然而，它们同时捕获时空依赖性的能力有限。 FourierGNN 优于基线模型，因为它可以同时学习全面的时空依赖性，并关注变量之间的时变依赖性。

多步预测为了进一步评估多步预测的性能，我们将 FourierGNN 与其他基于 GNN 的 MTS 模型（包括 StemGNN [10]、AGCRN [2]、GraphWaveNet [17]、MTGNN [13] 和 TAMP）进行比较 S2GCNets [11]）和表示学习模型（CoST [36]）在不同预测长度下的 COVID-19 数据集上进行比较，结果如表 2 所示。结果表明，FourierGNN 在 MAE 上平均实现了 30.1% 和 30.2% 的改进和 RMSE 分别超过最佳基线。在附录 F 中，我们包含了更多不同预测长度下的实验和分析，并进一步将 FourierGNN 与需要预定义图结构的模型进行比较。

5.3 Model Analysis

效率分析我们研究了 FourierGNN、StemGNN [10]、AGCRN [2]、GraphWaveNet [17] 和 MTGNN [13] 在两个代表性数据集（包括 Wiki 数据集和 Traffic 数据集）上的参数量和训练时间成本。结果如表 3 所示，显示了五轮实验的参数量和平均时间成本的比较。在参数方面，FourierGNN 在对比模型中表现出最少的参数量。具体来说，与 GraphWaveNet 在 Traffic 和 Wiki 数据集上的参数分别减少了 32.2% 和 9.5%。这种减少主要归因于 FourierGNN 为每个节点共享无标度参数。在训练时间方面，FourierGNN 的运行速度比所有基线模型都要快得多，并且在 Traffic 和 Wiki 数据集上，其效率比快速基线 GraphWaveNet 分别提高了 5.8% 和 23.3%。考虑到 Wiki 数据集的变量数量大约是 Traffic 数据集变量的两倍，FourierGNN 在基线上表现出更大的效率优势。这些发现凸显了 FourierGNN 在计算图操作方面的高效率及其对具有广泛图的大型数据集的可扩展性，这对于纯图公式非常重要，因为具有 NT 节点的超变量图尺寸较大。

表 3：数据集 Traffic 和 Wiki 上的参数量和训练时间成本的比较。
在这里插入图片描述
消融研究我们对 METR-LA 数据集进行消融研究，以评估 FourierGNN 中不同组件的单独贡献。表 4 中的结果验证了每个组件的有效性。具体来说，w/o Embedding 强调了执行节点嵌入以提高模型泛化能力的重要性。使用相同 FGO 的无动态 FGO 验证了应用不同 FGO 在捕获时变依赖性方面的有效性。另外，w/o Residual表示没有K = 0层的FourierGNN，而w/o Summation采用最后一阶（层）输出，即XS0:K作为FourierGNN的输出。这些结果证明了高阶扩散的重要性和多阶扩散的贡献。附录 G.3 提供了消融研究的更多结果和分析。

表 4：METR-LA 数据集的消融研究。
在这里插入图片描述

5.4 Visualization

为了更好地理解 MTS 预测时空建模中的超变量图和 FourierGNN，我们在 METR-LA 和 COVID-19 数据集上进行了可视化实验。有关所使用的可视化技术的更多信息，请参阅附录 E.5。

FourierGNN 学习的时间表示的可视化为了展示 FourierGNN 的时间依赖性学习能力，我们将不同变量的时间邻接矩阵可视化。具体来说，我们从 COVID-19 数据集中随机选择 8 个县，并计算每个县 12 个连续时间步长的关系。然后，我们通过热图可视化邻接矩阵，结果如图 3 所示，其中 N 表示国家（变量）的索引。它表明 FourierGNN 学习每个县的不同时间模式，表明超变量图可以编码丰富且有区别的时间依赖性。

在这里插入图片描述
图 3：COVID-19 数据集上八个变量的时间邻接矩阵。

FourierGNN 学习的空间表示的可视化为了研究 FourierGNN 的空间相关性学习能力，我们根据 FourierGNN 在 METR-LA 数据集上学习的表示来可视化生成的邻接矩阵。具体来说，我们随机选择 20 个检测器，并通过热图可视化它们相应的邻接矩阵，如图 4 所示。通过结合实际路线图检查邻接矩阵，我们观察到：1）检测器（7、8、9、 11, 13, 18) 非常接近。物理距离，对应于热图中它们彼此相关性的高值； 2)探测器4、14和16由于距离其他探测器较远，总体相关值较小； 3)然而，与检测器14和16相比，检测器4与其他检测器例如7、8、9具有稍高的相关值，这是因为虽然它们相距较远，但是检测器4、7、8、9是在同一条路上。结果验证了超变量图结构可以表示高度解释性的相关性。

在这里插入图片描述
图 4：FourierGNN 学习的邻接矩阵（右）和相应的路线图（左）。

此外，为了了解 FGO 的工作原理，我们将 FourierGNN 每层的输出可视化，可视化结果表明 FGO 可以自适应且有效地捕获重要模式，同时消除学习判别模型的噪声。更多详细信息请参见附录 H.1。此外，为了研究 FourierGNN 捕获变量之间随时间变化的依赖性的能力，我们进一步可视化不同时间戳的空间相关性。结果表明 FourierGNN 可以有效地处理数据的时间变化。欲了解更多信息，请参阅附录 H.2。

六、 Conclusion Remarks

在本文中，我们从纯图的角度探索了一个有趣的方向，即直接应用图网络进行 MTS 预测。为了克服以前单独的时空建模问题，我们构建了一个超变量图，将每个序列值视为一个图节点，统一考虑时空动力学。然后，我们在超变量图上制定时间序列预测，并通过堆叠傅里叶图算子（FGO）在傅里叶空间中执行矩阵乘法来提出 FourierGNN，这可以以低得多的复杂度提供足够的学习表达力。大量实验表明，FourierGNN 以更高的效率和更少的参数实现了最先进的性能，并且超变量图结构表现出强大的编码时空相互依赖性的能力。