FourierGNN:以纯图视角重新思考多元时序预测

导读

论文题目《FourierGNN: Rethinking Multivariate Time Series Forecasting from a Pure Graph Perspective》。该论文于2023年发表于Neural Information Processing Systems会议,文章提出了一种新颖的纯图视角,并采用傅里叶图神经网络进行时间序列预测。

摘要

多变量时间序列(MTS)预测在许多行业中显示出重要性。目前最先进的基于图神经网络(GNN)的预测方法通常需要图网络(例如GCN)和时序网络(例如LSTM)来捕捉系列间(空间)动态和系列内(时间)依赖关系。然而,这两个网络的不确定兼容性给手工设计模型增添了额外负担。此外,分离的空间和时序建模自然违反了现实世界中统一的时空相互依赖关系,这在很大程度上阻碍了预测性能的提升。为了解决这些问题,作者探索了一个有趣的方向,即直接应用图网络,从纯图的角度重新思考MTS预测。作者首先定义了一个新颖的数据结构,称为超变量图,将每个系列值(无论是变量还是时间戳)视为一个图节点,并将滑动窗口表示为时空全连接图。这种视角统一考虑了时空动态,并重新构造了经典的MTS预测为对超变量图的预测。然后,作者提出了一种新颖的体系结构——傅里叶图神经网络(FourierGNN),通过堆叠作者提出的傅里叶图算子(FGO)在傅里叶空间执行矩阵乘法。FourierGNN具有足够的表达能力,实现了更低的复杂性,可以有效而高效地完成预测。此外,作者的理论分析揭示了FGO在时间域中等效于图卷积,进一步验证了FourierGNN的有效性。对七个数据集的广泛实验证明了作者的卓越性能,相较于最先进的方法,作者具有更高的效率和更少的参数。

介绍

多变量时间序列(MTS)预测在许多实际场景中扮演着重要角色,如交通系统中的交通流预测,天气预报中的温度估计,以及能源市场中的电力消耗规划等。在MTS预测中,核心挑战是对系列内(时间)依赖关系进行建模,并同时捕捉系列间(空间)相关性。

作者从纯图的角度重新思考MTS预测任务。作者首先构建了一个新的数据结构——超变量图,以统一的视角表示时空动态的空间/时序。超变量图的核心思想是构建一个时空全连接结构。具体而言,在给定时间戳t的多变量时间序列窗口(例如输入窗口)3dfd43e4617d2160ef0ae88053cc3b98.png,其中N是系列(变量)的数量,T是输入窗口的长度,作者构建了相应的超变量图结构表示为6d8edcb385dfc3b0a90709ba5b98f25a.png,它被初始化为具有NT个节点的全连接图,其邻接矩阵b593a5e268e78c40e2a102f624c01af3.png和节点特征ae2abb380e3d58c6fb988dc62f06b629.png,通过将输入窗口的每个值49b3fd94c341a157ea351275170f53a4.png(时间步t的变量n)视为超变量图的一个独立节点。这种特殊的结构设计将多变量序列的系列内和系列间相关性都表达为超变量图中纯粹的节点依赖关系。与经典的公式不同,经典的公式以两阶段(空间和时序)的过程学习空间相关图并动态学习,作者的视角将时空相关性视为一个整体。它放弃了空间/时序建模的不确定兼容性,构建了自适应的时空相互依赖关系,并在MTS预测中实现了多变量和时间戳之间更高分辨率的融合。

然后,有了这样一个图结构,多变量预测可以最初被公式化为对超变量图的预测。然而,超变量图的节点数随着系列数量(N)和窗口长度(T)的增加而增加,导致一个具有大阶和大小的图。因此,作者提出了一种新颖的架构——傅里叶图神经网络(FourierGNN),用于从纯图的角度进行MTS预测。具体而言,FourierGNN是建立在作者提出的傅里叶图算子(FGO)之上的,FGO作为经典图操作单元(例如卷积)的替代,通过在图的傅里叶空间执行矩阵乘法。通过在傅里叶空间中堆叠FGO层,FourierGNN可以适应足够的学习表达能力,并在同时实现更低的复杂性(对数线性复杂性),从而可以有效地完成MTS预测。

问题定义

给定多变量时间序列输入,即在时间戳t处具有系列数量(变量数)N和回望窗口大小T的回望窗口ecf3045fe41089a3f655b9a3dce1e5aa.png,其中274948fe563473a7c9f36e24a6827d69.png表示在时间戳t处的N个系列的多变量值。然后,多变量时间序列预测任务是基于历史观察值c0529b8a1fad3143c11f37663c57dfb4.png,预测接下来的τ个时间戳898230abf0ff06cb292225df8895481b.png。预测过程可以表示为:

1e9a2d310bab6cc67e005c731eac7697.png

其中Yˆt是对应于实际Yt的预测。预测函数由参数θ表示,实际上是Fθ。在实践中,许多MTS预测模型通常利用一个图网络(假设由θg参数化)来学习空间动态,并利用一个时序网络(假设由θt参数化)来学习时序依赖性。因此,方程(1)的原始定义可以重写为:

f6bf29a1faa709671461c38ffcc162d4.png

其中原始参数θ暴露给图网络θg和时序网络θt的参数,以便基于学到的时空依赖关系进行预测。

方法论

在本节中,作者详细阐述作者提出的框架:首先,在第4.1节中,作者从纯图的角度开始阐述作者提出的多变量时间序列(MTS)预测的新颖超变量图结构。然后,在第4.2节中,作者介绍了提出的神经架构——傅里叶图神经网络(FourierGNN)用于这一公式。此外,作者通过理论分析傅里叶图神经网络来证明其架构的有效性,并进行复杂性分析以展示其效率。最后,在第4.3节中,作者引入一定的归纳偏见,为MTS预测实例化傅里叶图神经网络。

4.1 纯图公式化

为了克服在第1节中提到的图网络和时序网络的不确定兼容性,并学习统一的时空动态,作者提出了一个纯图公式化,通过一种新颖的数据结构——超变量图,对时间序列进行细化,以改进公式(2)。

定义 1(超变量图):给定时间戳t处的N变量的多变量时间序列窗口e8e0a0bc61f157aee3db4f14862569be.png作为输入,作者构建了一个具有NT节点的超变量图600c0d29353727aa3f587e439f5109bc.png,将Xt的每个元素视为Gt的一个节点,其中5c4127aab8db3cc7a4b0b49ba4b331b9.png表示节点特征,c03548f7c1d7daf3971a29b2b507037b.png是邻接矩阵,初始化为使Gt成为全连接图。

由于在大多数多变量时间序列场景中通常不知道先前的图结构,并且由于时间滞后效应,Xt的元素在空间或时间上彼此相关,作者假设超变量图Gt中的所有节点都是全连接的。超变量图Gt包含NT个节点,表示Xt中每个时间戳的每个变量的值,它可以学习跨时间戳和变量的高分辨率表示(有关超变量图的更多解释可参见附录C.1)。作者在图1中展示了三个时间序列的超变量图的示例。因此,通过这样的数据结构,作者可以将多变量时间序列预测任务重新公式化为对超变量图的预测,并相应地重写公式(2)为:

b04651b90b2ab5737642e875c55a1e13.png

其中θG表示超变量图的网络参数。通过这样的公式,作者可以从一个统一的视角来看待空间动态和时序依赖性,从而有助于建模现实世界的时空相互依赖关系。

4.2 傅里叶图神经网络(FourierGNN)

尽管纯图公式化可以增强时空建模,但超变量图的阶数和大小随变量数N和窗口大小T的增加而增加,这使得经典图网络在计算上变得昂贵(通常是二次复杂度),并且在获取准确的隐藏节点表示方面存在优化困难。在这方面,作者提出了一种高效且有效的方法——傅里叶图神经网络(FourierGNN),用于纯图公式化。FourierGNN的主要架构建立在作者提出的傅里叶图运算符(FGO)之上,这是一个在傅里叶空间中的可学习的网络层,详细如下。

定义2(傅里叶图运算符):给定图G = (X, A)的节点特征b04567e97361602d530badc0207711cb.png和邻接矩阵9e46887e248e09d47a99799635d0b616.png,其中n是节点数,d是特征数,作者引入一个权重矩阵75a1c18af181e72fed4a77eba5e492bb.png,以获取一个定制的Green's核f50cf0ceaf4070a9d3925b69d926115a.png,其中e74236fb8920f54cfa3a0c1726160686.png086f19a142e2eab51fdb7f5afe626070.png。作者定义b983ec1a3472aeca7e77f6fd30ed6154.png 作为傅里叶图运算符(FGO),其中F表示离散傅里叶变换(DFT)。

根据卷积定理,作者可以在傅里叶空间中写出F(X)和FGO SA,W之间的乘法:

3e63ae9c803585a00a94271094a439dc.png

其中(X ∗ κ)[i]表示X和κ的卷积。由于定义了9fc6079913927bc9f38881b9580cba5f.png,它导致ec9b59f36664c5964310ba01ad81a178.png。因此,作者可以得到卷积方程:

7c180ddcd6338ecfe90dee856623fca1.png

作者基于FGO提出了傅里叶图神经网络(FourierGNN)。具体来说,通过堆叠多层FGO,作者可以定义K层傅里叶图神经网络,给定图G =(X,A)的节点特征X ∈ R^n×d和邻接矩阵A ∈ R^n×n:

19ee02b4fed6ad793c4ba5a6e62aef07.png

FourierGNN的核心操作是具有非线性激活函数的递归乘法的总和。具体来说,F(X)和S之间的递归乘法,即6f2914883a2bcf57cb6918535957124c.png,相当于图结构上的多阶卷积。引入非线性激活函数σ是为了解决模型在图上建模非线性信息传播的能力限制。

4.3 利用FourierGNN进行多变量时间序列预测

在本节中,作者为MTS预测实例化了FourierGNN。作者模型的整体架构如图1所示。

a50fd2836273ddda52148c82161a1665.png

图1 文章整体架构

给定MTS输入数据Xt ∈ R^N×T,首先作者构建一个全连接的超变量图。然后,作者通过使用嵌入矩阵投影到节点嵌入。

随后,为了同时捕捉时空依赖关系,作者旨在将多个嵌入的超变量图与一起馈送到FourierGNN中。首先,作者对嵌入的每个离散时空维度执行离散傅里叶变换(DFT),获得频率输出。然后,作者在傅里叶空间中执行递归乘法,并输出结果表示为:

910ff5696e98a378ddad026c468e0862.png

然后,通过逆离散傅里叶变换(IDFT)转换回时域。

最后,根据编码时空相互依赖性的FourierGNN输出YtG,作者使用两层前馈网络(FFN)将其投影到τ个未来步骤,得到最终预测结果。

实验

为了评估FourierGNN的性能,作者在七个真实世界的时间序列基准数据集上进行了大量实验,与最先进的基于图神经网络的方法进行比较。

5.1 实验设置

数据集:作者在来自不同应用场景的七个代表性数据集上评估了作者提出的方法,包括交通、能源、网络流量、心电图和COVID-19等。所有数据集均使用最小-最大归一化进行标准化。除了COVID-19数据集外,作者将其他数据集按照7:2:1的比例在时间上划分为训练、验证和测试集。对于COVID-19数据集,比例为6:2:2。

基线模型:作者在七个数据集上对作者的FourierGNN与几个代表性的和最先进的模型进行了全面比较,包括经典方法VAR、基于深度学习的模型如SFM、LSTNet、TCN、DeepGLO和CoST。作者还将FourierGNN与基于GNN的模型(如GraphWaveNet、StemGNN、MTGNN和AGCRN)以及基于Transformer的模型(如Reformer和Informer)进行比较,还包括两个频率增强的Transformer模型,即Autoformer和FEDformer。此外,作者将FourierGNN与TAMP-S2GCNets、DCRNN和STGCN等SOTA模型进行比较,这些模型需要预定义的图结构。

作者使用平均绝对误差(MAE)、均方根误差(RMSE)和平均百分比误差(MAPE)来衡量性能。

5.2 主要结果

作者在表1中以输入长度为12和预测长度为12的情况下呈现了评估结果。

d1edbd8210fa5568008b2051c5224bc3.png

表1 预测模型在6个数据集上的整体性能。

总体而言,FourierGNN在所有数据集上都取得了新的最先进水平。平均而言,FourierGNN在MAE上取得了9.4%的改进,在RMSE上取得了10.9%的改进,与所有数据集上表现最佳的模型相比。在这些基线模型中,Reformer、Informer、Autoformer和FEDformer是基于Transformer的模型,它们在Electricity和COVID-19数据集上展现出竞争力强的性能,因为它们擅长捕捉时间依赖性。然而,它们在明确捕捉空间依赖性方面存在局限。GraphWaveNet、MTGNN、StemGNN和AGCRN是基于GNN的模型,它们在Wiki、Traffic、Solar和ECG数据集上展现出有希望的结果,主要是由于它们处理变量之间空间依赖关系的能力。然而,它们在同时捕捉时空依赖性方面受到限制。FourierGNN在模型能够同时学习全面的时空依赖性并关注变量间的时变依赖性方面优于基线模型。

多步预测:为了进一步评估在多步预测中的性能,作者将FourierGNN与其他基于GNN的MTS模型(包括StemGNN、AGCRN、GraphWaveNet、MTGNN和TAMP-S2GCNets)以及一个表示学习模型(CoST)在COVID-19数据集上在不同预测长度下进行比较,结果如表2所示。表明FourierGNN在MAE和RMSE上分别取得了平均30.1%和30.2%的改进,相对于最佳基线。在附录F中,作者包括了在不同预测长度下的更多实验和分析,并进一步将FourierGNN与需要预定义图结构的模型进行比较。

88ef0e9b7cbb2b991d7742a47dc13ba3.png

表2 COVID-19数据集在不同预测长度下的性能比较。

5.3 模型分析

效率分析:作者对FourierGNN、StemGNN、AGCRN、GraphWaveNet和MTGNN在两个代表性数据集(Wiki数据集和Traffic数据集)上的参数量和训练时间成本进行了调查。结果报告在表3中,显示了在五轮实验中参数量和平均时间成本的比较。在参数方面,FourierGNN在比较模型中展示了最低的参数量。具体而言,在Traffic和Wiki数据集上,与GraphWaveNet相比,它分别减少了32.2%和9.5%的参数。这主要归因于FourierGNN为每个节点使用了共享的无标度参数。关于训练时间,FourierGNN比所有基线模型运行得更快,并且在Traffic和Wiki数据集上相对于快速基线GraphWaveNet分别表现出5.8%和23.3%的效率改进。考虑到Wiki数据集的变量数量约为Traffic数据集的两倍,FourierGNN在效率上展现出比基线更大的优势。这些发现突显了FourierGNN在计算图操作方面的高效性以及对具有庞大图的大型数据集的可伸缩性,这对于纯图形式化来说是重要的,因为超变量图的大小更大,具有NT个节点。

fc525bb1104802bba9fed87aabebdb14.png

表3 在数据集流量和Wiki上的参数体积和训练时间成本的比较。

消融研究:作者在METR-LA数据集上进行了一项消融研究,以评估FourierGNN中不同组件的个体贡献。结果在表4中呈现,验证了每个组件的有效性。

e9fc0c1fb5f87efbda4d72d158d2528d.png

表4 在METR-LA数据集上的消融研究。

Attention

欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

  • 20
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值