Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey

西西弗的小蚂蚁

已于 2024-04-13 10:25:00 修改

阅读量1.1k

点赞数

分类专栏：图数据挖掘城市计算文章标签：人工智能算法深度学习

于 2023-08-23 18:53:18 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/132458954

版权

图数据挖掘同时被 2 个专栏收录

52 篇文章

订阅专栏

城市计算

7 篇文章

订阅专栏

本文是对城市计算中时空图神经网络（STGNN）技术的综述。介绍了时空图的构建方法，阐述其在交通、环境、安全和公共卫生等领域的应用，分析了STGNN的基本神经结构，探讨改进的时空依赖性学习方法，还指出当前面临的挑战及未来方向。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Spatio-Temporal Graph Neural Networks for Predictive Learning in Urban Computing: A Survey

（一）引言

近年来提出的时空图神经网络（Spatio-Temporal Graph Neural Network，STGNN）框架通过集成图神经网络和各种时间学习方法，能够提取复杂的时空依赖关系。这篇文章是对城市计算中的STGNN技术的综述。

大多数城市数据是时空的，它们不仅和空间位置相关，而且随时间变化。相关性和异质性是城市系统中时空数据普遍存在的特性。

相关性：数据在时间维度和空间维度上是自相关的；
异质性：数据在不同时间或空间范围内表现出不同模式。

时空异质性：(a) 城市网络中不同的区域（如住宅区、休闲区、商业区）(b) 来自不同地区不同节点的人流量统计数据。所有选择的节点都有明显的峰值，但来自不同地区节点的人流量统计数据存在很大差异。相同地区即使是不同的节点，人流量统计数据也是相似的（如节点3和4）。

（二）时空图的构建

假设有时空序列数据 �={��∈��×�|�=0,...,�} ，其中 � 是空间节点个数， � 是特征维数。对于这样的数据，时空图是一种有效的结构，可以表征一定时空范围内不同节点之间的关系。

时空图可以表示为 ��=(�,��,��) ，其中 � 是节点集合， �� 和 �� 分别表示时刻 � 的边集和邻接矩阵。时空图可以是有向图、无向图、加权图和非加权图。时空图的结构可以是静态的也可以是动态的。

静态时空图和动态时空图的区别

城市系统中预定义时空图的构建方法可以分为四类：基于拓扑的、基于距离的、基于相似性的和基于交互的。

1. 基于拓扑的时空图

基于给定的拓扑结构构建的图，邻接矩阵可公式化为：

��={1,�� 0,��ℎ��

其中 �� 表示时刻 � 邻接矩阵中的元素。由于拓扑结构中的连接可以是对称的或非对称的，因此基于拓扑的图可以是有向的或无向的。拓扑只表示非欧几里得空间中的连接，因此基于拓扑的图是未加权的。此外，社会系统中的拓扑结构通常在相当长的一段时间内是固定的，所以我们可以将它们视为静态图。

2. 基于距离的时空图

可以在没有给定拓扑的情况下构建基于距离的图，邻接矩阵中的元素需要通过与距离相关的核函数来计算。使用高斯径向基函数的基于距离的图的邻接矩阵可公式化为：

��={exp⁡(−‖��‖2)�,�� ≤�0,��ℎ��

其中 �� 是时刻 � 节点 � 和 � 之间的距离， � 是控制邻接矩阵稀疏性的预定义阈值， � 是控制分布的超参数。

3. 基于相似性的时空图

相似性能够从语义的角度反映不同实体之间的关系。基于相似性的图可以基于时间序列的相似性（如皮尔逊相关系数、DTW算法）或空间属性的相似性（如POI）来构建。使用皮尔逊相关系数计算的基于相似性的图的邻接矩阵定义为：

��=∑�=1�(��0:�−�¯�0:�)(��0:�−�¯�0:�)∑�=1�(��0:�−�¯�0:�)2(��0:�−�¯�0:�)2

其中 ��0:�,��0:� 分别为节点 � 和 � 在时间段 � 上的时间序列， �¯�0:�,�¯�0:� 分别是节点 � 和 � 在时间段 � 上的时间序列平均值。

4. 基于交互的时空图

不同位置之间的交互可以从信息流的角度表达它们的联系，基于交互的图的邻接矩阵定义：为

��={��∑�∈�(�)��,�� >00,��ℎ��

其中 �� 表示在时间 � 从节点 � 到 � 的流， �(�) 表示与 � 交互的所有节点。两个节点之间的信息流动比例越大，它们之间的连接就越紧密。

（三）主要应用领域和预测性学习任务

STGNN的主要应用领域涉及交通、安全、环境和公共卫生。其中，交通是STGNN最受欢迎的应用领域。

1. 交通 Transportation

交通状态预测 Traffic State Prediction

通过一定空间范围内的历史交通状态来预测未来的交通状态。交通状态预测可分为两大类：网络范围预测和区域范围预测。网络范围预测的目标通常是给定道路网络上的交通流量或速度，基本的图结构可以直接从道路网络转换而来。区域范围预测的目标通常是城市地区的人流量，整个城市区域划分为网格区域，然后可以根据不同区域之间的距离、连通性、语义相关性等构建时空图。交通状态预测任务可以总结为如下形式：

[�(�−�′+1),…,�(�);�]→�(⋅)[�(�+1)…,�(�+�)]

其中 �(�)∈��×� 是 � 个节点在时刻 � 的交通状态矩阵。 � 是图结构， �(⋅) 是用于预测的STGNN。

交通需求预测 Traffic Demand Prediction

交通需求分为三种：出发地需求、目的地需求、出发地-目的地需求。预测出发地需求和目的地需求类似于区域交通状态预测，即通过 � 个区域的历史需求预测未来需求。然而，出发地-目的地需求预测需要通过历史出发地-目的地矩阵来预测未来的出发地-目的地矩阵。

交通事故预测 Traffic Incident Prediction

交通事故预测任务的目的是预测道路网络上可能发生事故的一些重要特性（如发生概率、发生时间）。除预测对象不同外，其他和交通状态预测类似。

出行时间预测 Travel Time Prediction

该任务旨在通过道路网络上的历史交通状态预测给定轨迹的出行时间。不仅需要考虑轨迹本身的特征，还需要捕捉道路网络的时空动态性。基于STGNN的出行时间预测可以定义为：

�(��|��−�:�,�)→��,��其中 �� 表示出发时间为 � 的给定轨迹， ��−�:� 表示给定道路网络 � 上历史时间窗口为 � 的时空特征 ��−�:� 。 �� 和 �� 表示整个轨迹的全局出行时间和局部路段出行时间。

轨迹预测 Trajectory Prediction

群体中主体的运动模式存在一些相关性或相互作用，因此可以基于群体中不同主体之间的关系构建时空图。在构建了时空图后，我们可以设计STGNN模型，根据主体历史轨迹预测主体未来可能到达的坐标，实现对未来轨迹的预测。

2. 环境 Environment

空气质量预测 Air Quality Prediction

空间质量指数(AQI)、PM2.5和排放量是我们关心的指标，这些相关数据有城市级或国家级观测站收集，由于空气流动性，距离较近或风向相同的观测站可能收集到相关的结果。构建基于时空图的深度学习模型不仅可以建立这种空间相关性，还可以捕捉空气质量的时变动态性。

气象预测 Meteorological Prediction

与空气质量数据类似，气象数据也由分布的观测站收集。然而，不同站点之间的相关性可能更加复杂，并且容易受到更多因素的影响。

3. 安全 Security

犯罪频率预测 Crime Frequency Prediction

由于不同的城市区域具有不同的功能、POI和其他特征，这些也可能导致不同的犯罪类型和趋势。然而，具有相似特征或距离较近的地区可能在犯罪事件中具有潜在的相关性。

灾情预测 Disaster Situation Prediction

为了对跨地理位置的相关和异构特征进行建模，STGNN在这项任务中可能是富有成效的。

4. 公共卫生 Public Health

流行病预测 Epidemic Prediction

最近的一些现有工作采用了STGNN模型来解决国家层面或国际层面的流行病预测任务。其中许多方法结合了流行病动力学的数学公式和时空图的建模，取得了比传统方法更好的预测结果。

救护车需求预测 Ambulance Demand Prediction

由于社会系统不同区域之间的公共医疗资源、交通条件和需求模式可能存在时变相关性，为了学习这些多视角的空间相关性，近年来STGNN方法在这项任务上逐渐得到推广。

主要应用领域频繁使用的数据集⭐

（四）STGNN的基本神经结构

用于预测学习的STGNN的基本框架包括三个主要模块：

数据处理模块（Data Processing Module，DPM）：从原始数据中构建时空图数据；
时空图学习模块（Spatio-Temporal Graph Learning Module，STGLM）：捕获复杂的社会系统中隐藏的时空依赖关系；
任务感知预测模块（Task-aware Prediction Module，TPM）：将STGLM中的时空隐藏表示映射到下游预测任务的空间中。

STGLM是STGNN中最关键的部分，通常通过一定的时空融合神经网络架构将空间学习网络和时间学习网络有机结合在一起。对于空间学习网络，可以选择谱域图卷积网络、空间图卷积网络、图注意力网络GAT；对于时间学习网络，可以选择循环神经网络RNN、时间卷积网络TCN、时间自注意力网络TSAN。

1. 图神经网络GNN

谱域图卷积网络 Spectral Graph Convolutional Network

在这种方法中需要图傅立叶变化和逆图傅立叶变换来实现空域和谱域之间的变化：

�(�)=�⊤��−1(�)=��其中 � 表示归一化图拉普拉斯算子特征向量的矩阵。图卷积运算定义为：

�⋆�=�−1(�(�)⊙�(�))=�(�⊤�⊙�⊤�)��⋆�=��⊤�其中， ⊙ 表示卷积操作， �⊤� 表示谱域中的滤波器。大多数基于谱域的GNN主要改进了 �� 的计算方法。

ChebNet：将 �� 通过切比雪夫多项式的截断展开来近似。

�~=2��−��⋆�=∑�=0��(�~)� 其中 �~ 为归一化图拉普拉斯算子， �� 是 � 的最大特征值， ��(�) 表示 � 阶切比雪夫多项式， �� 表示切比雪夫系数向量。

空间图卷积网络 Spatial Graph Convolutional Network

当图的结构发生变化时，图的拉普拉斯矩阵也需要重新计算。因此，谱域GCN更适合于图结构不随时间变化的场景。

GCN：进一步简化了图卷积运算，直接在空间域中进行图卷积。

��⋆�=�(��+�12��12)�其中， � 是邻接矩阵， � 是度矩阵， � 是可学习参数。

GraphSAGE：为了解决GCN全图输入的问题，GraphSAGE采用采样聚合方法，在大型图上实现灵活的归纳学习。

ℎ�(�)�←��({ℎ�′�−1,∀�′∈��(�)})ℎ��←�(��⋅��(ℎ��−1,ℎ�(�)�))其中， �(�) 为 � 的邻居节点集合， ℎ�(�)� 表示聚合操作后节点 � 的嵌入表示。

图注意力网络 Graph Attention Network

为了考虑相邻节点在空间依赖性学习中的重要性，GAT将注意力机制引入节点聚合操作。

ℎ��+1=�(∑�∈��ℎ��)��=exp⁡(��(�⊤[�ℎ�‖�ℎ�]))∑�∈��exp⁡(��(�⊤[�ℎ�‖�ℎ�]))其中， �� 表示相邻节点 � 对中心节点 � 的注意力得分， � 是与每个节点的线性变换相关联的权重矩阵， � 是注意力输出的权重参数。为了进一步稳定注意力的计算过程，还可以在GAT中引入多头注意力形式。

ℎ��+1=‖�=1��(∑�∈��ℎ��)ℎ��+1=�(1�∑�=1�∑�∈��ℎ��)其中， �� 是由第 � 个注意力头计算的归一化注意力得分。

2. 循环神经网络RNN

循环神经网络是一种通过递归计算进行深度序列建模的方法，在时间序列学习中有广泛应用。原始RNN最大的限制是梯度消失和梯度爆炸问题。为了克服这一挑战，提出了两种常用的变体：长短期记忆网络LSTM和门控循环单元网络GRU。

长短期记忆网络 Long-Short Term Memory Network

遗忘门输入门输出门候选单元状态单元状态��=�(��⋅[ℎ�−1,��]+��),(遗忘门)��=�(��⋅[ℎ�−1,��]+��),(输入门)��=�(��⋅[ℎ�−1,��]+��),(输出门)�~�=tanh⁡(��⋅[ℎ�−1,��]+��),(候选单元状态)��=��∗��−1+��∗�~�,(单元状态)ℎ�=��∗tanh⁡(��)

门控循环单元网络 Gated Recurrent Unit Network

更新门重置门候选隐藏状态��=�(��⋅��+��⋅��−1+��),(更新门)��=�(��⋅��+��⋅��−1+��),(重置门)�~�=tanh⁡(��⋅��+��(��⊙��−1)+��),(候选隐藏状态)��=��⊙��−1+(1−��)⊙�~�

3. 时间卷积网络TCN

循环结构使得序列必须在每个时间步进行计算，这大大增加了计算负担，降低了模型效率。相比之下，具有并行1D-CNN结构的时间卷积网络（TCN）可以解决这个问题。与应用于图像识别的2D-CNN类似，1D-CNN也通过卷积核对特征进行运算和聚合。然而，1D-CNN的卷积核是一维的，并且仅在时间轴上滑动。

门控时间卷积网络 Gated Temporal Convolutional Network

受LSTM和GRU中门控机制的启发，我们还可以将其与纯1D-CNN架构相结合，以提高时间学习的能力。

�(�)=tanh⁡(Θ1⋆�)⊙�(Θ2⋆�)其中 Θ1 和 Θ2 分别表示两个不同1D-CNN中卷积核的可学习参数， ⋆ 表示卷积操作， ⊙ 表示按元素相乘机制， �(Θ2⋆�) 表示门控单元，用于控制历史信息的利用率。

因果时间卷积网络 Causal Temporal Convolutional Network

通过掩码机制来逐层去除部分链路，并将这些链路从以前的时间步保留到未来的时间步，从而使得网络满足时间依赖性原则。同时为了更有效的捕获更长时间范围的时间依赖性，逐层增加膨胀因子能够学习从短距离到长距离的时间依赖关系。

�(�)=(�∗��)(�)∑��−1�(�)⋅��−�⋅�其中 � 是时间序列输入， � 是膨胀因子，当 �=1 时是普通卷积算子。

4. 时间自注意力网络TSAN

自注意力网络是长期时间学习的有效方法，最典型的代表是Transformer。Transformer模型主要由三部分组成：缩放点积注意力网络、前馈网络和位置编码。

缩放点积网络是Transformer的核心部分，注意力得分的计算公式为：

��(�,�,�)=��(��⊤��)�其中，quires � 、keys � 和values � 是自注意力中的三个基本元素，它们是通过对原始输入进行不同的线性变换而获得的。 �� 表示比例因子，其值等于模型的维度。为了稳定训练过程，这一部分也可以采用多头注意力形式。

由于Transformer不包含循环或卷积算子，需要在序列中注入位置信息，以使序列顺序完整。基于三角函数的编码是一种常见的位置编码方法。

��(��,2�)=��(��/100002�/��),��(��,2�+1)=��(��/100002�/��)其中 �� 为位置， � 是维度。

5. 时空融合网络架构

时空融合架构决定了空间学习网络和时间学习网络如何融合成完整的STGNN。

传统的融合神经架构可以分为两类：因子神经架构（Factorized Neural Architecture）和耦合神经架构（Coupled Neural Architecture）。

因子神经架构 Factorized Neural Architecture

在因子神经架构中，空间学习网络和时间学习网络模块一层一层并行或串行堆叠。

STGCN：其时间学习网络是TCN，空间学习网络是GCN。在STGCN的每个ST-Conv块中，两个TCN和一个GCN按三明治结构串联堆叠。

��+1=Γ1�∗��(Θ�∗�(Γ0�∗��))

其中， Γ0�,Γ1� 分别是块 � 内的上下时间卷积核， Θ� 为图卷积核。

T-GCN：其时间学习网络是GRU，空间学习网络是GCN。每个时间步GCN和GRU依次处理图信号，分别学习空间和时间相关性。

�(�,�)=�(��0),��=�(��[�(�,��),ℎ�−1]+��),��=�(��[�(�,��),ℎ�−1]+��),��=tanh⁡(��[�(�,��),(��∗ℎ�−1)]+��),ℎ�=��∗ℎ�−1+(1−��)∗��其中 �(�,��) 表示在时间步 � 空间GCN的输出，然后将 �(�,��) 输入到GRU中以获得在时间步 � 处的隐藏状态。

耦合神经架构 Coupled Neural Architecture

在耦合神经架构中，空间学习网络通常作为嵌入式组件集成到时间学习网络的架构中。在STGNN中，这种类型的神经结构几乎只出现在基于GNN的空间学习网络和基于RNN的时间学习网络的组合中。

DCRNN：该模型将GCN集成到GRU的结构中。GRU中的原始线性单元被图卷积算子取代。

�(�)=�(Θ�⋆�[�(�),�(�−1)]+��)�(�)=�(Θ�⋆�[�(�),�(�−1)]+��)�(�)=tanh⁡(Θ�⋆�[�(�),(�(�)⊙�(�−1))]+��)�(�)=�(�)⊙�(�−1)+(1−�(�))⊙�(�)其中， Θ�⋆� 表示参数为 Θ� 的图卷积算子。

现有经典STGNN模型的神经架构总结⭐

（五）STGNN中改进的时空依赖性学习方法⭐

1. 空间依赖性学习方法

多图卷积 Multi-Graph Convolution

在城市系统中，在空间尺度上存在着多种关系。例如，在交通系统中，相似的交通模式可能存在于相邻区域和具有相似POI的区域中。因此，同时考虑多个空间关系对于STGNN中的时空依赖性学习是不可忽视的。

STMGCN：该模型首先基于邻域、功能相似性和连通性构造多图，以表征多种空间相关性。对于每个图，分别采用上下文门控RNN和ChebNet来捕获时间和空间相关性。最后，通过融合并行化的多图时空隐藏信息，得到最终的预测结果。

自适应图学习 Adaptive Graph Learning

尽管多图建模可以在一定程度上表征多种空间相关性，但这种方法仍有两个局限性。一个是图构造的不足，没有考虑到其他隐含的相关性。另一个是图构造的合理性，即没有足够的领域知识来支持图构造。因此，自适应图学习方法已经逐渐被开发出来以克服这些问题。STGNN中的自适应图学习方法可以分为两大类：基于随机初始化和基于特征初始化。

基于随机初始化的自适应图学习方法通过随机初始化可学习矩阵，执行自适应的图结构学习。

Graph WaveNet：

�~��=��(��(�1�2⊤))其中， �1,�2∈��×� 分别是源节点和目标节点的嵌入，它们是随机初始化的两个可学习矩阵，其中 � 表示图中节点的数量， � 表示嵌入的维度。

MTGNN：

�1=tanh⁡(��1Θ1),�2=tanh⁡(��2Θ2),�~��=��(tanh⁡(�(�1�2⊤−�2�1⊤)))其中， �1,�2 表示随机初始化的节点嵌入， Θ1,Θ2 是模型参数， � 是用于控制激活函数饱和率的超参数。

基于特征初始化的自适应图学习方法基于给定输入或隐藏状态执行自适应图结构学习。这种类型的自适应图学习方法通常采用可学习矩阵或注意力机制来结合给定的特征来构建图结构。

多尺度空间学习 Multi-Scale Spatial Learning

由于城市系统中存在空间异质性，不同的实体可以划分为具有不同功能的社区。同一社区中的实体具有社区内相关性，而不同社区中的主体也可能具有跨社区相关性。因此，近年来提出了一些基于社区划分的多尺度空间学习方法。一些工作通过人工划分或聚类算法获得划分的社区，还有一些工作通过神经网络获得。

GAGNN：该模型首先提出了学习分配矩阵的可微分组网络，该网络自动计算城市与城市群之间的映射关系。然后分别在这两个不同尺度的图数据上使用空间GCN，以学习社区内和跨社区的时空依赖关系。

异质空间学习 Heterogeneous Spatial Learning

与多尺度空间学习方法不同，一些工作直接对时空数据中的细粒度节点到节点的异构关系进行建模。

MOHER：设计了基于多种交通模式的异构图，以同时接收来自多个来源的信息。该模型的时空异质图由区域成对关系（Region Pair-wise Relations）和模式间多重关系（Inter-mode Multi-relations）构建，以表征不同交通模式之间的相关性。然后将异构图卷积算子与LSTM相结合，以捕获复杂的时空依赖关系。

2. 时间依赖性学习方法

多尺度时间学习 Muti-Scale Temporal Learning

由于许多场景中的时空数据既有短期相关性，也有长期相关性，因此捕获多尺度时间相关性也是改进时间相关性学习的重要方向。到目前为止，STGNN中的多尺度时间依赖性学习有两个主流的设计方向。一种是使用不同规模感受野的TCN，另一种是整合不同的时间学习网络。

Traffic STGNN：通过集成多网络实现多尺度时间学习，该模型采用GRU学习短期时间相关性，使用Transformer学习长期时间相关性。

多粒度时间学习 Multi-Granularity Temporal Learning

在交通系统等一些特殊场景中，某个时间的交通流量不仅与最近的交通流量有关，而且可能与前一天甚至前一周的交通流量相似，分别反映了接近性、周期性和趋势性。

ASTGCN：采用典型的三分支架构进行多粒度时间学习，其中 �ℎ,��,�� 分别表示最近一个小时的时空数据、前一天这一小时的数据，和前一周这一时间的数据。来自这三个分支的数据分别经过多个GCN和注意力网络的计算后，最终通过可学习权重矩阵进行融合。

分解时间学习 Decomposition Temporal Learning

在时空图数据中，个体时间模式通常包含各种隐藏成分，如固有时间成分、扩散时间成分、周期性时间成分等。为了更好地捕捉复杂的时间依赖性，已经提出了分解时间学习方法，它可以通过专门设计的神经网络自动分解和集成不同的时间分量。

FC-GAGA：采用N-BEATS的减法残差来分解交通时间序列中的不同分量，并对每个分量的空间相关性进行建模。FC-GAGA由多层堆叠而成。每一层包含一个Time Gate块、一个Graph Gate块和多个全连接块。Time Gate块旨在从块的输入中去除特定于节点的季节性，并在块的输出处重用它，而Graph Gate块旨在捕获来自不同个体的空间相关性。

3. 时空依赖性融合方法

时空联合建模 Spatio-Temporal Joint Modeling

前面提到的基本时空融合神经架构，无论是因子神经架构还是耦合神经架构，都是单独学习空间和时间依赖关系并将其叠加，并不是从联合的角度对时空依赖关系进行建模，因此很难跨时间步学习一些复杂的时空关系。

STSGCN：该模型关键部分是构造时空同步图，将相同位置的节点在相邻时间步上相互连接。这种图构建方法不仅可以在空间尺度上表征邻居，还可以在时间尺度上表征相邻邻居，建立统一的时空关系。在构建图之后，STSGCN直接采用简单的GCN模型来捕捉时空依赖关系。

自动时空融合 Automated Spatio-Temporal Fusion

由于STGNN中有许多复杂的组件，因此神经结构的合理设计是一个具有挑战性的问题。现有的时空融合神经架构大多是经验设计的，由于不同场景下的时空属性不同，无法适应不同的数据场景。神经架构搜索（Neural Architecture Search，NAS）方法为STGNN中的自动时空依赖性融合带来了机会。我们可以将STGNN中不同的空间学习网络或时间学习网络视为不同的块，并且可以通过NAS方法来学习这些块是如何组合的。

AutoSTG：该模型尝试将DARTS这一经典的基于梯度的NAS方法引入STGNN。在AutoSTG中，整个神经网络被划分为不同的堆叠单元，这些单元是执行NAS的基本单元，在搜索阶段，DARTS通过概率参数化的方法获得每个中间隐藏状态的表示：

��=∑�<�∑�∈�exp⁡(��(�,�))∑�′∈�exp⁡(��′(�,�))�(��)其中， �� 表示第 � 个中间隐藏状态， � 表示操作集合， � 表示 � 中某种操作， ��(�,�) 表示从第 � 个到第 � 个隐藏状态的架构参数。当搜索阶段结束时，根据具有最高 ��(�,�) 的操作来固定神经架构。

4. 与STGNN相结合的先进方法

对抗学习 Adversarial Learning

考虑到L1和L2范数等数据点误差通常被用作传统预测学习任务中的损失函数，这种优化目标缺乏对预测数据和真实数据之间的分布和相关性的度量，这可能会导致预测结果失真。因此，对抗性损失可以在一定程度上与传统损失相结合来解决这个问题，这在时间序列预测中得到了广泛应用。由于对抗性损失需要由生成对抗网络（Generative Adversarial Networks）驱动，因此通常使用神经预测器作为生成器，而判别器的神经架构需要单独设计。

TFGAN：提出了一种结合对抗性损失的STGNN模型用于交通流量预测，其判别器由GCN和GRU组成，GCN和GRU的组合可以从空间和时间维度联合判别预测，这确保了预测结果在时空尺度上与真实数据分布相似。TFGAN通过最小-最大博弈训练生成器 � 和判别器 � 。该模型的生成器 � 是具有多图卷积的STGNN。损失函数表示为：

��=��^∼�(�)[log⁡(1−�(�^))],��=1�∑�=1�‖��−��‖2,��=��∼�(�)[log⁡(�(�))]+��^∼�(�)[log⁡(1−�(�^))],��,��=min��[��+max��]其中 �� 是生成器损失， �� 是预测结果和真实值之间的均方误差（MSE）， �� 是判别器误差， �(⋅) 表示判别器网络。生成器网络参数 �� 和判别器网络参数 �� 通过最小-最大目标进行优化。

元学习 Meta-Learning

在大多数现有的工作中，STGNN模型中包含的元学习技术通常是通过元学习器提取额外的时空属性来实现的。

STMetaNet：该模型由RNN、Meta-GAT和Meta-RNN组成。为了充分利用额外的时空信息，STMetaNet提出了两种类型的元知识学习器：节点元知识（Node Meta-Knowledge，NMK）学习器和边元知识（Edge Meta-Knowledge，EMK）学习器。两种不同的元知识学习者器都使用完全连接的网络作为基本的学习网络。NMK学习器旨在从节点属性学习元知识，EMK学习器则旨在从边属性学习元知识。然后，学习的元知识被进一步用于学习Meta-RNN和Meta-GAT的权重。任一空间节点 � 的 Meta-RNN的计算过程被公式化为：

�Ω(�)=��Ω(��(�(�))),�Ω(�)=��Ω(��(�(�))),�Ω(�)=��Ω(��(�(�))),ℎ�(�)=��(��(�),ℎ�−1(�)|�Ω(�),�Ω(�),�Ω(�)),其中 �Ω(�),�Ω(�),�Ω(�) 为GRU中的可学习参数，并且它们是由节点知识元学习器从节点属性 �(�) 生成的。元学习器由三个不同的全连接网络 ��Ω,��Ω,��Ω 组成。

自监督学习 Self-Supervised Learning

自监督学习是一种通过自构建标签将无监督学习任务转化为有监督任务的方法。STGNN模型与自监督学习相结合，可以提高时空图学习的能力，提高下游预测学习任务的准确性。对比学习是通过构建正样本和负样本来实现的最重要的自我监督学习方法之一，近年来已被引入STGNN模型。

STGCL：该模型首先通过数据增广构建正负样本（edge masking、input masking和temporal shifting），在获得正负样本后，使用相同的STG Encoder分别学习原始数据和增广数据的时空图表示。然后STGCL分为两个分支：预测分支和对比分支。在预测分支中STG Decoder直接输出预测结果，使用数据点误差如MAE作为损失函数。在对比分支中，将两种类型的表示 �′,�″ 输入到Projection Head中，以进一步得到潜在表示 �′,�″ 。对于两种潜在表示，可以使用GraphCL模型提出的对比损失：

��=1�∑�=1�−log⁡exp⁡(��(��′,��″)/�)∑�∈��exp⁡(��(��′,��″)/�)其中 ��(⋅) 表示余弦相似度， � 表示温度参数。

连续时空建模 Continuous Spatio-Temporal modeling

大多数现有的关于STGNN的工作以离散的形式对空间和时间依赖性进行建模，这导致不连续的潜在状态轨迹和更高的预测误差。STGNN与神经常微分方程相结合可以提高连续形式的时空图表示学习能力。

MTGODE：将神经常微分方程（Neural-ODE）与图卷积算子和时间卷积算子分别集成，具有残差连接的多层GCN转换为连续形式，用常微分方程表示为：

��(�)��=(�^−��)��(�)其中 �^ 是邻接矩阵，通过自适应学习得到， ��(�) 是连续隐藏状态。为了获得ODE的近似解，引入ODE求解器 ��(⋅) ，它可以是任何黑盒ODE求解器（如Euler，Euler-Cauchy，Runge Kuta fourth order）。给定初始隐藏状态 ��(0) ，GCN在 � 处的连续隐藏状态可以近似计算为：

��(��)=��(��(0),��(�)��,��)与连续GCN类似，具有残差连接的多层TCN也可以转换为连续形式，其定义为：

��⊤(�)��=�(��(��(�),�,Θ),�)其中 � 表示填充操作，以保证时间维度保持一致， Θ 表示卷积核参数， � 表示TCN的感受野。TCN中 � 处的连续隐藏状态可以通过ODE求解器近似计算，如下所示：

�~��=��(��(0),��(�)��,��)

物理信息学习 Physics-Informed Learning

物理信息网络（Physics-Informed Neural Network，PINN）近年来成为探索和计算现实世界动力学的一种新范式，它集成了具有强大拟合能力的物理微分方程和神经网络，可以将预测限制在符合物理定律的范围内。物理信息学习方法也可以与STGNN相结合，特别是在流行病预测任务中。

STAN：该模型将SIR微分方程的约束集成到STGNN架构中，并使用GAT和GRU分别捕获空间和时间相关性，并进行了多任务预测。该模型的输出有四个组成成分：传播率 � 、恢复率 � 、随时间变化的感染数 △� 和恢复率 △� 。它们需要满足基于SIR方程的物理约束：

��=��=��−��=�−�−�其中 � 表示幸存者， � 表示总人数。在STAN中，使用约束损失来强制预测随时间变化感染和恢复数接近SIR方程计算的感染和恢复数。

迁移学习 Transfer Learning

由于一些时空图数据的稀缺性，迁移学习技术已成为将相同的基本STGNN模型扩展到不同数据场景的最低成本方法。然而，与STGNN相结合的迁移学习有两个主要限制。一个是空间结构的异质性，另一个是不同场景下时间模式的异质性。具体来说，在不同的场景中，空间拓扑、关系等以及周期性和趋势性等时间模式都是完全不同的。现有的关于时空图迁移学习方法包含三类：基于聚类、基于领域自适应和基于元学习的方法。

改进的时空依赖性学习方法⭐

（六）挑战和未来方向

缺乏可解释性：到目前为止，绝大多数STGNN相关工作都集中在通过复杂的模型设计来提高预测性能。然而，对模型可解释性的研究相对缺乏，也就是说，我们无法清楚地了解哪些时空特征在提高预测性能方面发挥着主导作用。
缺乏校准方法：不确定性量化对实际工业生产具有重要意义，它反映了对模型预测结果的信任程度。为了提高深度模型的可信度，需要适当的模型校准方法。
缺乏物理约束：在以往的大多数工作中，STGNN模型通过深度神经网络的集成来捕捉复杂的时空依赖关系，而忽略了对不同应用领域物理约束的考虑，这使得该模型在一些专业领域的认可度较低。
缺乏预训练技术：近年来，预训练技术在时间序列和图表示学习领域得到了很大发展，但在STGNN相关工作中相对缺乏。
分布变化的障碍：时空数据，如道路网络上的交通流量，通常是从不同的地点和时间段收集的，导致训练、验证和测试集的分布存在显著差异。由于分布变化，在一个数据集上训练模型可能在验证和测试集上表现不佳。
探索新的训练策略：每个地点的时空相关性建模的复杂性可能会有很大差异，这就需要一种新的训练策略，如课程学习。课程学习从更简单的数据开始，在越来越困难的数据上训练模型，可能有效地解决这个问题。此外，STGNN的其他潜在训练策略包括多任务学习、迁移学习和持续学习。
可扩展性问题：设计高效STGNN的一个特别具有挑战性的情况是，传感器网络中的位置数量非常大。在这种情况下，需要开发能够有效处理和分析网络生成的大量时空数据，同时保持高预测精度的STGNN。如采用模型剪枝/蒸馏、图采样技术。