【论文分享】Spatial-Temporal Transformer Networks for Traffic Flow Forecasting

最新推荐文章于 2025-04-18 07:32:22 发布

今天也是菜醒的一天

最新推荐文章于 2025-04-18 07:32:22 发布

阅读量1.2w

点赞数 6

分类专栏：论文分享 # Transformer 文章标签： transformer 神经网络人工智能

本文链接：https://blog.csdn.net/zn0412/article/details/121289567

版权

论文分享同时被 2 个专栏收录

13 篇文章

订阅专栏

Transformer

2 篇文章

订阅专栏

【arXiv:2001.02908v2 [eess.SP] 29 Mar 2021】
用于交通流量预测的时空 Transformer 网络
作者：Mingxing Xu, Wenrui Dai, Member, IEEE, Chunmiao Liu, Xing Gao, Weiyao Lin, Senior Member, IEEE, Guo-Jun Qi, Senior Member, IEEE, and Hongkai Xiong, Senior Member, IEEE
源码：https://github.com/Lin956/STTNS

摘要

交通预测已经成为智能交通系统的一个核心组成部分。然而，由于交通流的高度非线性和动态时空依赖性，及时准确的交通预测，特别是长期预测，仍然是一个公开的挑战。在本文中，我们提出了一种新的时空Transformer网络（STTNs），它联合利用动态的定向空间依赖和长距离的时间依赖来提高长期交通流预测的准确性。我们提出了一种新的图神经网络变体，名为空间Transformer，以动态的方式建立具有自注意力机制的有向空间依赖关系模型，以捕捉交通流的实时状况和方向。各种空间依存关系的模式被多头注意力机制联合建模，以考虑多种因素，包括相似性、连接性和协方差。此外，还开发了时间Transformer来模拟跨多个时间步长的双向时间依赖关系。与现有的工作相比，STTNs能够对长距离的空间-时间依赖关系进行有效和可扩展的训练。实验结果表明，在现实世界的PeMS-Bay和PeMSD7(M)数据集上，STTNs与最先进的技术相比具有竞争力，特别是在长期交通流预测方面。
索引词：交通流量预测，空间-时间依赖性，动态图神经网络，Transformer。

1 引言

       随着经济实惠的交通传感器技术的部署，爆炸性的交通数据使我们进入了交通大数据时代。因此，智能交通系统（ITS）[1]的发展是为了利用交通大数据进行有效的城市交通控制和规划。作为智能交通系统的核心组成部分，及时准确的交通预测已引起人们越来越多的关注。
       在交通预测中，一个节点的未来交通状况（如速度、流量和密度）是根据其本身及其邻近节点的历史交通数据预测的。对于一个预测模型来说，有效和高效地捕捉交通流中的空间和时间依赖性是很重要的。交通量预测通常被分为两个尺度，即短期（≤30分钟）和长期（≥30分钟）。现有的方法，如时间序列模型[2]和卡尔曼滤波[3]在短期预测方面表现良好。然而，这些模型的静止假设在长期预测中并不实用，因为交通流在本质上是高度动态的。此外，它们不能共同利用交通流的空间和时间相关性来进行长期预测。
       交通网络可以表示为图形，其中节点代表交通传感器，边和它们的权重由传感器之间的连接性和欧氏距离决定。因此，交通流可以被看作是随时间演变的图信号。最近，图神经网络（GNN）[4], [5], [6]已经成为处理图数据的强大工具。顺序模型通过纳入GNNs来改进，以共同捕捉短期和长期预测的时空相关性。基于GNN的交通预测模型首先在[7]和[8]中被开发出来，通过将交通网络的固有拓扑结构引入序列模型来提高预测性能。空间[4]或光谱[5]图卷积网络（GCNs）与基于卷积的序列学习模型[9]或递归神经网络（RNNs）相结合，共同捕捉空间和时间上的依赖关系。然而，这些模型对于交通预测，特别是长期预测，在以下两个方面仍然受到限制。
       固定的空间依赖性。在交通预测任务中，由于道路拓扑结构、不同的交通速度和多种因素（如天气状况、高峰期和交通事故），空间依赖关系是高度动态的。对于每个传感器，其相关的传感器随着时间的推移而变化。图1(a)提供了一个简单的交通预测的例子，其中不包括目标节点（紫色）的交通速度在不同的时间步骤中没有变化。对于目标节点（紫色），根据交通速度和距离确定的范围（红圈），考虑不同的相关节点（红色）来制定不同时间步长的空间依赖关系（例如，τ - 1、τ - 2、τ - 3）。考虑到任意两个传感器之间的连接性和距离，它们的空间依赖性是复杂的，因为交通速度是随时间变化的。对于不同方向的交通流，即上游和下游，空间依赖性也会有所不同。此外，如图1（b）所示，由于高峰期的周期性影响，不同的天气条件和意外发生的交通事故，空间依赖性会随着时间的推移而不规则地震荡。因此，有必要有效地捕捉这些动态的空间依赖关系，以改善交通预测。
在这里插入图片描述

有限范围的时间依赖性。在现有的方法中，长距离的时间依赖性通常被忽略。然而，通过考虑不同时间步骤的不同规模的依赖关系，可以促进长期交通流量预测。
图1(a)说明了不同时间步长的空间依赖性，这意味着预测性能会因限制时间依赖性的范围而下降。此外，如图2(a)所示，使用现有的自动回归方法训练每个时间步长的单个损失[7]或多个时间步长的联合损失[8]，预测误差将在长期交通预测中被传播和累积。
在这里插入图片描述

       在本文中，我们提出了一种新颖的时空Transformer网络（STTNs）范式来解决上述交通流量预测中的挑战。本文的贡献总结如下。
       • 我们开发了一个空间-时间块来动态地模拟长距离的空间-时间依赖关系。
       • 我们提出了一个新的GNN变体，名为空间Transformer，用来模拟时变的定向空间依赖关系，并动态地捕捉交通流的隐藏空间模式。
       • 我们设计了一个时间Transformer，利用长距离的时间依赖实现多步骤的预测。
       具体来说，空间Transformer根据实时交通速度、传感器之间的连接和距离以及交通流的方向，动态地建立有方向的空间依赖关系。高维潜在子空间从输入的空间-时间特征以及道路拓扑结构的位置嵌入和时间信息中学习，以推断出时变的空间依赖关系。为了表示交通流的突然变化，利用自注意力机制从局部和全局的依赖关系中捕捉到长距离的时间变化的隐藏模式。此外，时间Transformer同时实现了基于长程时间依赖关系的未来交通状况的多步骤预测。如图2所示，它抑制了预测误差的传播，并允许并行训练和预测以提高效率。
       与[10]不同的是，STTN通过动态建模随道路拓扑结构和时间步骤变化的时空依赖关系，而不是固定的空间依赖关系来促进交通流预测。为了验证STTN的功效，我们在两个真实世界的交通数据集，即PeMSD7(M)和PEMS-BAY上进行了评估。广泛的实验表明，STTNs可以在交通流预测中达到最先进的性能，特别是在长期预测中。
       本文的其余部分组织如下。在第2节中，我们简要回顾了现有的空间和时间依赖关系的建模方法。第3节阐述了用于交通流预测的时空图预测问题，并阐述了所提出的STTN的解决方案。第4节对真实世界的交通数据集进行了广泛的实验，以评估STTN与最新的方法。最后，我们在第5节中总结了本文并讨论了进一步的工作。

2 相关工作

我们首先简要介绍了在交通流预测中对空间和时间依赖性进行建模的现有方法。

2.1 空间依赖性

基于统计和神经网络的模型首先被开发用于交通流量预测。统计模型，如自回归综合移动平均数（ARIMA）[11]和贝叶斯网络[12]从概率的角度对空间依赖性进行建模。尽管它们有助于分析交通流中的不确定性，但它们的线性性质阻碍了它们对交通流中高度非线性的有效建模。神经网络被引入以捕捉交通流的非线性，但其完全连接的结构是计算密集型的，并且耗费内存。此外，由于缺乏假设，它无法捕捉交通流中复杂的空间模式。
随着卷积神经网络（CNN）的发展，考虑到它们在许多应用中强大的特征提取能力，它们已经被用于交通预测[9], [13], [14]。CNN在[15],[16],[17]中被采用来提取空间特征，其中交通网络被转换为规则的网格。然而，这种网格转换导致了不规则交通网络固有的拓扑信息的损失。图形神经网络（GNNs）[18], [19]是为了将深度学习推广到非欧几里得领域而开发的。作为GNN的一个变种，图卷积网络（GCN）[4],[5],[6]将经典的卷积推广到图域。最近，GCNs被广泛认为是为交通流的空间依赖性建模，以探索固有的交通拓扑结构。STGCN[7]用定义在无向图上的谱图卷积来模拟空间依赖关系，而DCRNN[8]则采用有向图上的扩散图卷积来适应交通流的方向。然而，他们忽略了交通状况的动态变化（如高峰期和交通事故），因为空间依赖关系一旦被训练好就固定了。在[20]中，空间依赖关系是随着空间和时间块的深度动态生成的，而不是实际的时间步骤。动态的空间依赖关系是通过纳入图注意网络（GATs）[21]和由额外的元学习者[22]总结的嵌入式地理图特征来建模的。然而，使用k个近邻的预定义图拓扑结构对于发现本地节点以外的各种尺度的空间依赖性的隐藏模式是有限的。图形波浪网[10]通过对图中每个节点的可学习嵌入来提高交通预测的准确性，但它们的空间依赖关系在训练后仍然是固定的。在本文中，STTNs在高维潜伏子空间中有效地模拟动态的定向空间依赖关系，而不是采用预定义的图结构和局部节点。

2.2 时间上的依赖性

如[23]和[24]所述，由于训练中梯度的爆炸或消失以及对序列长度的不准确确定，RNN对时间依赖的建模是有限的。为了缓解这些缺点，门控递归单元（GRU）[25]和长短时记忆（LSTM）[26]被开发出来，为交通预测的长距离依赖关系建模[20], [22], [23], [24]然而，这些序列模型仍然受到耗时的训练过程和对长序列建模的有限可扩展性。基于卷积的序列学习模型[9]被作为一种替代方案[7], [20], 但需要多个隐藏层来覆盖有限的感受野大小下的大背景。在[10]中采用了扩张卷积的WaveNet来扩大感受野，从而减少了隐藏层的数量。然而，其模型的可扩展性在长输入序列中受到限制，因为隐藏层的数量与输入序列的长度呈线性增长。此外，由于序列中各部分之间的路径长度增加，捕捉长距离依赖关系的效率将受到更深层的影响[27], [28]。这些事实意味着，要找到输入序列的最佳长度是很困难的，因为需要为不同长度的输入序列重新设计模型。Transformer[27]通过高度可并行的自注意力机制实现了高效的序列学习。长距离时间变化的依赖性可以通过一个单层从不同长度的输入序列中自适应地捕获。

3 提出的模型

3.1 问题的制定

交通网络可以自然地表示为图 $G = （ V ， E ， A ）$ ，其中 $V$ 是代表传感器的 $N$ 个节点的集合， $E$ 是反映传感器之间物理连接的边的集合， $A∈R^{N×N}$ 是用传感器之间的欧几里得距离通过高斯核构造的邻接矩阵。交通预测是一个典型的空间-时间预测问题。在本文中，我们重点预测 $N$ 个传感器在时间步长τ的交通速度 $v^τ∈R^N$ ，交通量和密度也可以类似于交通速度的计算。鉴于 $N$ 个传感器观察到的M个历史交通状况 $v^{τ-M+1}, ... , v^τ]$ 和交通网络G，学习交通预测模型F以预测T个未来交通状况 $[\hat{v}^{τ+ 1}, ... , \hat{v}^{τ+ T}]$ 。
$\begin{aligned} \hat{v}^{τ+ 1}, ... , \hat{v}^{τ+ T} = F(v^{τ-M+1}, ... , v^τ;G) \tag{1}\\ \end{aligned}$
为了实现准确的预测， $F$ 捕获来自 $v^{τ-M+1}, ... , v^τ]$ 和 $G$ 的动态的空间依赖性 $S_τ^S∈R^{N×N}$ 和长程的时间依赖性 $S_τ^T∈R^{M×M}$ 。然而，现有的方法在长期预测中是有限的，因为它们只考虑固定的空间依赖性和短程的时间依赖性。在本文中，空间Transformer被开发出来，以动态地训练 $F$ 与每一时间步长的空间依赖关系 $S_τ^S∈R^{N×N}$ ，如第3.3节所定义。此外，如第3.4节所示，长期的时间依赖关系 $S_τ^T∈R^{M×M}$ 是通过基于自注意力机制的时间Transformer有效学习的。误差传播可以通过从无误差的历史观测值 $v^{τ-M+1}, ... , v^τ$ 与基于 $S_τ^S$ 和 $S_τ^T$ 学习的空间-时间特征同时进行 $T$ 预测 $\hat{v}^{τ+ 1}, ... , \hat{v}^{τ+ T}$ 来解决。为了简单起见，我们在本节的其余部分省略了 $S_τ^S$ 和 $S_τ^T$ 的下标 $τ$ 。

3.2 整体架构

如图3所示，拟议的空间-时间Transformer网络由堆叠的空间-时间块和预测层组成。这里，每个空间-时间块由一个空间Transformer和一个时间Transformer组成，在动态依赖的背景下共同提取空间-时间特征。空间-时间块可以进一步堆叠，形成深度空间-时间特征的深度模型。随后，预测层利用两个1×1卷积层将这些时空特征聚合起来，用于交通预测。
在这里插入图片描述

3.2.1 空间-时间区块

       一个节点的未来交通状况由其相邻节点的交通状况、观测的时间步长以及交通事故和天气状况等突发变化决定。在这一节中，我们开发了一个空间-时间块，以整合空间和时间Transformer，共同模拟交通网络内的空间和时间依赖关系，以实现精确预测，如图3所示。第 $l$ 个空间-时间块的输入是由第 $l - 1$ 个空间-时间块提取的 $N$ 个节点在时间步长 $τ - M + 1, . . ., τ$ 的 $d_G$ 维特征的三维张量 $X_l^S∈R^{M×N×d_G}$ 。空间Transformer $S$ 和时间Transformer $T$ 被叠加以产生3-D输出张量。剩余连接被用于稳定训练。在第 $l$ 个空间-时间块中，空间Transformer $S$ 从输入节点特征 $X_l^S$ 以及图邻接矩阵 $A$ 中提取空间特征 $Y_l^S$ 。
$\begin{aligned} Y_l^S=S(X_l^S, A) \tag{2}\\ \end{aligned}$
        $Y_l^S$ 与 $X_l^S$ 相结合，生成输入 $X_l^T$ ，进入后续的时间Transformer。
$\begin{aligned} Y_l^T=T(X_l^T) \tag{3}\\ \end{aligned}$
       因此，我们得到输出张量 $X_{l+1}^S = Y_l^T +X_l^T$ ，并将 $X_{l+1}^S$ 送入第 $l + 1$ 个时空块。根据手头的任务，多个时空块可以被堆叠以提高模型的容量。在第3.3和3.4节中，我们详细说明了空间和时间变换器。在不丧失一般性的情况下，我们省略 $X_l^S$ 、 $X_l^T$ 、 $Y_l^S$ 和 $Y_l^T$ 的下标 $l$ ，以表示第 $l$ 个时空块。

3.2.2 预测层

预测层利用两个经典的卷积层，根据最后一个时空块的时空特征进行多步预测。它的输入是一个二维张量 $X^{ST}∈R^{N×d^{ST}}$ ，由上一个时间步长 $τ$ 的 $N$ 个节点的 $d^{ST}$ -维时空特征组成。对 $N$ 个节点的 $T$ 个未来交通状况的多步骤预测 $Y∈R^{N×T}$ 是
$\begin{aligned} Y=Conv(Conv(X^{ST})) \tag{4}\\ \end{aligned}$ 采用平均绝对损失来训练模型。
$\begin{aligned} L=||Y-Y^{gt}||_1\tag{5}\\ \end{aligned}$ 其中 $Y^{gt}∈R^{N×T}$ 是地面真实交通速度。

3.3 空间Transformer

如图3(b)所示，空间Transformer由空间-时间位置嵌入层、固定图卷积层、动态图卷积层和信息融合的门机制组成。空间-时间位置嵌入层将空间-时间位置信息（如拓扑结构、连接性、时间步骤）纳入每个节点。根据[29]，一段时间内的交通信号可以分解为由道路拓扑结构（如传感器之间的连接性和距离）决定的静止部分和由实时交通状况和突发变化（如事故和天气变化）决定的动态部分。因此，我们开发了一个固定图卷积层和一个动态图卷积层，分别探索空间依赖关系的固定和定向动态成分。学习到的固定和动态的空间特征与门机制相融合。我们进一步表明，所提出的空间Transformer可以被看作是一个用于动态图构建和特征学习的一般消息传递GNN。
在这里插入图片描述

3.3.1 空间-时间的位置嵌入

图1(a)显示，图中两个节点的空间依赖关系将由它们的距离和观察到的时间步骤决定。Transformer[27]不能用完全连接的前馈结构捕捉观察到的空间（位置）和时间信息。因此，需要事先进行位置嵌入，将 "位置 "信息注入到输入序列中。在提出的空间Transformer中，我们采用可学习的空间和时间位置嵌入层来学习空间-时间嵌入到每个节点特征中。字典 $\hat{D}^S∈R^{N×N}$ 和 $\hat{D}^T∈R^{M×M}$ 分别作为空间和时间的位置嵌入矩阵被学习。 $\hat{D}^S$ 是用图的邻接矩阵初始化的，以考虑节点之间的连通性和距离，用于模拟空间依赖关系，而 $\hat{D}^T$ 是用独热时间编码初始化的，以向每个节点注入时间步骤。 $\hat{D}^S$ 和 $\hat{D}^T$ 沿空间轴和时间轴平铺，分别生成 $D^S∈R^{M×N×N}$ 和 $D^T∈R^{M×N×M}$ 。嵌入式特征 $X'^{S} = F_t([X^S , D^S , D^T]) ∈R^{M×N×d_G}$ ，固定维度为 $d_G$ ，由 $X^S∈R^{M×N×d_G}$ 得到，它连接了 $D^S∈R^{M×N×N}$ 和 $D^T∈R^{M×N×M}$ 。这里， $F_t$ 是一个 1×1 的卷积层，将每个节点在每个时间步的串联特征转化为 $d_G$ 维的向量。 $X'^{S}$ 被送入固定和动态的图卷积层，用于空间特征学习。由于图卷积操作可以通过张量操作在 M 个时间步骤中并行实现，为了简洁起见，我们考虑任意一个时间步骤中 $X'^S$ 的二维张量 $\hat{X}^S∈R^{N×d_G}$ 。

3.3.2 固定图卷积层

图卷积是将经典的基于网格的卷积推广到图域。节点特征是根据学习到的权重和预定义的图，通过聚合其邻近节点的信息而得到的。在本小节中，基于切比雪夫多项式近似的图卷积被用来学习结构感知的节点特征，并因此从道路拓扑结构中捕捉静态空间依赖。让我们把 $D$ 表示为 $G$ 的度矩阵，其对角线元素 $D_{ii} = \sum_{i=1}^n Aij，i = 1, ... , N$ 。归一化的拉普拉斯矩阵 $L$ 由 $L = I_n - D^{-1/2}AD^{-1/2}$ 定义，对于切比雪夫多项式，比例拉普拉斯矩阵 $\widetilde{L} = 2L/λ_{max} - I_n$ ，其中 $λ_{max}$ 是 $L$ 的最大特征值。考虑到嵌入式特征 $\hat{X}^S$ ，结构感知节点特征 $\hat{X}^G∈R^{N×d_G}$ 是用切比雪夫多项式 $T_k$ 近似的图卷积得到的，每个时间步骤的阶数为 $k = 1, . . ., K$ 。
$\begin{aligned} \hat{X}^G_{:,j}=\sum{^{d_G}_{i=1}}\sum{^K_{k=0}}\theta_{ij,k}T_k(\widetilde{L})\hat{X}^S_{:,i} \forall{j = 0, ..., d_G}\tag{6}\\ \end{aligned}$
其中， $\hat{X}^G_{:,j}$ 是 $\hat{X}^G$ 的第 j 个通道（列）， $\theta_{ij,k}$ 是学到的权重。由于 $G$ 是根据传感器之间的物理连通性和距离构建的，由道路拓扑结构决定的静止空间依赖性可以通过固定图卷积层明确地探索出来。

3.3.3 动态图卷积层

基于GCN的模型，如[7]和[8]只对静止的空间依赖关系进行建模。为了捕捉时间演变的隐藏空间依赖性，我们提出了一个新的动态图卷积层，以实现高维潜伏子空间的训练和建模。具体来说，我们学习线性映射，将每个节点的输入特征投射到高维的潜在子空间。如图4所示，投影特征采用了自注意力机制，以根据变化的图信号有效地模拟节点之间的动态空间依赖关系。虽然在[20]中也采用了这一机制，但边的权重是根据预定义的道路拓扑结构计算的。预定义的道路拓扑结构不能充分代表交通网络中的动态空间依赖关系。因此，我们学习多个线性映射来模拟在不同的潜在子空间中受各种因素影响的动态定向空间依赖关系。
在这里插入图片描述

       每个时间步骤的嵌入特征 $\hat{X}^S$ 首先被投射到高维潜在子空间。这些映射是通过前馈神经网络实现的。当单头注意力模型被考虑为一种空间依赖模式时，基于 $\hat{X}^S$ 为每个节点训练了三个潜子空间，包括由 $Q^S∈R^{N×d^S_A}$ 跨越的查询子空间，由 $K^S∈R^{N×d^S_A}$ 跨越的关键子空间和由 $V^S∈R^{N×d_G}$ 跨越的值子空间。
$\begin{aligned} Q^S=\hat{X}^SW^S_q\\ K^S=\hat{X}^SW^S_k\\ V^S=\hat{X}^SW^S_v\tag{7}\\ \end{aligned}$ 这里， $W_q^S∈R^{d_G×d^S_A}$ ， $W_k^S∈R^{d_G×d^S_A}$ ， $W_v^S∈R^{d_G×d_G}$ 分别是 $Q^S$ 、 $K^S$ 和 $V^S$ 的权重矩阵。
       节点之间的动态空间依赖关系 $S^S∈R^{N×N}$ ，用 $Q^S$ 和 $K^S$ 的点积计算。
$\begin{aligned} S^S=softmax(Q^S(K^S)^T/\sqrt{d^S_A})\tag{8}\\ \end{aligned}$
       在公式(8)中，采用点积来减少计算和存储的成本。Softmax 被用来归一化空间依赖性，尺度 $\sqrt{d^S_A}$ 防止 Softmax 函数导致的饱和。因此，节点特征 $M^S∈R^{N×d_G}$ 用 $S^S$ 更新。
$\begin{aligned} M^S=S^SV_S\tag{9}\\ \end{aligned}$ 值得一提的是，通过引入多对子空间，可以用多头注意力机制学习多种空间依赖模式，能够从各种潜在的子空间中建立不同的隐藏空间依赖模型。
       此外，一个共享的三层前馈神经网络与非线性激活被应用在每个节点上，以进一步改善以所学节点特征 $M^S$ 为条件的预测。探索特征通道之间的相互作用，用 $U^S∈R^{N×d_G}$ 更新 $M^S$ 。
$\begin{aligned} U^S=ReLu(ReLu(\hat{M}'^SW^S_0)W^S_1)W^S_2\tag{10}\\ \end{aligned}$ 其中 $M'^S = \hat{X}^S + M^S$ 是稳定训练的残余连接， $W_0^S$ , $W_1^S$ 和 $W_2^S$ 是三层的权重矩阵。 $U^S$ 和 $M'^S$ 由 $\hat{Y}^S = U^S+M'^S$ 组合，用于与门机制的特征融合。需要注意的是，我们可以为深度模型堆叠多个动态图卷积层，以提高模型对复杂空间依赖的容量。

3.3.4 特征融合的门机制

门机制是为了融合从固定和动态图卷积层学到的空间特征而开发的。门 g 是由固定和动态图卷积层的 $Y'^S$ 和 $X^S$ 得出的。
$\begin{aligned} g=sigmoid(f_S(\hat{Y}^S)+f_G(X^G))\tag{11}\\ \end{aligned}$ 其中 $f_S$ 和 $f_G$ 是线性投影，分别将 $Y'^S$ 和 $X^G$ 转化为一维向量。因此，通过门 g 对 $Y'^S$ 和 $X^S$ 进行加权，得到输出的 $Y^S$ 。
$\begin{aligned} Y'^S=g\hat{Y}^S+(1-g)X^G\tag{12}\\ \end{aligned}$ 空间 Transformer 的输出 $Y^S∈R^{M×N×d_G}$ 收集了 $M$ 个时间步长的 $Y'^S$ ，并被送入随后的时间Transformer， $X^T=Y^S$ 。

3.3.5 一般动态图神经网络

现有的光谱和空间图卷积网络依赖于预定义的图拓扑结构，不能适应输入图信号。在本小节中，我们证明空间 Transformer 可以被表述为动态图神经网络中所有节点 $v \in V$ 的消息传递和更新的迭代特征学习过程。让我们把 $x_v∈R^{d_G}$ 表示为节点 $v$ 的输入特征。对于任意的 $v \in V$ ，它从 $V$ 中的节点接收消息 $m_v∈R^{d_G}$ 。
$\begin{aligned} m_v=\sum_{u∈V}F(x_v,x_u)=\sum_{u∈V}<(W^S_q)^Tx_v,(W^S_k)^Tx_u>x_u\tag{13}\\ \end{aligned}$ 其中F是实现公式（7）、（8）和（9）的复合消息传递函数。当获得 $m_v$ 时， $x_v$ 被更新为由 $m_v$ 和 $x_v$ 计算的 $y_v$ 。
$\begin{aligned} y_v=G(m_v, x_v)\tag{14}\\ \end{aligned}$ 在空间Transformer中，G是公式（10）中定义的共享位置前馈网络。将公式（2）与公式（13）和（14）相比较，空间Transformer可以被视为一个一般的消息传递动态图神经网络。

3.4 时间Transformer

图3（c）描述了所提出的用于有效捕捉长距离时间依赖关系的时间Transformer[27]。与 RNN 及其变体相比，时间 Transformer 可以很容易地扩展到长序列，对长距离的依赖关系进行并行处理。与空间 Transformer 类似， $X'^T = G_t([X^T, D^T]) ∈R^{M×N×d_G}$ 是由输入特征 $X^T = X^S + Y^S ∈R^{M×N×d_G}$ 和时间嵌入 $D^T$ 的连接得到的，其中 $G_t$ 是一个 $1 \times 1$ 卷积层，在每个时间步骤为每个节点产生一个 $d_G$ 维的向量。在这里，我们也对节点进行并行化，以建立时间依赖性模型。空间特征的二维张量 $\hat{X}^T∈R^{M×d_G}$ 是针对 $G$ 中任意一个节点考虑的。
在这里插入图片描述

       还采用了自注意力机制来模拟时间上的依赖性。时间Transformer的输入是一个时间序列 $\hat{X}^T∈R^{M×d_G}$ ，有一个长度为 $M$ 的滑动窗口和 $d_G$ 通道。与空间Transformer类似，时间依赖性在高维潜在子空间中被动态计算，包括由 $Q^T∈R^{M×d^T_A}$ 跨越的查询子空间，由 $K^T∈R^{M×d^T_A}$ 跨越的关键子空间以及由 $V^T∈R^{M×d_G}$ 跨越的值子空间。
$\begin{aligned} Q^T=\hat{X}^TW^T_q\\ K^T=\hat{X}^TW^T_k\\ V^T=\hat{X}^TW^T_v\tag{15}\\ \end{aligned}$ 其中， $W_q∈R^{d_G×d^T_A}$ , $W_k∈R^{d_G×d^T_A}$ 和 $W_v∈R^{d_G×d_G}$ 是学习到的衬线映射。根据公式（1），对 $v^{τ+1}, ... , v^{τ+T}$ 的多步预测是由历史观测值 $v^{τ-M+1}, ... , v^τ$ 同时进行。我们引入缩放点积函数来考虑 $v^{τ-M+1}, ... , v^τ$ 中的双向时间依赖。
$\begin{aligned} S^T=softmax(Q^T(K^T)^T/\sqrt{d^T_A})\tag{16}\\ \end{aligned}$ 基于RNN的模型仅限于考虑基于前面时间步骤的时间依赖性，如[30]所示，这种从左到右的架构对于建立上下文依赖性模型是次优的。我们进一步将 $V^T$ 的值与时间特征 $M^T$ 的权重 $S^T$ 汇总。
$\begin{aligned} M^T=S^TV^T\tag{17}\\ \end{aligned}$ 图4说明了时间上的依赖性的建模。
       为了探索潜在特征之间的相互作用，我们为 $M^T$ 开发了一个共享的三层前馈神经网络。
$\begin{aligned} U^T=ReLu(ReLu(\hat{M}'^TW^T_0)W^T_1)W^T_2\tag{18}\\ \end{aligned}$ 这里，采用残差连接 $M'^T = M^T + X^T$ 进行稳定训练。对于每个节点，其输出为 $\hat{Y}^T = U^T + M'^T$ 。因此，通过收集所有节点的 $\hat{Y}^T$ ，时间 Transformer 的输出为 $Y^T∈R^{M×N×d_G}$ 。
       长距离的双向时间依赖性在时间 Transformer 的每一层都被有效地捕捉到，因为每个时间步骤都会关注滑动窗口内的剩余时间步骤。通过增加 M，时间 Transformer 可以很容易地扩展到长序列，而不会在计算效率上有太大牺牲。相比之下，基于 RNN 的模型会受到梯度消失或爆炸的影响，而基于卷积的模型必须明确规定卷积层的数量，并随 M 的增加而增加。

4 实验

我们在两个真实世界的数据集，即PeMSD7(M)和PEMS-BAY上证明了STTN在交通流预测方面达到了最先进的性能，尤其是长期预测。此外，我们还进行了消融研究，以验证多步骤预测以及空间和时间 Transformer 对长期交通预测的有效性。我们还分析了模型的配置，包括块的数量、特征通道和层、自注意力机制的注意头和空间-时间位置的嵌入。

4.1 数据集和数据预处理

       采用两个真实世界的交通数据集进行评估。
       PeMSD7(M): 2012年5月至6月的工作日期间，来自加州州立公路系统228个传感器站的交通数据。
       PEMS-BAY：从2017年1月1日开始到2017年5月31日，从加州湾区的325个传感器收集的6个月交通数据。
       交通速度每5分钟汇总一次，并以Z-Score作为输入进行归一化。道路拓扑信息由一个图形邻接矩阵表示。PeMS-BAY数据集的图被预先设计成一个有向图，以区分不同方向的影响。在[8]中，采用前向和后向扩散图卷积来模拟有向空间依赖关系。然而，要构建一个具有适当度量的方向影响的有向图是很困难的。在本文中，我们使用自注意力机制，以数据驱动的方式对有向空间依赖关系进行建模，并减轻了区分方向影响的计算负担。只需要无向图的邻接矩阵来表示传感器之间的距离和连接。在PEMS-BAY中，道路拓扑结构的无向图是通过从每对节点的两个方向（即上游和下游）中选择较大的权重来生成的。根据PeMSD7中传感器之间的距离，邻接矩阵是对称的。

4.2 实验设置

所有实验都在NVIDIA 1080Ti GPU上进行。使用RMSprop优化器对所提出的模型进行平均绝对误差（MAE）损失的训练，批次大小为50个 epochs。初始学习率被设定为10-3，每五个 epochs 的衰减率为0.7。表 1 显示了每个数据集上同一实验的五个独立试验得到的STTN的平均结果。对于评估，我们采用了[7]和[8]中报告的结果，在PeMSD7(M)中，12个当前观测值（60分钟）被用来预测未来15、30和45分钟的交通状况，在PEMS-BAY中，15、30和60分钟被用来预测交通状况。图形波网[10]使用其公开发布的代码在PeMSD7(M)上进行了训练，最佳性能报告在表 1 中。
在这里插入图片描述

4.3 评价指标和基线

我们从平均绝对误差（MAE）、平均绝对百分比误差（MAPE）和均方根误差（RMSE）方面对STTN和基准交通预测方法进行评估。基准方法包括历史平均数（HA）、带有卡尔曼滤波的自回归综合移动平均数（ARIMA）[31]、线性支持向量回归（LSVR）[32]、前馈神经网络（FNN）、完全连接的LSTM（FC-LSTM）[33]、STGCN[7]、DRCNN[8]和Graph WaveNet[10] 。
对于PeMSD7(M)，采用了一个空间-时间块。每个空间和时间Transformer采用两个隐藏层和一个单注意，有64个特征通道。考虑到PeMS-BAY在空间和时间尺度上比PeMSD7(M)大得多，三个空间-时间块被堆叠起来以建立空间-时间依赖模型。在每个空间-时间块中，每个空间和时间Transformer由一个隐藏层和具有64个特征通道的单一注意组成。为了实现稳定的学习和快速收敛，采用了残差结构。

4.4 实验结果

       表 1 提供了 STTN 和基线在 PEMS-Bay 和 PeMSD7(M) 上不同时间段的交通预测的 MAE、MAPE 和 RMSE。
       PeMSD7(M)：STTN比STGCN[7]和DCRNN[8]有很大的优势，而且随着预测的时间步长而增长。与Graph WaveNet[10]相比，STTN在长期预测（≥30分钟）方面表现更好，在短期预测（≤30分钟）方面产生了有竞争力的性能。这些事实意味着，长期预测可以通过联合考虑动态空间依赖性和长距离时间依赖性而得到促进。相比之下，Graph WaveNet利用具有小感受野的卷积核来捕捉静止的空间-时间依赖性，从而进行短期预测。
       PEMS-Bay：STTN与Graph WaveNet具有竞争性，并优于STGCN和DCRNN。与STGCN相比，Graph WaveNet和DCRNN采用了基于非对称邻接矩阵的双向扩散图卷积，明确设计为方向的影响。STTN利用自注意力机制，从对称邻接矩阵中学习动态的定向空间依赖关系（没有上游/下游交通流的事先信息）。值得一提的是，与同样由三个空间-时间块组成的STGCN相比，STTN大大改善了预测性能。
       为了进一步评估，STNN、Graph WaveNet、STGCN和 DCRNN 对一天的交通预测进行了可视化。在这里，通过对 PeMSD7(M) 测试数据集的空间维度进行平均，获得每个时间步骤的一天的预测结果。图 5 显示，与 STGCN 和 DCRNN 相比，STTN 和 Graph WaveNet 改善了变化区域的交通流预测，例如 $τ \in [60, 84]$ 。请注意，STGCN 和 DCRNN 的预测曲线有明显的时间偏移，这表明预测误差随着时间步长而增长，尤其是在变化剧烈的地区。此外，STTN 可以在很长的时间步长内捕捉到连续的变化，例如 $τ \in [84, 192]$ 。这一事实意味着 STTN 所捕获的动态空间依赖性和长距离时间依赖性有利于交通流预测，特别是长期预测。

在这里插入图片描述

4.5 计算复杂度

我们进一步评估了DCRNN、STGCN、Graph WaveNet和 STTN 的计算成本。所有的实验都在同一个 GPU 上进行。表 2 报告了一个历时的平均训练速度。STGCN 在完全卷积结构下是高效的。DRCNN 由于采用递归结构进行多时间步数的联合损失训练而很耗时，因为其训练时间与预测时间步数成正比。与 Graph WaveNet 和 DCRNN 相比，STTN 产生的计算成本分别减少了 10-40% 和 40-60%。请注意，STTN 是可扩展的，以实现长期预测，而没有过多的计算复杂性。
在这里插入图片描述

4.6 消融研究

对PeMSD7(M)数据集进行了消融研究，以验证STTN的设计。这里选择了PeMSD7(M)，因为它比PEMS-BAY更具挑战性，因为它的规模更小，时空依赖性更复杂。例如，PeMSD7(M)中的交通速度比PEMS-BAY中的标准差更大。为了进行有效的评估，我们只使用了一个具有64个特征通道的空间-时间块作为空间和时间Transformer。

4.6.1 多步预测与自回归预测的比较

自回归预测在交通流预测中很普遍，在这种预测中，每一个时间步骤的预测都被用于后续的预测。然而，自回归预测会导致错误的预测，因为每一步的预测都有累积误差。因此，它将阻碍长期预测。DCRNN[8]开发了一个采样方案来解决这个问题。在本文中，我们明确地从历史观测数据中进行长期多步预测，而不是基于预测值。为了验证，我们比较了STGCN[7]和STTN与一个ST块在自回归和多步预测方面的情况。表3显示，与STGCN和STTN的自回归预测相比，STTN在MAE、MAPE和RMSE方面产生了明显的收益。应该注意的是，与其他模型相比，STTN在长期预测中的预测误差增长缓慢。
在这里插入图片描述

4.6.2 空间Transformer的有效性

我们证明了所提出的空间Transformer可以对动态的空间依赖关系进行建模，以提高长期预测的性能。我们考虑了STTN的变体来评估空间依赖关系的建模方法。基线包括一个由切比雪夫多项式近似实现的固定图卷积层和STGCN[7]中采用的一个基于卷积的序列建模模块（GLU）。与[22]类似，STTN-S（局部）是基于注意力的方法，通过屏蔽所学矩阵的动态依赖性，将注意力限制在k个最近的邻居节点。STTN-S(a, h)代表STTN使用建议的空间变换器，有一个注意头和h个隐藏层。因此，基线只模拟固定的空间依赖关系，而STTN-S（局部）和STTN-S(a, h)分别考虑局部和全局的动态空间依赖关系。
表4显示，STTN-S(1, 1)以很大的幅度超过了基线，特别是在长期预测方面。这一事实意味着空间Transformer可以利用动态的空间依赖关系来实现准确的长期预测。图6显示了基线和STTN-S(1, 1)在测试数据集上进行短期（5分钟）和长期（60分钟）预测的一天交通流的平均结果。STTN-S(1, 1)在长期预测方面取得了更好的性能，特别是在急剧变化的地区，例如图6(b)中的时间步骤[48,84]的时期。我们进一步评估捕捉局部和全局空间依赖性的空间变换器。根据表4，具有局部约束的STTN-S（局部）不如具有拟议空间Transformer的STTN。这一事实表明，与局部依赖关系相比，全局动态空间依赖关系可以促进交通流预测。我们还在图7中比较了STTN-S（本地）和STTN-S（1，1）的学习空间依赖关系。图7©显示，STTN-S（本地）的空间依赖关系将本地邻域内的传感器联系起来，而STTN-S（1，1）则随着时间步长而增加，这是因为大多数相邻传感器之间的距离很小。
在这里插入图片描述

此外，表4提供了在空间Transformer中不同数量的注意头和隐藏层下获得的MAE、MAPE和RMSE。当增加注意力头数时，交通流预测性能不断提高，因为多头注意力可以在不同的潜在子空间建立空间依赖模型，进一步利用隐藏的依赖模式。相反，更多的隐藏层会对性能有琐碎的好处。这一事实意味着，对于相对较小的PeMSD7(M)，一个隐藏层就足以捕捉到空间依赖性。

4.6.3 时空Transformer的有效性

我们进一步验证了所提出的时间Transformer能够有效地捕捉长距离的时间依赖性，从而进行准确的交通流量预测。与第4.6.2节中采用相同的固定图形卷积基线，调整GLU层中卷积核的接受域以控制时间依赖的范围。这里，我们考虑卷积核大小为3（基线）、6（Conv-6）、9（Conv-9）和12（Conv-12）。表5显示，长期预测可以通过大的卷积核尺寸决定的长距离时间依赖性得到改善。因此，我们用提议的时间Transformer代替GLU层来验证其有效性。表5显示，在长期预测中，时间Transformer优于固定图卷积。在图8中，我们进一步说明了前九个传感器对时间Transformer的关注矩阵。不同传感器的时间注意力的权重是不同的。在某些情况下，最早的时间步骤被利用，具有长距离的依赖性，用于多步骤预测。
在这里插入图片描述

对于提议的时间Transformer，也评估了注意头和隐藏层数量的影响。表5表明，多头注意力不会对交通流预测有好处，因为时间依赖性不像空间依赖性那样复杂。我们还发现，交通流预测往往通过增加隐藏层的数量而得到改善。

4.7 模型配置

最后，我们讨论STTN的模型配置，包括空间-时间块的数量、特征通道的数量、隐藏层的数量、注意头的数量和位置嵌入。表6总结了STTNs用各种模型配置获得的PeMSD7(M)的MAE。通过级联多个时空块来共同建立时空依赖模型，MAE会下降，但当有足够多的时空块堆叠时（如表6中大于2个块），MAE将是稳定的。
在每个空间-时间块中，我们研究了特征通道、隐藏层和注意力头的数量的影响。这里，特征通道的数量表示动态计算依赖关系的子空间的尺寸。具有较高维度的潜在子空间被证明可以利用更多的信息来实现准确的预测。与时间Transformer相比，交通流预测将通过增加空间Transformer的隐藏层数量而得到改善。这一事实意味着，长期预测往往受到空间Transformer模型容量的影响。表6还表明，最好是联合提高空间和时间Transformer的能力。此外，多头关注被证明有助于STTN的交通流预测，特别是长期预测。对于现实世界的交通网络，节点之间的关系应该存在于不同的潜在子空间中，以评估交通流的隐藏模式的相似性。这一事实表明，多头关注往往有助于利用这些隐藏模式，而由额外的空间依赖性隐藏模式带来的性能提升将是有限的。最后，我们发现，空间和时间位置嵌入都能提高STTN的交通流预测性能。
在这里插入图片描述

5 总结

在本文中，我们提出了一种新的空间-时间Transformer网络范式，以改善交通流的长期预测。它可以动态地模拟各种规模的空间依赖关系，也可以捕捉长距离的时间依赖关系。在两个真实世界的数据集上的实验结果证明了所提出的STTN的卓越性能，特别是在长期预测方面。此外，所提出的空间Transformer可以被推广到各种应用的动态图特征学习中。我们将在未来进一步研究这一课题。

以上是我自己根据原文结合翻译软件翻译出来的结果，如果有错误的地方，欢迎及时指正。