2023 CCFB Spatial-temporal dependence and similarity aware traffic flow forecasting

最新推荐文章于 2024-06-19 16:11:15 发布

计算机农民工

最新推荐文章于 2024-06-19 16:11:15 发布

阅读量237

点赞数

文章标签： ai

本文链接：https://blog.csdn.net/weixin_45294601/article/details/132118600

版权

GNN应用于交通流量预测论文阅读

论文简介

标题&作者

时空相关性和相似性感知的交通流预测

其他信息

Abstract

简单介绍了交通流预测的重要性。并指出提取交通流中复杂的时空关系仍然是一个挑战。当前已有的基于GCN的方法可以有效地提取时空依赖，但它由于图结构的限制，很难提取时空相似性。在本文，我们提出了一个时空依赖和相似性感知的方法，叫做基于依赖性和相似性的时态图卷积网络（DS-TGCN），它混合两个模块来提取复杂的时空关系，并进行交通流预测。一个模块是我们新设计的时空相似性特征模块（STSF），以直接提取时空相似性。另一个模块是带有注意力机制的时空卷积模块，它可以动态的提取时空依赖。在两种类型数据集上的实验表明我们提出的方法就交通流的有效性而言优于已存在的方法。

1. Introduction

1.1 Background

介绍了交通流量预测的重要性。
交通流量预测是指使用历史的交通状况（例如流量、速度等等）来预测未来的交通状况。历史的交通状况可以通过交通传感器记录。可以通过高效地提取历史状况的时空关系来获得精确的预测结果。大多数情况下，交通流量中的时空关系是复杂的，这增加了预测的困难。复杂的关系主要体现在以下两个方面：

（1）时空依赖性

动态的空间依赖

交通路口之间的交通流量相互影响，且影响强度动态变化。

非线性的时间依赖

一个路口在确定时间的交通流量可以影响其他路口在其他时间的流量，且影响强度在不同时间点是不同的。

（2）时空相似性

动态的空间相似性

在给定的时间周期内，不同路口的交通流量可能是相似的，相似性将会随着时间周期的变化而动态变化。

非线性时间相似性

在不同时间的总交通流量可能是相似的。

1.2 Motivation

历史交通流量的时空依赖和时空相似性对交通流量预测是至关重要的。叙述当前许多方法的优点和不足。基于GCN的方法主要通过图结构提取时空关系，但是时空相似性很难直接在图结构上建模。
因此，本文提出了一种新的基于依赖和相似性的时间图卷积网络（DS-TGCN）来进行交通流量预测。一种新设计的时空相似性特征模块（STSF）被用来直接提取时空相似性。STSF混合时空卷积模块来提取时空关系。通过在真实数据集上的大量实验，证明了我们方法的高效性。

1.3 Contribution

本文的主要贡献如下：

我们提出了一个新的STSF模块来直接提取时空相似性。特别地，STSF通过结合序列相似性和时空趋势相似性来提取不同属性的时空相似性。
我们提出了一种新的方法称为DS-TGCN来提取时空关系，并进行交通流预测。它包含一个STSF模块，提取时空相似性和多个时空切比雪夫图卷积模块与注意力机制来提取时空依赖。
DS-TGCN模型的预测结果表明，它具有良好的预测效果。

2. Related Work

2.1 Traffic flow forecasting based on non-GCN

一些传统的方法使用时间序列分析来解决交通流量预测问题。这些方法的特点是算法简单、计算方便。然而，他们仅仅可以提取线性时间关系，而忽视了空间关系，这导致了在复杂的交通流量数据中的较差的预测结果。一些机器学习需要手工特征的构造，当交通流量数据非常大时，这些方法不能满足实际需要。而其他的深度学习方法需要图必须是欧式形状（规则的网格），否则就要划分区域以转换成网格，但这破坏了原始结构信息。

2.2 Traffic flow forecasting based on GCN

为了解决以上问题，图卷积的方法被广泛使用。将GCN与提取时间相关性的方法相结合，可以提取完整的时空相关性。
然而，GCN仅聚合固定的邻居信息。这意味着GCN不能动态地提取空间依赖性。类似地，由于TCN使用固定的卷积核，因此难以提取非线性时间依赖性。一些方法利用注意机制和自适应学习矩阵来弥补这一不足。他们的主要思想是通过一个可学习的矩阵来动态调整信息聚合的权重。一些研究者发现，直接提取时空相关性的方式也可以提高预测精度。这些基于GCN的方法有效地提取时空依赖性，但没有太多的关注时空相似性。

3. Preliminaries

Definition 1:

定义交通结构为一个无向图 $G=\left \{ V,E,A \right \}$ ，其中V表示交通路口的集合，E表示所有边的集合，A表示邻接矩阵。如图1(a)所示，我们将会把它转化为图2(a)对应的无向图。其中， $V=\left \{ V_{1},V_{2},V_{3} \right \},E=\left \{ E_{1},E_{2} \right \},A\in R^{N*N}$ 表示连接关系。

Definition 2:

我们将历史交通流定义为交通流的特征矩阵 $\chi ^{N*T}$ ，一个N*T矩阵来记录在不同时间点的交通流量值，其中N是交通路口数量，T是所有的时间点。 $X^{N*m}=\left [ X_{:,t-m+1}......X_{:,t} \right ]\in R^{N*m}$ 表示从时间点t-m+1到时间点t的历史交通流量，其中 $m<T,X_{:,t}$ 表示N个路口在时刻t的交通流量。 $x_{ij}$ 表示第i个路口在第j个时间点的历史交通流量， $j\in \left \{ 1...m \right \}$ 。

Definition 3:

我们定义预测结果为 $Y^{N*n}$ 。 $Y^{N*n}=\left [ X_{:,t+1}...X_{:,t+n} \right ]\in R^{N*n}$ 表示所有路口在时间点t+1到时间点t+n的预测流量值。 $y_{ij}$ 表示第i个路口在第j个时间点的未来交通流量。

表1说明了本文所用到的符号。如图2(b)所示，交通流量预测是指使用实线交通流量数据去预测虚线交通流量数据。根据第3节的定义，交通流量预测问题可以被描述为：给定一个道路图结构 $G=\left \{ V,E,A \right \}$ 和历史交通流量特征矩阵 $X^{N*m}$ ，通过等式1计算之后n个时间点的交通流量值。

$Y^{N*n}=f(G;X^{N*m})(1)$

4. DS-TGCN

在本节中，我们将描述DS-TGCN的结构及其功能模块。如图3所示，该模型主要由时空相似特征模块（STSF）、时空注意力模块（STA）、多时空切比雪夫图卷积模块（MSTCGCN）和特征融合模块组成。STSF模块与输入端紧密连接，当输入端的时间周期发生变化时，STSF的输出也会相应变化。因此，它可以提取动态的空间相似度和时间相似度。在结合自适应矩阵的时空相似性后，STA也可以动态变化。通过动态改变邻接矩阵和输入，它可以帮助ST-conv模块提取动态的时空依赖性。我们将在下面的4.1和4.2节中详细解释。MSTCGCN中的ST-conv可以提取时空依赖性。DS-TGCN结合上述模块用于提取时空关系。据我们所知，这是第一个同时考虑时空依赖性动态和时空相似性动态并将它们有效结合的方法。实验部分也证明了该方法可以提高预测精度。

4.1 STSF

STSF包括空间相似性特征（SSF）和时间相似性特征（TSF）。它们分别提取空间相似性和时间相似性。

4.1.1 SSF

有许多方法可以测量两个时间序列的相似性，例如欧氏距离和动态时间规整算法（DTW）[36]算法。由于DTW算法的时间复杂度较高，我们使用了欧氏距离。对于交叉点i和交叉点j，它们之间的空间相似性被定义为Eq.2。

$\alpha _{ij}=\left\{\begin{matrix} exp(-(\sum ^{m}_{t=1}|x_{it}-x_{jt}|))& i\neq j\\ 1&i=j \end{matrix}\right. (2)$

其中exp是指数函数， $x_{i},x_{j}\in R^m$ 代表在路口i和路口j的交通流量。 $x_{it}$ 是路口i在时间点t的交通流量。 $\alpha _{ij}$ 越大，相似度越高。 $\alpha _{ii}$ 表示路口i和它自己的空间相似性，因此 $\alpha _{ii}$ =1。对于输入特征矩阵 $X^{N*m}$ ，SSF计算任何两个路口的空间相似性。对应的空间相似性矩阵 $S^{S}\in R^{N*N},S^S_{ij}=\alpha _{ij}$ ，其中i,j∈{1......N}。

然而，单一的空间相似性矩阵不能有效地描述两个交叉口之间的相似性。如图2(b)所示，1号交叉口和2号交叉口的交通流量除了具有更相似的交通流量外，都呈现出增加的趋势。而3号交叉口的交通流量与他们的不相似，它显示出相反的趋势。我们将这种关系称为空间趋势相似性，并定义了空间正负选择矩阵来提取它。空间正选择器矩阵P+和负选择器矩阵P被定义为Eq.(3)和Eq.(4)。

$P^+_{ij}=\left\{\begin{matrix} 1,&b_{x_i}\cdot b_{x_j}\geqslant 0 \\ 0,&b_{x_i}\cdot b_{x_j}< 0 \end{matrix}\right. (3)$

$P^-_{ij}=\left\{\begin{matrix} 0,&b_{x_i}\cdot b_{x_j}\geqslant 0 \\ 1,&b_{x_i}\cdot b_{x_j}< 0 \end{matrix}\right. (4)$

其中， $P^+,P^-\in R^{N*N},P^+_{ij}=P^+_{ji},P^-_{ij}=P^-_{ji},i,j\in \left \{ 1...N \right \}$ 。 $b_{x_i}$ 是第i个交叉口交通流量的最小二乘斜率。如果斜率相同，我们认为它是正的空间相似性。否则，它被认为是负空间相似性。 $b_{x_i}$ 被定义为等式5。

$b_{x_i}=\frac{\sum _{j=1}^m(t_j-avg(t))(x_{ij}-avg(x_i))}{\sum _{j=1}^m(t_j-avg(t))^2}(5)$

其中t=[1...m]，avg是平均函数。如果交点i和交点j的趋势变化相同，那么 $P^+_{ij}=1$ ，否则 $P^+_{ij}=0$ 。反之，如果交点i和交点j的趋势变化不相同 $P^-_{ij}=1$ ，否则 $P^-_{ij}=0$ 。.最后，我们将空间正负选择器矩阵与空间相似性矩阵相结合，形成新的正空间相似性矩阵 $S^+$ 和负空间相似性矩阵 $S^-$

$S^+=P^+\cdot S^S(6)\\ S^-=P^-\cdot S^S(7)$

其中 $S^+$ , $S^-$ $\in R^{N*N}$ 。可以清楚的看到 $S^+$ , $S^-$ 和输入特征紧密相关。当输入特征动态变化时， $S^+$ , $S^-$ 也变化。因此，SSF可以动态提取空间相似性。

4.1.2 TSF

类似地，TSF也使用欧几里得距离来测量两个时间点之间的时间相似性。对于时间点i和时间点j，时间相似性被定义为Eq8.

$\alpha ^t_{ij}=\left\{\begin{matrix} exp(-(\sum ^N_{n=1}|x_{ni}-x_{nj}|)) & i\neq j\\ 1 & i=j \end{matrix}\right.$

其中 $x_{ni}$ 是在时间点i的第n个交叉口的交通流量。 $\alpha ^t_{ij}$ 越大相似度越高。 $\alpha ^t_{ii}$ 表示时间点t和它自己的时间相似性，因此当i=j时， $\alpha ^t_{ii}$ 达到最大值1。对于输入特征矩阵 $X^{N*m}$ ，TSF计算任何两个时间点的相似性。所对应的相似性矩阵为 $S^T\alpha R^{m*m},S^T_{ij}=\alpha ^t_{ij}$ ，其中i,j∈{1...m}。

时间相似性也有一个积极的和消极的关系。如图1（c）所示，在时间点1和2处的总体交通状态更相似并且显著高于其他时间点。这表明，在时间点2之后，整体交通流状态发生了显著变化。我们声称这种关系的时间趋势相似性，并定义时间的积极和消极的选择矩阵来提取它。时间正选择器矩阵 $I^+$ 和时间负选择器矩阵 $I^-$ 定义为Eq9和Eq10。

$I^+_{ij}=\left\{\begin{matrix} 1,&\sum ^N _{n=1}x_{ni}-x_{nj}\geqslant 0 \\ 0,&\sum ^N _{n=1}x_{ni}-x_{nj}< 0 \end{matrix}\right. (9)$

$I^-_{ij}=\left\{\begin{matrix} 0,&\sum ^N _{n=1}x_{ni}-x_{nj}\geqslant 0 \\ 1,&\sum ^N _{n=1}x_{ni}-x_{nj}< 0 \end{matrix}\right. (10)$

其中， $I^+,I^-\in R^{m*m},I^+_{ij}=-I^+_{ji},I^-_{ij}=-I^-_{ji}$ ，i,j∈{1...m}.如果与时间点i相比，时间点j处的总体交通流量显示出增加的趋势; $I^+_{ij}$ 为1，否则为0。相反，如果与时间点i相比，时间点j处的总体交通流量显示出下降趋势， $I^-_{ij}$ 为1，否则为0。最后，将时间正负选择矩阵与时间相似度矩阵相结合，形成新的正时间相似度矩阵 $T^+$ 和负时间相似度矩阵 $T^-$ .

$T^+=I^+\cdot S^T(11)\\ T^-=I^- \cdot S^T(12)$

其中 $T^+$ , $T^-$ $T^-$ $\in R^{m*m}$ .与SSF相似，当输入特征变化时， $T^+$ 和 $T^-$ 也将动态变化。

4.2 STA

由于GCN和时间卷积不能有效地提取动态时空关系，STA使用空间注意力（SAtt）和时间注意力（TAtt）来解决这个问题。常用的注意方法有自注意和自适应矩阵。由于自注意需要消耗较多的计算能力，因此本文采用了自适应矩阵。

对于空间依赖性，我们使用一个空间自适应矩阵 $W_S\in R^{N*N}$ 。将空间自适应矩阵与SSF提取的空间相似性矩阵相结合，形成空间相似性注意。空间相似注意被定义为Eq13和Eq14。

$S^+A=softmax(\sigma (S^+\cdot W_S))(13)\\ S^-A=softmax(\sigma (S^-\cdot W_S))(14)$

其中 $\sigma$ 表示激活函数，softmax表示标准化函数， $S^+A$ 是指正空间相似性矩阵和空间自适应矩阵的组合， $S^-A$ 负空间相似性矩阵和空间自适应矩阵的组合。GCN通过权值聚合提取空间依赖性，权值与邻接矩阵相关。在邻接矩阵乘以 $S^+A$ 或 $S^-A$ 后，GCN可以提取动态空间依赖关系。

对于时间依赖性，我们使用时间自适应矩阵 $W_T\in R^{N*N}$ 。将时间自适应矩阵与SSF提取的时间相似性矩阵相结合，形成时间相似性注意。时间相似注意被定义为Eq.(15)和Eq(16)。

$T^+A=softmax(\sigma (T^+\cdot W_T))(15)\\ T^-A=softmax(\sigma (T^-\cdot W_T))(16)$

其中 $T^+A$ 是指正的时间相似性矩阵和时间自适应矩阵的组合， $T^-A$ 表示负时间相似矩阵和时间自适应矩阵的组合。时间卷积通过时间卷积核提取时间依赖关系，但直接改变时间卷积核并不容易。DS-TGCN结合了 $T^+A$ 或 $T^-A$ 用输入特征间接改变时间卷积核。

4.3 MSTCGCN

MSTCGCN包含多个ST-conv模块。每个ST-conv模块使用GCN和时间卷积（T-conv），并引入时空相似性注意动态提取时空关系。MSTCGCN组合输入特征 $X^{N*m}$ 与时间相似性的注意，形成新的输入功能与不同的时间属性。

$X^+=X\cdot (T^+A)(17)\\ X^-=X \cdot (T^-A)(18)$

其中， $X^+,X^- \in R^{N*m},T^+A,T^-A\in R^{m*m},X\in R^{N*m}$ , $X^+$ 表示具有正时间相似性注意力的输入，并且 $X^-$ 表示具有负时间相似性注意力的输入。新的输入特征将被输入ST-conv模块。

4.3.1 ST-conv

ST-conv使用GCN和时间卷积分别提取空间依赖性和时间依赖性。

GCN

交通流预测的一个重要部分是提取空间相关性。卷积神经网络（CNN）具有参数共享、局部特征提取、高效处理高维数据等特点，在空间特征提取方面有很好的效果。然而，CNN只处理一些规则的图形，这些图形必须具有平移不变性、尺度不变性和旋转不变性的特性。真实的世界的道路结构图非常复杂，很少满足上述特征。近年来，广义卷积网络得到了广泛的关注，并通过时频变换实现了任意图上的卷积。它使用正则化拉普拉斯矩阵L将图形信号x变换到频域。对于图 $G=\left \{ V,E,A \right \}$ ，含有N个节点，正则化拉普拉斯矩阵 $L\in R^{N*N}$ 定义为 $L=I_N-D^{-1/2}\cdot A\cdot D^{-1/2}$ ，其中 $I_N$ 是N阶单位矩阵; $A \in R^{N*N}$ 是邻接矩阵; $D\in R^{N*N}$ 是度矩阵，并且 $D_{ii}=\sum ^N_{j=1}A_{ij}$ 。由于正则化拉普拉斯矩阵L是对称半正定矩阵，并且其特征值互不相同，因此它满足特征分解 $L=U\cdot \Lambda \cdot U^T$ ，其中 $\Lambda$ 是由L的特征值组成的对角矩阵； $U \in R^{N*N}$ 是由相应的特征向量组成的矩阵，这也是图卷积的基础。通过卷积定理，图形信号x和频域被相互转换为Eq(19)和Eq(20)。

$F(x)=U^T\cdot x=x'(19)\\ F^{-1}(x')=U\cdot x'=x(20)$

原始图形卷积公式[27]被定义为Eq.(21)

$x*g=U\cdot(U^T\cdot x\bigodot U^T\cdot g)(21)$

其中 $x\in R^N$ 表示N个节点的特征，*代表卷积，g是卷积核。 $\bigodot$ 是Hadamard算子。它表示两个相同大小的矩阵的对应位置处的元素的乘法。令 $U^T\cdot g=[\theta _0...\theta _{N-1}],g_\theta=diag([\theta _0...\theta _{N-1}])$ ,那么公式21变为 $x*g=U\cdot g_\theta\cdot U^T\cdot x$ ,其中 $g_\theta=diag(U^T\cdot g)$ 是卷积核。然而，该计算涉及特征值分解，这导致当节点数量较大时相对较高的计算复杂度。为了避免这种情况，卷积核使用近似的切比雪夫多项式。近似的图卷积[28]被定义为Eq.(22)

$x*g=\sum ^{K-1}_{k=0}\theta_k\cdot T_k\cdot (L')\cdot x(22)$

切比雪夫多项式被定义为： $T_0(x)=1,T_1(x)=x,T_n(x)=2x\cdot T_{n-1}-T_{n-2},\theta_k\in R^1$ 是可学习的参数, $L'=\frac{2L}{\lambda_{max}}-I_N$ ，并且 $\lambda _{max}$ 是正则化拉普拉斯矩阵的最大特征值。当执行信息聚合时，K阶切比雪夫卷积仅聚合K-1个步骤。如图4(a)所示，当k=1时，红色交叉点聚合最近的一阶邻居，并且当K=2时，聚合最近的二阶邻居。 $T_k(L')$ 决定聚合的权重。

DS-TGCN结合空间相似性关注和 $T_k(L')$ 来动态提取空间依赖性和相似性。在输入特征的每个时间点使用GCN。最终的图形卷积被定义为Eq(23).

$X'*g(SA)=\left [ \sum ^{K-1}_{k-0}T_k(L'\bigodot SA)\cdot X'_t\cdot \theta_F \right ]|^m_{t=1}(23)$

其中， $X'=X^+/X^-\in R^{N*m},SA=S^+A/S^-A\in R^{N*N},X'_t\in R^{N*1}$ 是X'的第t个时间点， $\theta_F\in R^{1*F}$ 是一个科学系的矩阵。GCN收缩每个时间点的卷积结果。[]表示合同操作。最后，所有时间点的卷积结果为 $(X'*g(SA))\in R^{N*F*m}$

T-conv

在提取时间关系时，RNN模型及其变体是最常用的方法。然而，这些方法遭受爆炸梯度和复杂的门控机制，因此它们将消耗更多的计算资源。在本文中，DS-TGCN使用时间卷积，如图(b)所示。

T-conv定义了一个卷积核来提取时间关系。在卷积核和时间特征的内积运算之后，T-conv可以提取这些时间点之间的时间关系。然后，卷积核沿着时间轴移动，以提取不同时间点之间的关系。我们将相应的T-conv定义为Eq.（24）

$\theta _{RL'}*(X'*g(SA))^i=[[\theta_{rL'}\bigodot (X'*g(SA))^i_{:,Z:(Z+H-1)}]|^{m-H+1}_{Z=1}]^R_{r=1(24)}$

其中 $\theta _{RL'}$ 表示卷积核的数量是R，L'的大小依赖于 $(X'*g(SA))^i$ 的维度。 $(X'*g(SA))^i$ 是GCN输出的第i个路口。 $(X'*g(SA))^i_{:,Z:(Z+H-1)}\in R^{F*H}$ 是从时间点Z到Z-H+1的H个时间点的特征，因此 $L'\in R^{F*H}$ .H被称为时间卷积核的长度。卷积核的结果是 $[\theta _{rL'}\bigodot (X'*g(SA))^i_{;,Z:(Z+H-1)}]|^{m-H+1}_{Z=0}\in R^{1*(m-H+1)}$ .所有卷积核结果都收缩为 $\theta_{RL'}*(X'*g(SA))^i\in R^{R*(m-H+1)}$ .总时间卷积被定义为Eq（25）

$\theta _{RL'}*(X'*g(SA))=[\theta_{RL'}*(X'*g(SA))^i]|^N_{i=1}(25)$

T-Conv可以使用补充0来保持输出时间点的数量不变，并收缩所有交点的时间卷积作为最终结果 $\theta _{RL'}*(X'*g(SA))\in R^{N*R*m}$

4.3.2 Mult ST-conv

STSF提取不同属性的时空相似性。不同的属性组合成不同的时空相似性关系，如表II所示。因此，我们使用四个ST-conv模块来提取不同的时空相似性关系。

$ST_1=\theta ^1_{RL'}*(X^+*g(S^+A))(26)\\ ST_2=\theta ^2_{RL'}*(X^+*g(S^-A))(27)\\ ST_3=\theta ^3_{RL'}*(X^-*g(S^+A))(28)\\ ST_4=\theta ^4_{RL'}*(X^-*g(S^-A))(29)\\$

4.4 Feature Fusion

这一部分描述了如何将四个不同的结果组合起来得到输出 $Y^{N*n}$ .卷积的结果通过T-conv连接层调整为所需的结果：

$Y_{PP}=\theta ^1_{nL'}*ST_1,Y_{PN}=\theta^2_{nL'}*ST_2,Y_{NP}=\theta ^3_{nL'}*ST_3,Y_{NN}=\theta ^4_{nL'}*ST_4$ .

该模型通过四个可学习的参数矩阵自适应地确定每个部分的权重： $W_{PP},W_{NP},W_{PN},W_{NN}\in R^1$

预测结果定义为

$Y^{N*n}=Y_{PP}\cdot W_{PP}+Y_{PN}\cdot W_{PN}+Y_{NP}\cdot W_{NP}+Y_{NN}\cdot W_{NN}(30)$

最后，我们使用MSE损失函数来训练模型。MSE损失函数被定义为Eq（31）

$MSE=\frac{1}{Nn}\sum ^N_{i=1}\sum ^n_{j=1}(y_{ij}-\bar{y}_{ij})^2(31)$

5. Experiments

5.1 Datasets

5.2 Parameter setting

所有方法均使用1h（12个时间点）的历史交通流量来预测15 min（3个时间点）、30 min（6个时间点）、45 min（9个时间点）和1h（12个时间点）的未来交通流量。在GCN中，Chebyshev多项式的K为3，输出维数F为64。在T-conv中，时间卷积核H的长度为3，并且卷积使用零填充策略。卷积核R的数目是64。在特征融合中，时间卷积核H的长度为12。该模型使用PyTorch实现，Adam优化器用于训练。学习率为0.001，批量大小等于32。

5.3 Evaluation Metrics

其中，N为交叉点的数量，n为时间点的数量， $y_{ij}$ 表示第i个交叉点的模型在时间点j的输出值; $\bar{y}_{ij}$ 是第i个交点在时间j的真值; Y是 $y_{ij}$ 的集合; $\bar{Y}$ 是 $\bar{y}_{ij}$ 的集合，Var表示方差。

5.4 Baselines

我们将我们的方法与以下六种在交通预测文献中广泛使用的基线进行比较：

5.5 Experimental Results and Analysis on different datasets

5.5.1 STSF模块分析

为了直观地说明STSF的作用，我们删除了DS-TGCN的STSF，并在三个数据集上重新进行了实验。所有实验设置和评价指标与上述相同。

图5给出了DS-TGCN和MSTCGCN + STA在青岛市区数据集上的预测结果。实线表示DS-TGCN，虚线表示模型MSTCGCN + STA。可以看出，MSTCGCN + STA在所有评估度量中比DS-TGCN差。这个实验与以前的实验结果是一致的，再次证实，我们的方法是非常有效的提取时空相似性关系。此外，两种方法之间的差异在所有预测时间保持不变。经计算，RMSE和MAE的差异保持在1%- 2%。这表明STSF模块对不同的间隔有相似的效果。图6和图7给出了DS-TGCN和MSTCGCN + STA在PMES 04和PEMS 08高速公路数据集上的预测结果。DS-TGCN在所有评估指标上也优于MSTCGCN + STA。但不同的预测区间之间的差距很大。DS-TGCN在PEMS 08数据集上的最佳预报间隔为15分钟和45分钟。上述实验结果表明，DS-TGCN在城市数据集中的预测结果相对稳定，但在高速公路数据集中波动较大。其主要原因是不同的交通流模式。在市区，车辆限行较多，因此一段时间内车流相对平稳。在高速公路上，车辆基本上只受速度的限制，所以一段时间内车流量是起伏的。当交通流起伏较大时，时空相似性难以提取。因此，DS-TGCN的预测结果在青岛数据集中更稳定。

总之，无论交通模式如何，DS-TGCN中的STSF模块都可以直接提取时空相似性，并且时空卷积模块可以提取时空依赖性。DS-TGCN结合了这两个模块，可以有效地提取时空依赖性和相似性。因此，与基线相比，DS-TGCN获得了最佳的预测精度。

5.5.2 MSTCGCN模块分析

为了进一步说明MSTCGCN模块的作用，我们将MSTCGCN模块替换为仅包含一个ST-conv的STCGCN模块。所有实验参数和设置均一致。

图8-10展示了DS-TGCN和STCGCN + STA + STSF在三个数据集上的预测结果。可以看出，DS-TGCN的预测精度大大优于STCGCN + STA + STSF，说明MSTCGCN是有效的。此外，与MSTCGCN + STA相比，STCGCN + STA + STSF的预测结果更加稳定。STCGCN + STA + STSF和DS-TGCN在青岛数据集上的RMSE差异保持在5%，在PEMS 04数据集上为5%，在PEMS 08数据集上为6%，这表明MSTCGCN模块基本不受交通流模式的影响。

一般来说，MSTCGCN模块可以提高预测精度，并且比STSF模块更稳定。

6. 总结和未来工作

本文提出了一种时空相关性和相似性感知的方法。我们的方法可以有效地提取时空依赖性和相似性。其中的STSF模块可以直接提取时空相似性。此外，STSF通过趋势相似度进一步细化了不同交通路口之间的时空相似关系。然后，将STSF模块与时空卷积模块相结合，提取时空相关性和相似性。时空卷积模块由GCN和T-conv组成，分别提取空间和时间相关性。与LSTM、GRU、GCN、STGCN、ASTGCN、STSGCN、MSTCGCN + STA和STCGCN + STA + STSF模型在两类数据集上的比较表明，该方法DS-TGCN对城市交通模式具有良好的预测效果。因此，DS-TGCN可以更好地应用于城市交通的管理和规划。其优势体现在以下两个方面：一方面，高精度的预测结果可以帮助交通管理部门制定准确的计划。另一方面，它可以为驾驶员提供准确的路线规划。此外，在非时空相似的交通流模式下，该方法的优势并不明显。

在未来的工作中，我们将尝试改善这一缺点或设计一个更有效和准确的模型，考虑更多的影响因素，如天气和节假日的交通流。