a new framework

摘要

时空网络数据预测在交通管理和城市规划的大量应用中具有重要意义。 但是,潜在的复杂时空相关性和异质性使这个问题具有挑战性。 现有方法通常使用单独的组件来捕获空间和时间相关性,而忽略时空数据中的异质性。 在本文中,我们提出了一种新颖的模型,即时空同步图卷积网络(STSGCN),用于时空网络数据预测。 该模型能够通过精心设计的时空同步建模机制有效捕获复杂的局部时空相关性。 同时,在模型中设计了不同时间段的多个模块,以有效地捕获局部时空图中的异质性。 在四个真实世界的数据集上进行了广泛的实验,这表明我们的方法达到了最先进的性能,并且始终优于其他基准。

引言

时空网络数据预测是时空数据挖掘中的基础研究问题。 时空网络是一种典型的数据结构,可以描述许多实际应用中的许多数据,例如交通网络,移动基站网络,城市供水系统等。对时空网络数据的准确预测可以显着地 提高这些应用程序的服务质量。 随着对图的深度学习的发展,诸如图卷积网络及其变体之类的强大方法已广泛应用于这些时空网络数据预测任务,并取得了可喜的性能。 但是,仍然缺乏有效的方法来对时空方面的相关性和异质性进行建模。 在本文中,我们专注于设计模型以同步捕获复杂的时空相关性,并考虑到异构性以提高时空网络数据预测的准确性。
以图1所示的时空网络为例,此网络有三种不同的影响。 时空图中的每个节点都可以在同一时间步直接影响其相邻节点,并且这种影响是从实际的空间依赖性得出的。 同时,由于时间序列的时间相关性,每个节点也可以在下一时间步直接影响自身。 此外,由于同步的时空相关性,每个节点甚至可以在下一时间步直接影响其相邻节点,如图1所示。之所以存在三种不同类型的影响,是因为信息在网络中传播。 时空网络同时在空间和时间维度上发生。 由于节点之间的空间距离和时间序列的时间范围的限制,通常将这些复杂的时空相关性定位。 我们将这些复杂的影响称为局部时空相关性。 对这种相关性进行建模对于时空网络数据预测至关重要。
诸如DCRNN(Li等人2017),STGCN(Yu,Yin和Zhu 2018)和ASTGCN(Guo等人2019a)等先前的研究分别使用两个单独的组件来捕获时间和空间依赖性。 这些方法仅直接捕获了我们上面提到的前两种影响,即空间依赖性和时间相关性。 他们将空间表示输入到时间建模模块中,以间接捕获第三种影响。 但是,我们认为,如果可以同时捕获这些复杂的局部时空相关性,则对时空数据预测将非常有效,因为这种建模方法揭示了时空网络数据生成的基本方式。
此外,时空网络数据通常在时空维度上表现出异质性。
例如,在整个城市的道路网络中,住宅和商业区的交通监控站所记录的观测值往往在不同时间呈现出不同的模式。 然而,许多先前的研究使用不同时间段的共享模块,这无法有效地捕获时空网络中的异质性。
为了捕获复杂的局部时空相关性和时空数据中的异质性,我们提出了一种称为时空同步图卷积网络(STSGCN)的模型。 与许多以前的工作不同,STSGCN模型可以直接同时捕获局部的时空相关性,而不必使用不同类型的深度神经网络分别对空间相关性和时间相关性进行建模。 具体来说,我们构造了局部的时空图,将相邻时间步长的各个空间图连接成一个图。 然后,我们构建一个时空同步图卷积模块(STSGCM),以捕获这些局部时空图中复杂的局部时空相关性。 同时,为了捕获远程时空网络数据中的异质性,我们设计了一个时空同步图卷积层(STSGCL),该层在不同的时间段上部署了多个单独的STSGCM。 最后,我们堆叠了多个STSGCL,以汇总远程时空相关性和异构性以进行预测。
总体而言,我们的工作如下:
•我们提出了一种新颖的时空图卷积模块,以直接同步地捕获局部时空相关性,而不是分别使用不同类型的神经网络模块。
•我们构造了一个多模块层以捕获远程时空图中的异质性。 此多模块层在每个时间段上部署多个模块,从而使每个模块可以专注于提取每个局部时空图上的时空相关性。
•在四个真实的数据集上进行了广泛的实验,实验结果表明我们的模型始终优于所有基线方法。

相关工作

时空预测
时空数据预测问题是时空数据挖掘中非常重要的研究课题。 许多ARIMA(Williams和Hoel,2003年)和SVM(Drucker等,1997年)之类的经典方法仅考虑了时间信息。 将复杂的空间相关性集成到预测方法中具有挑战性。 ConvLSTM(Shi等人,2015)模型是完全连接的LSTM(Graves,2013)的扩展,它结合了CNN和RNN分别对空间和时间相关性进行建模。 它利用CNN强大的空间信息提取功能。 ST-ResNet(Zhang,Zheng和Qi 2017)是一个基于CNN的深度残差网络,可用于全市范围的人群流量预测,显示了深度残差CNN在建模时空网格数据方面的强大功能。 ST-3DNet(Guo et al。
2019b)在该区域引入了3D卷积,可以从空间和时间维度有效提取特征。 它使用两个组件分别对局部时间模式和长期时间模式进行建模。 以上所有这些方法都是为时空网格数据设计的。
最近,研究人员尝试利用图卷积方法对时空网络数据中的空间相关性进行建模。 DCRNN(Li et al.2017)将图卷积网络引入时空网络数据预测中,该方法使用扩散图卷积网络来描述空间网络中的信息扩散过程。 它使用RNN建模时间相关性,例如ConvLSTM。 STGCN(Yu,Yin和Zhu 2018)使用CNN建模时间相关性。 ASTGCN(Guo et al。
2019a)使用两个注意层来捕获空间依赖关系和时间相关性的动态。 Graph WaveNet(Wu et al.2019)设计了一个自适应矩阵,以考虑节点及其邻居之间影响的变化。 它使用散乱卷积来对时间相关性进行建模,以成倍地增加接收场。
但是,所有上述方法都使用两个不同的组件来分别捕获空间依赖性和时间相关性。 与它们不同的是,STG2Seq(Bai等人,2019年)试图通过使用具有两个注意机制的门控残差GCN模块来同时对时空相关性进行建模。 但是,在一定程度上,以不同的时间步长串联每个节点的特征会掩盖时空相关性。 而且它无法捕获时空数据中的异质性。
图卷积网络
图卷积网络(GCN)在基于图结构的几种不同类型的任务(例如节点分类和网络表示)上取得了非凡的性能。 光谱GCN在光谱域中定义。 许多方法都来自(Bruna等人,2013)的工作。 ChebNet(Defferrard,Bresson和Vandergheynst,2016年)是一个功能强大的GCN,它利用Chebyshev扩展功能来降低laplacians计算的复杂性。 GCN(Kipf and Welling 2017)将ChebNet简化为更简单的形式,并在各种任务上实现了最先进的性能。 空间GCN泛化了从欧几里得空间到顶点域的传统卷积网络。 GraphSAGE(Hamilton,Ying和Leskovec,2017年)对固定数量的邻居进行抽样图中的每个节点,并汇总其邻居和自身的特征。 GAT(Veličković等人,2018)是在顶点域中定义的功能强大的GCN变体,它使用关注层动态调整邻居节点的重要性。

初步

•定义1:空间网络G。我们使用G =(V,E,A)表示空间网络,其中| V | = N是顶点集,N表示顶点数,E表示边集。 A是网络G的邻接矩阵。
空间网络G表示空间维度上节点之间的关系,并且网络结构不会随时间变化。 在我们的工作中,该空间网络可以是有向的也可以是无向的。
•定义2:图信号矩阵X G∈R N×C,其中C是属性特征的数量,t表示时间步长。 该图信号矩阵表示在时间步t处对空间网络G的观测。
时空网络数据预测的问题可以描述为:学习一个映射函数f,该函数映射历史时空网(t-T +1)(t-T +2)(t)工作序列(XG,XG ,…,XG)纳入该时空网络(t + 1)(t + 2)(t + T)(XG,XG,…,XG)的未来观测结果,其中T表示长度 对于历史时空网络序列,T表示要预测的目标时空网络序列的长度。

时空同步图卷积网络图

2说明了我们的STSGCN模型的体系结构。
我们将STSGCN的核心思想概括为三点:1)在上一个和下一个步骤将每个节点与其自身连接,以构造局部时空图。 2)使用时空同步图卷积模块捕获局部时空相关性。 3)部署多个模块以对时空网络系列中的异构性进行建模。
局部时空图的构建
我们打算建立一个模型,该模型可以直接捕获每个节点对属于当前时间步和相邻时间步的邻居的影响。 实现此目标的最直观的想法是在相邻时间步长将所有节点与其自身连接(图3(a))。 通过在前一刻和下一刻将所有节点连接起来,我们可以获得局部的时空图。 根据局部时空图的拓扑结构,可以直接捕获每个节点与其时空邻居之间的相关性。
我们用A∈R N×N表示空间图的邻接矩阵。 A∈R 3N×3N表示构造在三个连续空间图上的局部时空图的邻接矩阵。 对于空间图中的节点i,我们可以在局部时空中计算其新索引由(t − 1)N + i表示,其中t(0 <t≤3)表示局部时空图中的时间步数。 如果在此局部时空图中两个节点彼此连接,则邻接矩阵中的对应值将设置为1。局部时空图的邻接矩阵可以表示为:
公式(1)
其中,v i表示局部时空图中的节点i。 邻接矩阵A包含3N个节点。 图3(b)说明了局部时空图的邻接矩阵。 邻接矩阵的对角线是三个连续时间步长的空间网络的邻接矩阵。 对角线的两侧指示每个节点与属于相邻时间步长的自身的连通性。
时空嵌入
但是,将不同时间步长的节点连接到一个图形中会掩盖每个节点的时间属性。 换句话说,该局部时空图将处于不同时间步长的节点置于相同的环境中,而不会对其进行区分。 受ConvS2S(Gehring等 2017),我们将位置嵌入到时空网络系列中,以便模型可以考虑时空信息,从而可以增强对时空相关性进行建模的能力。 对于时空网络序列X G∈R N×C×T,我们创建了一个可学习的时间嵌入矩阵T emb∈R C×T以及可学习的空间嵌入矩阵S emb∈R N×C。
训练过程完成后,两个嵌入矩阵将包含必要的时间和空间信息,以帮助模型捕获时空相关性。
我们将这两个嵌入矩阵添加到具有广播操作的时空网络序列中,以获得网络序列的新表示形式:
公式(2)
时空同步图卷积模块
我们建立了一个时空同步图卷积模块(STSGCM),以捕获局部时空相关性。 STSGCM由一组图卷积运算组成。 图卷积运算可以聚合每个节点及其邻居的特征。 我们在顶点域中定义图卷积运算,以聚合时空网络中的局部时空特征。 图卷积运算的输入是局部时空图的图信号矩阵。 在我们的图卷积运算中,每个节点在相邻的时间步长处汇总其自身及其邻居的特征。 集合函数是线性组合,其权重等于节点与其邻居之间的边缘的权重。 然后,我们部署一个具有激活功能的全连接层,以将节点的特征转换为新的空间。 该图卷积运算可表示为:
公式(3)
其中A∈R 3N×3N表示局部时空图的邻接矩阵,h(l-1)∈R 3N×C是第l个图卷积层的输入,W∈RC×C b∈RC是可学习的参数,σ表示激活函数,例如ReLU和GLU(Dauphin et al.2017)。 如果我们选择GLU作为图卷积层的激活函数,图卷积层可以描述如下:
公式(4)
其中W 1∈RC×C,W 2∈RC×C,b 1∈RC,b 2∈RC是可学习的参数,Sigmoid表示Sigmoid激活函数,即sigmoid(x)= 1 + e 1 -x,⊗ 表示逐元素乘积。 门控线性单元控制可以将哪个节点的信息传递到下一层。
该图卷积运算在顶点域中定义,这意味着它不需要计算图拉普拉斯算子。 而且,该图卷积运算不仅可以应用于无向图,而且可以应用于有向图。 另外,我们为局部时空图的每个节点添加了自环,以使图卷积操作在聚合特征时考虑其自身的特征。
我们堆叠多个图卷积运算以扩展聚集区域,这可以增加图卷积运算的接收场以捕获局部时空相关性(图4(a))。 我们选择JK-net(Xu et al.2018)作为STSGCM的基本结构,并设计一个新的聚合层来过滤无用的信息(图4(b),4(c))。
我们使用h(l)表示第l个图卷积运算的输出,其中h(0)表示第一个图卷积运算的输入。 对于具有L个图卷积运算的STSGCM,每个图卷积运算的输出将被馈送到聚合层(图4(a))。 聚合层将压缩所有输出STSGCM中的层。 聚合操作分为两个步骤:聚合和裁剪。
聚合操作我们选择最大池作为聚合操作。 它对STSGCM中所有图卷积的输出应用逐个元素的max运算。
最大运算需要所有输出具有相同的大小,因此模块内图卷积运算的内核数应相等。 最大聚合操作可以表示为:
公式(5)
其中C out表示图卷积运算中的内核数。
裁剪操作裁剪操作(图4(c))删除了上一个和下一个时间步的节点的所有功能,仅保留了中间时刻的节点。 这样做的原因是,图卷积运算已经汇总了上一步和下一个时间步的信息。 即使我们裁剪了两个时间步长,每个节点仍包含局部时空相关性。 如果我们堆叠多个STSGCM,并保留所有相邻时间步的特征,则大量冗余信息将驻留在模型中,这可能严重损害模型的性能。
综上所述,STSGCM的输入是局部时空图信号矩阵h(0)∈R 3N×C in。 经过几次图卷积运算后,每个图卷积运算的输出可以表示为h(i)∈R 3N×C out,其中i表示运算索引。 聚合操作会将它们压缩为h AGG∈R 3N×C out。 然后,裁剪操作将节点保留在中间时间步长,生成STSGCM h(final)∈R N×C out的输出。 图1中的绿色箭头表示局部时空图中节点及其两跳邻居之间的时空相关性。 具有至少两个堆叠图卷积运算的STSGCM可以直接对图1中指示的三种不同类型的相关性进行建模。
时空同步图卷积层
为了捕获整个网络系列的长期时空相关性,我们使用滑动窗口来切出不同的周期。 由于时空数据的异质性,最好使用多个STSGCM来建模不同的周期,而不是在所有周期中共享一个。 多个STSGCM允许每个人专注于对本地化图中的本地时空相关性进行建模。 我们将一组STSGCM部署为SpatialTemporal同步图卷积层(STSGCL),以提取远程时空特征,如图2所示。
我们将STSGCL的输入矩阵表示为X∈R T×N×C。 首先,我们为每个STSGCL添加时空嵌入。 然后,STSGCL中的滑动窗口会将输入切入T-2时空网络系列。 每个时空网络序列可以表示为X∈R 3×N×C。 我们将它们重塑为X重塑∈R 3N×C,可以将其直接与局部时空图一起输入到STSGCM中。 STSGCL在T-2局部时空图上部署T-2 STSGCM,以捕获这些T-2时空网络序列中的局部时空相关性。 之后,所有这些T-2 STSGCM的输出都被合并为一个矩阵,作为STSGCL的输出。 可以表示为:
公式(6)
其中M i∈R表示第i个STSGCM的输出。
通过堆叠多个STSGCL,我们可以构建可以捕获复杂的时空相关性和时空异质性的分层模型。 经过几次时空同步图卷积运算后,每个节点将包含以自身为中心的局部时空相关性。’

额外组件

在本节中,我们介绍STSGCN用来增强其表示能力的一些额外组件。
掩码矩阵对于STSGCN中的图卷积运算,邻接矩阵A决定聚合的权重。 但是,每个节点对其邻居的影响程度不同。 如果邻接矩阵仅包含0和1,则可能会限制聚合。 如果将局部时空图中的两个节点连接起来,即使它们在特定时间段内没有关联,它们的特征也将被聚合。 因此,我们在STSGCN中添加了可学习的掩码矩阵W mask,以调整聚合权重以使聚合更合理。
W mask∈R 3N×3N表示掩码矩阵。 我们在W mask和局部邻接矩阵A之间进行逐元素乘积,以生成权重调整的局部邻接矩阵:
公式(7)
之后,我们使用调整后的A来计算模型中的所有图卷积。
输入层我们在网络顶部添加一个完全连接的层,以将输入转换为高维空间,从而可以提高网络的表示能力。
输出层我们设计了一个输出层,将最后一个STSGCL的输出转换为预期的预测。 该输出层的输入可以表示为X∈R T×N×C。
我们首先进行转置并将其重塑为X∈R N×TC。 然后,我们使用T个两层连接层来生成预测,如下所示:
公式(8)
其中ŷ(i)表示时间步长i中的预测。
(i)T C×C(i)C C×1(i),b 1∈R,W 2∈R,b 2∈R是可学习的R参数C表示第一完全连接层的输出的特征数。 然后,我们将每个时间步长的所有预测合并为一个矩阵:
公式(9)
其中Ŷ是整个STSGCN的输出。
损失函数我们选择Huber损失(Huber 1992)作为损失函数。 与平方误差损失相比,Huber损失对异常值的敏感度低。
公式(10)
其中Y表示基本事实,Ŷ表示模型的预测,δ是控制平方误差损失范围的阈值参数。

实验

实验设置我们评估STSGCN在四个公路交通数据集上的性能。 这些数据是从Caltrans绩效评估系统(PeMS)收集的(Chen等,2001)。

数据集我们分别从4个地区构建了四个不同的数据集,分别是PEMS03,PEMS04,PEMS07和PEMS08。
流量数据汇总到5分钟,这意味着每小时流量数据有12个点。 我们使用过去一个小时的流量数据来预测下一个小时的流量。 详细信息如表1所示。
每个数据集的空间网络都是根据实际道路网络构建的。 如果两个监视器在同一条道路上,则认为这两个点在空间网络中已连接。
我们通过移除均值并缩放到单位方差来对特征进行标准化:
公式(11)
其中mean(X)和std(X)分别是历史时间序列的平均值和标准偏差。
基线方法
•VAR(Hamilton 1994):向量自回归是一种高级时间序列模型,可以捕获时间序列之间的成对关系。
SVR(Drucker等,1997):支持向量回归使用线性支持向量机来执行回归任务。
•LSTM(Hochreiter和Schmidhuber,1997年):长期短期记忆网络,用于时间序列预测。
•DCRNN(Li等,2017):扩散卷积递归神经网络利用扩散图卷积网络和seq2seq分别编码空间信息和时间信息。
•STGCN(Yu,Yin和Zhu,2018年):时空图卷积网络。 STGCN使用ChebNet和2D卷积网络分别捕获空间依赖性和时间相关性。
•ASTGCN(r)(Guo等人,2019a):基于注意力的时空图卷积网络设计了空间注意力和时间注意力机制,分别对空间和时间动力学建模。 ASTGCN集成了三个不同的组件来对公路交通数据的周期性进行建模。 为了确保比较实验的公正性,我们仅采用其最近的组件。
•STG2Seq(Bai等人,2019年):时空图转序列模型使用多门图卷积模块和seq2seq架构,并带有注意力机制进行多步预测。
•Graph WaveNet(Wu等人,2019):Graph WaveNet将图卷积与膨胀的偶然卷积相结合,以捕获时空相关性。
实验设置
我们将所有比例为6:2:2的数据集分为训练集,验证集和测试集。 我们使用一小时的历史数据来预测下一个小时的数据,这意味着使用过去的12个连续时间步长来预测未来的12个连续时间步长。 所有实验重复十次。
我们使用MXNet来实现STSGCN模型(Chen等人,2015)。 超参数由模型在验证数据集上的性能决定。 这四个数据集上的最佳模型由4个STSGCL组成,每个STSGCM包含3个图形卷积运算,分别具有64、64、64个过滤器。
实验结果
表2比较了预测任务的不同方法。 除PEMS07之外,我们的STSGCN在三个数据集上始终优于其他基准方法。 在PEMS07中,我们的STSGCN具有最佳的MAE和MAPE,但RMSE略大于DCRNN。
VAR,SVM和LSTM仅考虑时间相关性,而不能利用时空网络的空间依赖性。 DCRNN,STGCN,ASTGCN(r),STG2Seq和我们的STSGCN都利用了空间信息的优势,因此与仅用于时间序列预测的方法相比,它们具有更好的性能。
DCRNN,STGCN,ASTGCN和图WaveNet使用两个模块分别对空间相关性和时间相关性进行建模。 他们与所有人共享一个模块
在不同的时间段提取长期的时空相关性,而忽略了时空网络数据中的异质性。 我们的方法考虑了局部时空相关性并捕获了时空数据中的异质性,因此我们的STSGCN具有比这些方法更好的性能。
STG2Seq还打算同时对时空相关性进行建模。 从表2中可以看出,我们的STSGCN在四个数据集上具有更好的性能。
STG2Seq的局限性在于,它只是将相邻周期的特征串联起来,而不是像我们的STSGCN一样,将不同时间步长的节点视为不同的单个节点。 在某种程度上,这种方法忽略了时间信息和时空相关性。
组件分析
为了进一步研究STSGCN不同模块的影响,我们设计了STSGCN模型的六个变体。 我们将这六个变体与PEMS03数据集上的STSGCN模型进行比较。 所有这些模型都包含四个STSGCL,每个STSGCM中带有[64、64、64]过滤器。 这七个模型的区别描述如下:
1.基本模型:该模型不具备时空嵌入和掩码矩阵。 它使用ReLU作为激活功能。 每个STSGCL仅包含一个STSGCM,并且在所有时间段内都共享此模块。 输出层与ASTGCN的输出层相同,后者仅使用具有12个滤波器的卷积层来生成预测。
2.多模块:此模型将基本模型中的STSGCL更改为多模块版本。
GLU:此模型将多模块模型中的所有激活功能更改为GLU。
4. + emb:此模型基于GLU版本在每个STSGCL中添加时空嵌入。
5. + mask:此模型基于+ emb添加掩码矩阵。
6.重塑输出:此模型使用两个完全连接的层来生成预期的预测。
7. STSGCN:STSGCN模型部署多个双向连接的层,以生成每个时间步长的预测。
如图5所示,GLU具有比ReLU激活功能更好的性能。 原因是GLU的参数大小是ReLU的两倍,因此GLU的容量更大,可以捕获复杂的时空相关性。
此外,与ReLU相比,它可以更灵活地控制输出。
在每个时间段配备单独的STSGCM的模型在很大程度上要优于共享的STSGCM,这表明有必要对时空网络数据中的异构性进行建模。
结果表明,时空嵌入可以明显提高STSGCN模型的性能。
我们添加了掩码矩阵,以在图卷积操作中调整每个节点与其邻居之间的权重。 它可以稍微提高预测性能。
用于生成预测的卷积层没有意义,因为它与空间图中的所有节点共享所有参数。 由于时空数据的异质性,每个节点可能表现出不同的属性,因此使用不同的模块生成预测结果要优于一个卷积输出层。 因此,经过重塑的输出层和多输出版本可以进一步提高预测性能。
结论
我们提出了一个模型,该模型不仅可以有效地捕获局部时空相关性,而且可以考虑时空数据中的异质性。 在四个真实数据集上的大量实验表明,我们的模型优于现有模型。 此外,我们提出的模型是用于时空网络数据预测的通用框架,,因此可以应用于许多相关应用程序。 代码和数据集已在以下位置发布:https://github.com/Davidham3/STSGCN。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值