基于图卷积网络的空间OD流插值技术

1 导读

56cc5cc0139af30055f0c0bf252be359.png

本论文于2021年发表于交通领域知名期刊《IEEE Transactions on Intelligent Transportation Systems》上。该研究探索了一种基于图卷积神经网络的空间OD流缺失值预测的模型,该模型结合了图卷积和映射函数从网络学习的角度预测交通流数据,同时在局部空间网络中利用地理单元嵌入以提高预测精度。以北京出租车出行数据为例设计的数值实验验证了所提模型在空间流量预测中的有效性。

关键词

OD流, 数据插值, 空间交互网络, 图嵌入, 图卷积网络

文章信息

作者:Xin Yao, Yong Gao, Di Zhu, Ed Manley,Jiaoe Wang

标题:Spatial Origin-Destination Flow Imputation Using Graph Convolution Networks

文献来源:IEEE Transactions on Intelligent Transportation Systems, 2022, Vol. 22, No. 12, 7474-7484

2 摘要

由于数据收集技术的限制以及隐私问题,时空OD流数据的缺失频繁发生。数据插值为完整交通数据的获取提供了有力的支持,使我们能够更好地了解区域间的交通流联系和流动模式。然而,现存的模型或者方法忽略了空间流的网络结构,造成不精确的估计和低效的表现。图卷积神经网络的发展为处理图结构数据提供了有力的工具。这篇文章提出了一个空间交互图卷积神经网络模型,该模型结合了图卷积和映射函数从网络学习的角度预测交通流数据,同时在局部空间网络中利用地理单元嵌入以提高预测精度。为了降低预测误差,作者还采用了负采样技术。对北京出租车出行数据的实验验证了该模型在空间流量预测中的有效性,同样还证明了有偏差的训练样本对模型的性能有负面影响。文章还发现更多的地理单元属性,更合理的负采样率以及更大的训练集可以提高交通流数据的预测精度。

3 介绍

空间交通流数据,也被称为OD数据或者空间交互数据,被广泛应用于城市规划、出行等领域的研究。空间流有效阐述了区域间的关联和流量移动分布,因此对于交通调度优化、交通服务规划和出行路线管理至关重要。然而,受限于数据收集技术的发展和私人信息保护,经常会遭遇空间流信息缺失的问题。数据插值对于获取相关完整的流量集是非常有必要的,可以帮助掌握流量的分布并揭示在空间上的关系。这同样加深了对交通流数据背后的地理区域间的流动模式的理解。目前大部分模型例如重力模型和辐射模型都是从物理定律或优化理论推导出来的,根据地理区域的异质性和分离性量化流量数据。然而,这些模型忽略了空间流的网络结构,导致空间流插值的不准确性。另外,这些模型采用简单的线性回归和线性规划等简单的解决方法,在处理复杂的流量分布时限制了数据插值的能力。

人工神经网络的出现为描绘客流复杂的地理空间分布模式提供了一种思路。近年来,图卷积神经网络因其对图结构数据的特征提取和非线性拟合能力获得广泛应用。在地理应用方面,相关研究主要集中在通过构造各类型的空间图实现基于点的预测和空间模式推断。作为图卷积网络的扩展,关系图卷积网络(R-GCN)将GCN框架应用于知识库,并在链路预测方面表现出良好的性能。该模型将地理区域间的流量作为空间交互关系处理,在空间流量插值应用中具有很大的潜力。

受到R-GCNs的启发,作者提出一种空间交互图卷积网络(SI-GCN)以插补缺失的空间流数据。模型主要由三个模块组成,分别是空间表示层、解码-编码层以及基于位置属性和观测流量的参数优化。受益于图卷积,模型可以捕捉交通流的网络结构,并利用地理单元嵌入实现效果更好的流量插值。文章的主要贡献包括两个部分,首先作者扩展了R-GCNs用于空间数据插值;其次提出从网络学习的角度预测空间OD流。

4 模型

4.1 任务和假设

通常来说,一个空间交互网络定义为权重有向图,其中是k个地理单元(节点)的集合,是空间流量(边)的集合,。此处表示第i个单位,可以是网格、交通分析区域、街区或其他分析单元,表示由流向的流量。

空间流量数据插值是基于和观察到的流量集合以预测缺失值。中的流量称为正样本。由于流量估计可以被视为定量的空间推理,R-GCNs提出了统计关系学习为流量估计提供了一个有用的工具。在R-GCNs中,每个节点根据其与邻接节点的关系更新它的状态。该过程重复数次得到最终节点的状态可以用于多种任务,例如节点分类和链路预测。然而,R-GCNs存在两点限制。首先,模型没有使用节点特征,但地理单元的空间和非空间特征对于流量预测而言十分重要。其次,R-GCNs用于判断链路是否存在,对于空间交通流预测的意义不大。因此文章基于R-GCNs提出一个空间交互图卷积网络(SI-GCN)。

该模型基于以下假设:给定和,如果起始点和相似,终点和也相似,那么这两个交通流的强度应该近似相等。具体来说,文章提出两个相似性:

  • 一阶相似性:用以衡量地理单元之间的属性紧密程度。

  • 二阶相似性:用以空间交互网络中地理单元之间的邻域结构接近度。

图一阐述了上述两种相似性。由于和有很多相同的邻接节点(二阶相似性)且在空间上彼此接近,所以和相似。因此,可以用推断的流量强度,反之亦然。图卷积操作可以有效地为相似地理单元的属性和网络拓扑结构生成相似的表示向量,进而利用表示向量估计流量强度。

3cf994b5b0fa8ff7f7604706b97967a3.png

图1 不同地理单元之间的车流流动。

4.2 模型架构

如图2所示,SI-GCNs由三部分组成。空间表示层用于数据组织和处理。编码器通过图卷积生成所有地理单元的潜在表示。因此,相似单元得到相似的潜在表示,最后解码器利用这些表示来预测缺失的流量。

模型的输入包括地理单元和观测值。空间表示层主要负责三项任务,首先将地理单元的属性组织为数字节点特征向量,使每个单元都可计算,一些名义属性和序数属性使用one-hot编码转换为数值。这些输入的属性决定了节点间的一阶相似性,但不包含网络结构信息。其次,基于构建了一个空间子图,使模型能够捕获空间交互网络的空间结构,从而实现图卷积。另外,空间表示层还可以在训练前进行负采样,即通过随机替换正样本的起点或终点,对一组负(假)交通流进行采样,避免模型出现过拟合。负采样得到的交通流强度设置为0,表明随机组合的起终点间很难产生流量。同时训练和使模型不仅需要有效预测真实流量,同样需要区别虚假值,以此提高模型预测性能。

编码器本质上是一个包含层图卷积层的图嵌入.每层的卷积操作包含两个步骤:对于每个地理单元,消息传递步骤收集相邻节点表示(即状态),状态更新步骤计算其新的表示向量。具体如下公式:

其中表示第层节点的隐藏表示,表示第一层的输入特征向量,表示最后一层的输出向量。是指定层的权重矩阵,是归一化常量,是节点邻接节点的索引集合。最终节点状态通过激活函数例如ReLU:进行更新。对于每个节点,图卷积操作可以整合其一阶和二阶特性,并将其映射到一个潜在的表示向量,而相似节点在潜在表示空间中会彼此接近。SI-GCN模型可以处理大规模的空间交互网络并提取有用的空间模式,因为它将复杂的流量分布转换为低维的节点向量。

解码器根据地理单元的嵌入向量计算交通流强度。使用线性转换估计由节点到节点的交通流量强度。具体如下公式:

该操作将地理单元的嵌入向量映射为一个数值,即交通流强度。如图二所示,的每一行与嵌入向量的维数有关,并决定了相应潜在特征对于流量预测的重要性。

46db0762b11d5c91e917ed5579e86dab.png

图2 SI-GCN模型框架图

5 实验

5.1 数据集和模型设置

作者使用北京五环的出租车数据集对模型预测性能进行检验,数据集包含2013年5月13日到5月17日17397辆出租车共1115132次出行记录,还包括来自叫车应用程序/平台的出租车出行,每次行程都会记录上下车位置。作者将研究区域划分为边长为1km的网格作为地理单元(30×30),然后将出行记录汇总到这些网格中,以获得网格级别的出租车流量,车流量强度通过两个网格中起始和终止的出租车出行次数进行测量。本文忽略了交通流的时间变化,仅仅考虑空间数据的插值。同时考虑到过低的流量强度只能代表个别出行并不具备稳定的出行模式,因此实验删除了出现次数低于30次的流量对,最终获得网格化的交通流表示,如图3所示。

ab4799699ae59cb07feb007b9250ac49.png

图3 网格化交通流网络

另外,为了简单起见,作者为SI-GCN模型提供了三个属性,包括节点位置、产生力和吸引力,分别由节点坐标、节点出发次数和节点到达次数表示。为了评估模型,随机将出租车流数据划分为三个部分用于训练(60%)、验证(20%)和测试(20%),其中训练集和测试集分别表示观测值和缺失值,验证集则用于评估模型在训练过程中的泛化能力。负样本是训练集大小的25%。

5.2 基准模型和指标

文章选择了三个比较经典的模型与SI-GCN进行比较,均使用相同的输入来预测缺失的流动。分别是 重力模型(Gravity Model)、重力神经网络(Gravity Neural Network)以及辐射模型(Radiation Model)。

文章采用四个指标作为预测性能评价指标,均方根误差(RMSE)和平均绝对百分比误差(MAPE)用于描述流量估计值与地面真实值的偏差程度;斯皮尔曼相关系数(SCC)用于反映估计值与地面真实值之间的变化一致性。通勤者的共同部分(CPC)是一种相似性度量,公式如下:

该指标表示总体上估计值与实际值相符的程度。CPC=1表示它们是等效的。

5.3 结果

表格1展示了所有模型在10次实验的平均效果。通过GM_O和GM_P(重力模型的变体)的比较可以看出指数参数有效提高了重力模型的拟合优度。与传统模型比较,基于神经网络的模型具有更优估计效果。对于GNNs,隐藏神经元的增加不能显著提高预测精度。文章提出的SI-GCN取得最优的指标,与表现第二好的模型GNN_30(数字表示神经元个数)相比,RMSE和MAPE分别提高了21.3%和12.3%,SCC提高了8.0%,且CPC也有轻微增长。这些提升验证了模型的有效性。

表1 模型预测效果比较表

ModelRMSEMAPESCCCPC
GM_O161.58190.1%0.5680.603
GM_P27.59227.7%0.6430.848
RM55.54783.5%0.6240.421
GNN_1025.22727.8%0.6480.860
GNN_2025.17427.8%0.6490.860
GNN_3025.08227.7%0.6510.861
SI_GCN19.72724.3%0.7030.885

文章进一步分析不同交通流强度和出行距离等级下的预测效果。首先,计算测试集中交通流强度大于给定阈值的这些交通流的估计指标RMSE。如图5(a)所示,所有曲线呈现上升趋势,表明交通流强度越大,产生的预测误差更多。在所有模型中,SI-GCN在所有交通流强度下的预测误差最小。至于出行距离水平,作者根据 Jenks natural breaks optimization 将测试数据划分为五类,代表不同出行距离下的交通流流量。如图5(b)所示,SI-GCN取得了最高的预测精度。由于距离衰减效应,长距离流量通常具有较低的交通流强度,远低于短距离出行的流量强度,又因为低值的预测偏差很小,因此所有模型对长距离流量的预测误差都达到最小。

c74b534850f5ccb06641b5f6fd9d38e0.png

图4 不同交通流强度下(a)/不同出行距离下(b)的预测误差

另外,作者还评估了所有神经模型的训练性能。图6显示了一个实验的前10000次迭代期间测试流量的RMSE和SCC变化。可以看出来,SI-GCN具有最佳的学习效率,因为其RMSE曲线的衰减速度快于其他模型。由于GNNs具有更加简单的构架且参数更少,因此其指标曲线更加光滑。

7f70e95395ccb121120ef0b2aeb7ba79.png

图5 神经网络训练过程的效果

6 讨论

为了更好研究模型的预测性能,作者对数据的属性和模型的架构展开进一步的研究。

首先对节点属性的影响进行讨论,分别讨论了仅使用节点坐标属性进行估计等不同属性组合的预测效果。图6可以看出更多节点属性的参与有助于模型更好衡量地理单元间的相似性,从而提高预测精度。另外通过比较箱图可以发现模型使用更多的输入属性预测效果可以更加稳定。

09b33c04ee1f170050e8f0333319db61.png

图6 不同数量的节点属性对模型的影响

接着对训练数据的影响进行讨论,首先对出租车出行流量阈值的选定进行讨论,如图7(a)所示,随着阈值增大更多低强度的流量会被移除,因此RMSE会随之增大。接着研究对训练集大小划分对模型的影响。以20%至80%的比例对出租车流量数据进行采样,步长为20%,采样数据作为训练SI-GCN的不同训练集,相应的测试集则为剩余流量的一半。如图7(b)所示,模型使用更大的训练集可以更准确地预测流量。同时,误差越小表明模型性能越稳定,这是因为更多的交通流形成了相对完整的图结构,包含更多关于其空间分布的信息。另外作者还讨论了负样本率对模型预测效果的影响。由于OD流数据通常是稀疏数据,容易导致过拟合。负采样保证了更好的预测效果,因为其为训练过程提供了更多数据可以提高SI-GCN的泛化能力。如图7(c)所示,作者研究了不同负采样率下的模型训练效果,其中负采样率为0的时候表示没有负样本,采样率为100%表示负样本和正样本的个数一致。可以发现SCC曲线随着负采样率的增加向上移动,然后在0.7附近波动。负采样率为30%之前RMSE曲线不断下降,表明负采样有利于改善模型的性能。值得注意的是,随着采样率的不断增加,误差会变得更大,这是因为模型无法判断测试集中是否包含这些负样本。数据集生成的负样本流量越多,这些流量出现在测试集中的概率越高。一旦将测试集中的流量视为强度为零的负样本流,模型会出现欠拟合的现象。因此,设置过大的负采样率是没有必要的。最后作者探讨了训练集内不同流量强度对模型效果的影响,设置了高交通流强度流量作为训练集,低交通流强度流量作为测试集的一组实验,以及相反设置的另一组试验,具体实验结果如表2所示。与随机划分样本相比,偏倚样本通常会导致更差的预测效果,且高强度流的绝对预测偏差通常大于低强度流的预测偏差。

298167218959faca922ed7da54a7b1bb.png

图7 不同训练数据对流量预测的影响。(a)出租车阈值,(b)训练集大小,(c)负样本采样率。

表2 训练集内不同交通流强度下对预测效果影响

Training FlowsRMSEMAPESCCCPC
High intensity18.61829.4%0.5160.870
Low intensity37.74726.6%0.7050.835

7 总结

空间OD流插值可以获得缺失数据且有助于发现地理属性和流量模式之间的潜在关系。这篇文章中,作者使用图卷积网络实现空间OD流数据插值,提出了空间交互图卷积网络(SI-GCN)模型。该模型采用了三种技术来提高预测精度,分别是地理单元嵌入(geographical unit embedding)、负采样(negative sampling)以及图卷积网络(graph convolution network)。为了验证模型有效性,文章在北京出租车出行数据集上进行数值实验,并且对训练数据的采样进行了详细全面的讨论,最终发现训练过程的Batch Size、嵌入向量的维度以及负采样率对模型的运行效率有显著影响。今后的研究可以侧重于整合时间维度的信息,通过捕捉交通流的时空特性精确以预测始发地-目的地流量。

Attention

欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值