基于多重时空信息融合网络的城市网约车需求预测

27fa4be4b9540c88cce8a1bb85293145.png

文章信息

ec7f3ea9ca120003d3983fe69779bcc4.png

本周阅读的论文是题目为《Urban ride-hailing demand prediction with multiple spatio-temporal information fusion network》的一篇2020年发表在Transportation Research Part C的基于多重时空信息融合网络的网约车OD需求预测文章。

7b22fdfdaf0e0313fa10e32eb8c215b8.png

摘要

84e6417986fda6db8d916a88d4668e17.png

城市网约车需求预测是网约车系统决策、出租车调度和智能交通建设的一项长期且具有挑战性的任务。准确的城市网约车需求预测可以提升车辆的利用和调度,减少等待时间和交通拥堵。现有的交通流预测方法大部分采用基于区域的态势感知图像或基于站点的图像表示去捕捉交通流的空间动态性,而态势感知图像和图形表示的结合同样是精准预测的关键。这篇文章作者提出了一个全新的多重时空信息融合网络(MSTIF-Net),以更好的融合多重态势感知信息和图像表示。具体来说,该网络整合了图卷积神经网络、变分自编码器以及Seq2Seq模型以获得包含欧里几得空间特征和非欧里几得结构特征的城市网约车态势联合潜伏表征,并且捕捉了时空动态。作者在两个大规模真实世界城市交通数据集上评估MSTIF-Net,结果表明该模型与其他先进的基线模型相比,取得了更优秀的预测性能。

12567c283b1d3bb8fce104eabcec29be.png

贡献点

299d47743b55600d1ce0ecf32a81ea7e.png

这篇文章提出了一个全新的深度学习方法多重时空信息融合网络(MSTIF-Net),整合了多图表示,潜在的全局情况表示、Seq2Seq学习框架以及注意力机制。作者首先将城市交通时空数据整理为多图和交通态势感知图像(TSAIs);其次分别使用GCN和VAE分别将多图序列和TSAIs序列中的空间信息嵌入到潜在空间中,获得联合表示;同时,时间信息的提取可以通过Seq2Seq模型来处理,该模型可以捕获长期依赖关系,从而预测未来需求情况。为了提高模型的预测效果,作者加入了额外的天气信息作为辅助。文章的主要贡献如下:

  1. 据作者所知,在网约车需求预测任务中,这是首次探索融合多个图级结构表示(考虑非欧式距离结构特征,但图中节点可能会过于稠密)和像素级情况表示(可以以较少的计算量获取局部时空动态有效捕捉局部时空动态,但忽略非欧式结构特征),以获得更优的联合表示。

  2. 在不增加任何网络数据的情况下,通过邻接矩阵建模,将混合GCN模型从基于站点或基于网络的场景转移到基于网格的场景。

  3. 在两个大规模的真实数据集上进行了大量的实验,所提出的方法比其他最先进的城市交通预测基线方法获得了更好的性能。

3733294027daa4a87baf12bf8208f071.png

技术

3c4f1b9be008e427ff3a2f55848446d6.png

1) 数据分析

作者使用海口滴滴网约车平台的在线数据信息以及美国芝加哥出租车需求数据信息对网约车需求预测进行研究,一共考虑了六个数据属性:离开时间、到达时间、离开经度、离开纬度、到达经度和到达纬度。为了消除数据稀疏性对后续研究的影响,作者选择了一定经纬度范围内(覆盖了大部分的交通区域)的数据进行研究,并将两个区域根据经纬度均分成10*10个区域格。

在研究网约车预测任务之前,需要进行一些时空分析,根据时空分析模式设计相关技术。图1和图2分别是对空间相关性和时间动态性的分析。图1的热力图是根据划分的100个区域网格交通量之间的皮尔逊系数绘制,表示区域间的关联性。从图1可以看出,一些区域间存在显著的相关性。图2分别展示了两个数据集上小时交通流量的模式,趋势表明交通流具有很强的周期性。

3a9f50980fd339368305bd37613daf90.png

图1 研究数据集上区域格间的空间相关性。

0fc8294a5a05ce5b7042b8ea11e6fd2b.png

图2 研究数据集上交通流量的时间动态

2) 数据处理

交通流态势图像7eee1ffe821344805818de1d9879649d.png:给定区域的索引(i,j)以及时间戳t,作者将这样的时空背景下出现的车辆数量定位为801707db3cb295d3f533035f2549ea13.png。TVSI由这样的基本元素组成97f44c352290e7899836e16082f8d180.png

距离图:在城市交通系统中,对于彼此靠近的两个区域格,它们可能具有相似的流态。因此作者使用距离构建区域图。更具体地说,作者使用中心距离的倒数来标记两个区域之间的权重,以便较近的区域将与较高的权重相关联。距离值以千米为单位。

e1a4abbfc227a72ae642c161a837d9a1.png

交互图:不同区域之间或同一区域之间的城市交通历史记录也可以为构建交互图提供大量的信息。如果区域i和区域j之间存在大量的城市交通记录,则区域i和区域j在城市交通流动态格局中往往会相互影响。因此,作者根据城市历史交通记录,构造一个交互图来表示两个区域之间是否频繁交互。

26965978566b9c64451e0c7d213abcd6.png

关联性图:除了上述两种图,作者计算每个时间段内各个区域的历史城市交通流量(1小时),然后计算每两个区域之间的相关性(皮尔逊系数),作为图中的链接权重。如果两个区域间的皮尔逊系数小于0.05,那么不认为区域间存在显著的关联性,则取值为0。

58894a7d345edebe7ba56ae06a309444.png

3) 模型

该小节将详细介绍文章提出的模型多重时空信息融合网络(MSTIF-Net),图3展示了该模型的总体框架,主要由三个部分构成:GCN潜在表示模型、VAE潜在表示模型以及Seq2Seq模型。前两个模块尝试将前面提到的多图数据和高维TVSIs嵌入到低维潜空间中,后续模块的功能是捕捉衍生潜在空间中的潜在时空动态,并将这些潜在表征解码为双通道网约车需求图像。

859c9a54b864b7ef430180230d59c790.png

图3 城市网约车需求预测模型多时空信息融合网络综述

空间依赖性建模:本研究中,VAE和GCN分别被用于捕捉像素级和图片级空间特征。

(1)VAE的潜在表示

对于一系列经过处理的TVSIs,作者寻求一些有效的编码技术来保留TVSIs潜在的信息,将CNN和VAE进行结合用于处理这类结构数据,其中CNN可以捕捉局部空间相关性,而VAE是一种概率信号压缩技术。作者将VAE用于编码表示的一个动机是城市交通流可能在时空层面上遵循一些复杂的分布,另一个动机是城市网约车需求的记录可能不完整,因此概率方法VAE对于空间特征提取更稳健。其计算框架如图4所示。

daa0f8b764f5cfaaf730a809c223025d.png

3167fd41a56e1417a6c63c606b3290b1.png

图4 Conv-VAE的计算框架。编码器和解码器均采用卷积神经网络参数化。

(2)GCN的潜在表示

基于图融合的邻阶矩阵,图卷积操作表示如下:

55c97e63927d654ef483f0b8a07b667c.png

c400307195495fedcdbc836b2e250464.png

GCN的计算过程与普通神经网络相似,其原理图如图5所示。

9ec5d25bb90ccc21ce9939c859436283.png

图5 GCN的计算框架

(3)联合潜在表示的信息融合

在获得像素级和多图级潜在表示后,作者将这两种潜在表示的信息进行融合获取一个联合潜在表示,同时包含非欧式空间潜在信息以及欧式空间潜在信息。在本研究中,作者采用了一个简单的多层前馈网络来实现这一功能,仅包含1000个神经元的一个隐层,输出为较低维的潜向量,联合潜在表示的最佳维数需要根据后续的实验分析来确定。图6表示了信息融合的过程。需要注意的是,信息融合的过程是在联合潜在表征被输入至Seq2Seq Learning Model之前发生的,在该研究中,作者希望利用前m个时间步的信息序列预测未来下一个时间步的潜在表示。

6b64c0ebc33fa1b7eb3f1100be1e2500.png

6be4f23a5f4a34ff1191a46244043100.png

图6 信息融合得到联合潜伏表征的过程

时间依赖性建模:城市网约车需求的演变在时间序列上具有长期的依赖关系。联合潜在表征中隐藏的一些历史动态可能与预测时间中的历史动态存在关联,通过以潜在表征形式理解这些动态,可以预测城市网约车需求的时间相关性。

训练数据集经过空间信息融合和表示后,以联合潜在表示序列的形式表示为上下文序列耦合的序列对732f57944034b488ee6ba7d8e2edc90c.png,学习任务的目标是利用潜在序列50d66bdcbbf279376a8e4f427ca9c422.png去预测下一个时间段的城市网约车需求的潜在情况75e91de306bd001219832f99eaf3dfdc.png。实际上,Seg2seq模型的训练过程也是一个最大化条件概率的过程,即

0e47253da5c90b0d96818d4e71e72511.png

此处,条件概率通过一系列门控循环单元网络参数化,历史信息表示为基于上下文的语义向量,总条件概率可以简化为:

786e3b78d51ac0ab75430fa7feaf3935.png

图7解释了Seq2Seq学习模型的计算框架。在实际应用中,由注意力层转换而来的上下文向量是经过GRU处理的编码器隐藏信息的加权和,它将历史隐藏信息的权重调整为下一个预测潜在表示。由于存在长时依赖性,前一个潜在表征对下一个潜在表征的贡献位置不同。上下文向量在解码过程中是位置依赖的, Seq2seq模型中的注意层公式定义为:

f44b6f067a4fe6297d215035b542055e.png

权重和校准状态计算如下,其中当前时间步的历史信息对未来一个时间步的重要程度由注意力权重衡量。

a76bbfb271d1e6b0b21dc58d1247b7e8.png

92b313b788300ad5ac140924f630fd9e.png

图7 Seq2Seq学习模型的计算框架

天气条件对城市交通预测也有重要影响,作者将天气信息作为一系列四维向量,包含每天的最低气温、最高气温、晴/雨状态和风力研究其对交通流预测的影响。在这种情况下,作者再次应用多层前馈网络将天气信息与预测的联合潜伏表示融合,得到最终的潜在表示。该潜在表示最后被输入到反卷积网络,解码为10×10网格化的上下车需求情况图像,用于反映各区域在该时段的城市网约车需求。反卷积网络由两个转置卷积层组成,将潜在表征映射到双通道情境图像。

6d518403dc0aeb0d953c96c395b9d77a.png

模型选择L2损失作为Seq2Seq学习模型的损失函数,定义为:

1c4af9df46e380152c5dd295ab004612.png

因此,MSTIF-Net的总损失由两部分组成,一部分是Seq2seq学习模型的损失,另一个是VAE的损失,总损失的公式为:

0750985edfc999fd1e90792854850c6d.png

bce9b395caa16e99d8109e77c974f283.png

结论

6b39a7f19d164f7733ff5a2e663cec76.png

文章的实验部分不在此处展开细述,感兴趣的读者可以自行查看原文了解。总的来说,本研究深入理解了城市网约车需求预测任务,并在该领域提出了一种新颖的多时空信息融合网络模型(MSTIF-Net)。尽管在规模和时空分布上仍难以准确预测城市网约车需求,但与一些最先进的统计学习和深度学习模型相比,MSTIF-Net的实验结果是显著的,多图信息与像素级态势信息的融合,使城市网约车需求认知更具可预见性。

a1240724800ce651ea67acb802c54ee5.png

Attention

3229f7cc700ca90e5d5353c6ca924464.png

欢迎关注微信公众号《当交通遇上机器学习》!如果你和我一样是轨道交通、道路交通、城市规划相关领域的,也可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值