多分辨率时空深度学习模型：用于城市轨道交通动态OD需求预测

最新推荐文章于 2025-03-09 00:03:32 发布

当交通遇上机器学习

最新推荐文章于 2025-03-09 00:03:32 发布

阅读量2.1k

点赞数

文章标签：卷积大数据算法 python 计算机视觉

本文链接：https://blog.csdn.net/zuiyishihefang/article/details/126564643

版权

1.文章信息

本周阅读的论文是题目为《Dynamic Origin-Destination Prediction in Urban Rail Systems: A Multi-Resolution Spatio-Temporal Deep Learning Approach》的一篇2022年发表在IEEE Transactions On Intelligent Transportation Systems（TITS）的基于多分辨率时空深度模型的地铁OD客流预测文章。

2.摘要

短期需求预测，通常定义为未来一小时内的需求预测，对于实施动态控制策略和在运输应用中提供有用的客户信息至关重要。通过了解预期需求，公交运营商可以在需求激增之前部署实时控制策略，将异常情况对服务质量和乘客体验的影响降到最低。需求预测模型在交通运输中最重要的应用之一是预测车站站台的拥堵和车辆的拥挤情况，这要求提供关于出发地-目的地（OD）需求的信息，包括乘客如何以及何时进入或离开服务的详细概况。然而，现有文献在OD需求方面的工作是有限的，大多研究专注于到站客流预测。这些信息虽然有用，但对许多实际应用是远远不足的。作者通过提出一种可扩展的方法，用于短时、短期的运输系统OD需求预测，以弥补这一差距，该模型主要由三个部分组成：用于捕捉局部空间依赖性的多分辨率空间特征提取模块，该模块包含了通道级注意力模块；用于编码外源信息的辅助信息编码模块（AIE），以及用于捕捉OD需求时间演化的模块。在时间段t，OD需求表示为N×N的矩阵，经过两个独立的分支处理。在其中一个分支，作者使用离散小波变换（DWT）将需求分解为其不同的时间和频率变化，检测在原始数据中不可见的模式。在另外一个分支，三个卷积神经网络（CNN）被用于直接学习OD需求中的空间依赖性。模型采用squeeze-and-excitation层，通过根据特征图对最终预测值的贡献程度来对两个分支的输出值进行加权。接着模型使用卷积长短时记忆网络（ConvLSTM）捕捉OD需求的时间演化。该研究以香港地铁（MTR）两个月的AFC数据为研究对象，验证模型的可行性。对该模型的广泛评估表明，与其他基准模型相比，作者提出的模型具有优越性。

3.介绍

近年来，实时数据的激增使得学者在对需求激增前利用实时数据实现动态、适应性的策略以防止服务质量恶化的研究越来越感兴趣。这类策略包括但不限于1）调整列车车头时距或增加开行列车；2）向乘客传递OD需求会激增的信息，可能会让一些乘客推迟或者改变他们的出行时间；3）实施人群管理策略，避免站台过渡拥挤。现有文献研究主要集中在短时到站流的预测，经常称为“客流”。然而，尽管车站到站流预测非常有用，但对于实现上述许多策略来说，起点-终点（OD）需求信息是至关重要的，因为它提供了乘客如何以及何时进入和退出服务的详细概况。例如，实时公交决策支持系统可用于信息发布和公交网络场景评估，该系统十分依赖于精确的OD信息。与利用最新信息的实时预测不同，基于历史平均数据的站台和列车拥挤程度预测与真实数据有很大差异，尤其是在高峰时段。这种不精确的预测结果将导致1）传送给乘客关于车辆预期拥挤程度的不精确的信息，导致乘客信任度下降；2）非最优的控制策略。这些都反映了准确预测的重要性。

在这篇文章中，作者提出了一种可扩展的、实时的、短期的地铁系统OD需求预测方法。OD需求预测与客流预测相比，一个关键的不同在于问题的维度。假设地铁网络上共有N个车站，每个时间段（每15分钟）的OD矩阵为N×N维。另外，不仅连续时间间隔的OD需求存在相关性，还受到始发站点客流量影响。大部分先前针对OD预测的工作专注于单变量模型，即每个OD流一个模型。然而考虑到问题的高维性，这种方法是不可扩展的且实际用途有限。受到深度学习在相关领域取得成功的启发，作者提出一个端到端的深度神经网络模型解决OD预测问题。文章的主要贡献如下：

作者基于地铁各站点出口客流观测值，提出一个全新的、可扩展的深度学习模型用以地铁网络实时OD流预测。
作者提出一个多分辨率的时空神经网络模型（MRSTN）以捕捉时空依赖性，模型应用离散小波转换对OD需求进行多分辨率分解。
作者在香港地铁系统（MTR）验证提出的模型，并通过实证证明该模型相对于其他基准模型具有优越性。

4.方法

1) Preliminaries

每个时间段的OD矩阵是一个二维矩阵，其中N代表地铁网络中的车站数量。具体来说，表示在时间间隔t内由车站i出发到车站j的客流需求，且出行必须是在该时间间隔内完成才能视为一次完整出行。换句话说，实际的只能在一段时间后被观察到，这取决于出行时长以及列车时刻表规划，可以为一个小时甚至更长；而到站客流预测则不存在观察滞后问题，所有的历史到站客流均可以在预测前被观测记录到。因此，需要区分模型估计阶段和实时阶段的可用客流需求信息。在模型的估计阶段，实际OD需求可以从历史AFC数据中提取出来，令为时间段t内由车站i出发到车站j的客流需求，这些出行可能直到几个时间段以后才能完成；然而，在模型的实时阶段，我们仅可以根据出站流数量统计OD数据，令表示基于出站流的OD矩阵，表示在时间段t内从车站i出发且已经从车站j出站的客流。文章的目标是根据预测，其中k表示预测步长，H表示历史时间窗。

作者提出的模型（MRSTN）由三个模块组成，模型如图一所示：一个多分辨率空间特征提取模块用于提取局部空间依赖性；辅助信息编码模块（AIE）用于捕捉外部因素的影响；以及一个用于捕捉OD需求的时间演化的模块。每个表示为一个矩阵，由两个分别独立的分支处理。在分支一中，使用离散小波转换（DWT）将OD需求沿不同时间和频率变化进行转化，以生成更加丰富的表示，该技术被广泛应用于信号和图像处理任务中，可以检测到原始数据中无法可视化的数据特性。接着使用卷积神经网络（CNN）层处理每个子输出以得到其特征编码。在分支二中，三个带有跳跃连接（skip-connection）的卷积神经网络（CNN）被用于直接学习OD需求的空间依赖性。另外，一个独立模块（AIE）用于编码额外信息，包括乘客的出发站点、天气状况以及当日时间，将这些特征映射连接起来为原始OD需求矩阵提供一个联系上下文且多视图化的表示。接着“squeeze-and-excitation”层根据特征映射对最终预测结果的影响对这些映射进行加权。模型进一步使用卷积长短时记忆网络（ConvLSTM）捕捉OD需求的时间演化特性。最后输出的特征映射依次经过两个卷积神经网络等到最终映射结果。

2) 离散小波转化（DWT）

DWT是预测任务中特征提取的有效工具。这部分是因为小波将傅里叶变换的概念扩展到更一般的正交基，通过一组在时间和频率上都是局部化的小波来表示输入信号。与傅里叶变换相比，小波有两个重要特性：多分辨率和正交性。多分辨率可以通过放大和缩小来分析图像，捕捉不同时间和频率变化，这对于分析来自多尺度过程的信号非常有用；正交性则意味着DWT通道之间没有冗余。过往研究大部分专注于单变量时间序列分析，因此仅使用一维DWT。一维DWT将信号分解为两个更高维的子层，分别是近似层和细节层。对于2D图像，行和列被视为1D信号，DWT每一轮转换中的两次传递分别在行和列进行。通常来说，子层的系数被用于放大原始输入的特征，然后输入监督学习算法中。图2表示对OD需求矩阵使用2维DWT进行一层分解后的细节图像，四个矩阵分别是近似矩阵、沿水平方向分解的矩阵、沿垂直方向分解的矩阵以及沿对角方向分解的矩阵。离散小波转换算法的具体数学原理此处不展开细述，感兴趣的读者可以翻阅原文，原文有详细的数学公式描述。

3) Multi-Resolution Spatial Feature Extraction

该模块的第一层主要使用卷积神经网络捕捉空间交互性。每个经过两个分支，第一个分支中，首先通过三个CNN块，每个块包含一个卷积层，然后是一个批次规范化层和一个ReLU激活函数。3个CNN块的滤波器个数分别为64，128和128，其大小为3×3。由于需要与输入保持一致的维度，卷积操作的步长为1，且后续不进行池化操作。该分支具体计算如下：

其中，表示卷积层的权重。在另一个分支中，一阶的2D-DWT将分解为四个矩阵以捕捉OD需求的不同时间和频率变化（如图2所示）：LL（近似矩阵）；LH（水平方向矩阵）；HL（垂直方向矩阵）以及HH（对角方向矩阵）。文章使用Daubechies 2（一种小波类型）作为初始小波，每个子层进一步经由一个带有64个3×3滤波器且步长为1的CNN层处理，接着由批次归一化层和ReLU激活函数处理。因此该分支具体计算如下：

其中表示相连操作。经由两个分支处理后得到的可学习特征映射分别相连，并使用跳跃连接（skip connection）避免梯度消失的问题。这些模块共同从OD对的局部空间依赖性中提取越为复杂多层次画的OD需求模式。

4) Auxiliary Information Encoding (AIE)

表示N维列向量，由时间段t内到达车站的乘客数表示，其中N为地铁网络中的车站数量，将该向量平铺为与相同的形状，即N×N。当日时间和天气状况同样平铺并将其沿输入张量的空间维度方向进行拼接。文章使用Dark Sky API提取实验研究期间的天气状况信息，包括正常、下雨以及下雪。作者利用one-hot编码对天气状况进行编码。这三个输入（，当日时间以及天气状况）被拼接并输入至一个卷积神经网络中。文章定义为该模块的输出。

5) Squeeze and Excitation Layer

所有先前模块的输出被拼接至一起，以提供一个多视图的信息：

将所有可用信息编码到一个C维张量。然而如果直接对其进行卷积操作将导致模型以同等重要性对待每个通道的信息。因此，作者使用Squeeze-and-Excitation（SE）模块学习张量各通道信息的重要性，该模块有效充当了门控注意力机制，可以将更多注意力权重放在对预测任务有帮助的通道信息上。具体来说，模型首先沿空间维度（H,W）使用全局平均池化操作压缩输出并生成通道级统计信息，其中第c个元素通过以下公式计算：

使用卷积滤波器生成通道级统计信息的主要缺点是它们只在其局部感受域内提取信息；相反压缩操作可以挖掘局部感受域之外的上下文信息。显著转化通过压缩操作提取整合了各通道信息，随后对其输出进行操作以捕获通道级相互依赖关系。具体来说，一个带有Sigmoid激活函数的简单门控机制通过以下公式实现：

其中，σ表示Sigmoid激活函数，表示ReLU激活函数。参数化了全连接层，该层根据缩减率r减小了输入维度。表示第二个全连接层的参数，该层目的在于将输出的维度重新恢复为c。这两个全连接层有效形成瓶颈层（bottleneck layer），被证明在提高模型泛化能力以及限制模型复杂度方面具有有效性。最终，该模块的输出表示为：

其中表示通道级乘法，表示经过SE模块的加权输出。

6) Temporal Feature Extraction

ConvLSTM是LSTM的一种变体，使用LSTM捕获时间依赖性的缺点是无法使用输入中编码的空间信息，ConvLSTM通过在输入-状态以及状态-状态的转换中使用卷积操作替代全连接操作从而解决空间信息编码的问题。ConvLSTM具体的实现公式此处不具体阐述，感兴趣的读者可以自行查阅。ConvLSTM的输出依次由两个步长为1，且滤波器个数分别为128和1的CNN模块处理以得到最终预测结果。

5.实验

文章在香港轨道交通系统上对模型的预测效果进行实验验证。

(1) Datasets and Preprocessing

MTR：香港轨道交通网络一共包含97个地铁站，乘客交易记录分别包含了乘客何时进入和离开地铁系统，从而显示了输入和输出站及其时间戳。作者使用2018年10月至11月两个月的AFC记录，包含周末一共40天。最后七天用于模型测试，剩下的用于训练模型。每一天的OD按15分钟粒度进行统计，其目的是预测未来15分钟的OD需求。

Preprocessing：为避免梯度爆炸并且加快随机梯度优化的速度，对输入进行归一化。训练过程中，根据Min-Max归一化将各个OD对的需求归一化至[0,1]，具体如下：

(2) Evaluation Metrics and Baslines

文章根据MAE和RMSE来评估文章提出模型和其他基线模型的预测性能。同时根据高峰15分钟的平均需求将OD需求划分为三个等级（高、中、低）以更好评估预测精度，划分结果如表一所示。基线模型主要为Historical Average（HA）、ARIMA、Support Vector Regression（SVR）、CNN、LSTM、ConvLSTM、ST-ResNet、MRSTN-SE-DWT-Arrivals（移除DWT模块、到达出发站点的客流以及SE模块）、MRSTN-SE-DWT（移除SE模块、DWT模块）、MRSTN-SE（移除SE模块）、MRSTN-DWT（移除DWT模块）。

(3) Comparison on the Whole Testing Sets

训练集下一个15分钟（一个时间步）的预测效果如表Ⅱ所示。完整的MRSTN在所有配置下的预测性能均优于其他模型。ST-ResNet具有很强的竞争力，尤其是在高OD需求情况下，尽管稍差于MRSTN。然而DWT层和SE层的联合效应（MRSTN和ST-ResNet模型的主要区别）对中、低OD需求预测的效果要好得多，这是因为DWT分解原始输入为多重图，可以捕捉到一些很低的OD需求对。无论是移除DWT还是移除SE模块，模型的预测性能均有所下降，但性能下降程度有所差异，这说明将非齐次信息组合为一个张量时，将各通道信息视为同等重要会导致非最优结果。

图3展示了OD需求预测与真实OD预测对比的例子。对于这些OD对，时间段与时间段间的需求波动十分明显，形成一个不光滑、锯齿的曲线。然而MRSTN学习捕捉数据的潜在趋势，避免了由于遵循锯齿形状而造成的预测损失，这也是MRSTN与其他模型相比更加优秀的原因之一。图4阐述了测试集上OD需求矩阵一天的演变过程。其中图4(a)为实际值，图4(b)为相同时段的预测值，OD对需求越高，颜色越红。可以看出MRSTN有效捕捉OD需求的空间和时间模式，尤其是中高需求的OD对。

(4) Understanding the Role of DWT

该章节对DWT在模型中起到的分解作用进行多方面描述。正如表Ⅱ和表Ⅲ的观测结果显示，DWT显著提高了MRSTN的预测精度。图5可视化了原始OD矩阵（无进行归一化）作用在第一个CNN层后得到的可学习特征映射（图5b）以及DWT分解后的四个子图（图5c）。近似子图学习到的特征映射（图5c左上方）重点关注对角线附近以及图像左侧较为繁忙的OD对，与图5b相比，特征更关注于忙碌站点。相反，另外三个子图似乎关注其他OD对。具体来说，从垂直角度和对角线角度学习到的特征中，忙碌OD对的特征权重近似为0，他们似乎更关注其他没那么忙碌的站点，这是因为DWT分解的正交特性，这意味着每个子图都希望以最小重叠率学习输入的独特特征。结果表明，与原始输入相比，多分辨率方法有利于深度学习框架学习更多微调后的特征。

(5) Incomplete Entrance-Based OD Versus Exit-Based

现有部分研究建议采用未完成的基于入口客流的实时OD数据进行OD需求预测。假设当前时刻t，我们仅可以观测到在时刻t-h前开始的旅行，所经过的时间已经足够让绝大多数人到达他们的目的地。假设和分别为由车站i到车站j的旅行时间分布的均值和方差。另外，令表示所有完整的指示矩阵，其中。如果时刻T与当前时刻t间的时长大于，那么有98%的置信度认为在出行时间服从正态分布的情况下，所有乘客已经到达他们的目的地。那么实际OD需求计算为。表格Ⅴ记录了使用上述数据输入到MRSTN后得到的结果，可以看出使用不完整的OD数据预测精度大幅下降。图6展示了地铁网络节点的出行时间分布，可以解释为什么会出行这种情况。假设以过去一个小时的数据作为输入，在98%的置信度下只有50%的旅行到达了目的地，这不仅导致OD需求矩阵及其稀疏，而且几乎没有实时信息可供模型预测调整。

5.结论

本文作者提出了一个可扩展的模型用于城市轨道交通系统中实时、短时OD需求预测。模型由三个模块组成，多分辨率空间特征提取模块，该模块用于捕捉局部空间依赖性；辅助信息编码模块（AIE）；以及用于捕捉需求时间演变的模块。作者使用香港地铁2个月的AFC数据进行大量实验，验证了模型的优越性。同时验证了基于DWT分解的OD需求多分辨率分析的重要性，以及通道级注意力模块的重要性。该模型可以作为预测决策系统中的一个重要组成部分，实现主动控制策略和先进的客流信息生成。

Attention

欢迎关注微信公众号《当交通遇上机器学习》！如果你和我一样是轨道交通、道路交通、城市规划相关领域的，也可以加微信：Dr_JinleiZhang，备注“进群”，加入交通大数据交流群！希望我们共同进步！