阅读1.Mobility pattern recognition based prediction for the subway station related bike-sharing trips

文章信息

本周阅读论文题目为《Mobility pattern recognition based prediction for the subway station related bike-sharing trips》,是一篇2021年发表在Transportation Research Part C: Emerging Technologies 涉及地铁网络影响的共享单车出行预测的文章。

摘要

自由浮动自行车共享系统在与公共交通系统连接方面发挥着重要作用。然而,很少有研究涉及地铁网络对BS(bike-sharing)系统的影响,并将这些特征定量地整合到BS行程预测框架中。基于对BS与城市轨道交通密切关系的观察,本研究重点研究了地铁站周围BS的行程预测。首先,基于北京BS数据集对地铁站相关站点进行了调查。其次,提取多个类别的特征,包括按聚类划分的地铁站点类别,通过张量分解(TD)提取BS站点移动性模式(mobility patterns),以及其他特征(例如,时间、POI、气象和空气质量信息)。最后,提出一种基于堆叠策略基于三层集成学习模型的方法(即SAP-SF方法),该方法集成了多种特征和几种选定的机器学习算法。它适用于同时预测北京一个涉及280个站点的大型BS系统的每小时返回单车数。并将结果与从基准模型获得的结果进行比较来检查输出性能。结果表明,地铁站点类别和站点移动模式两特征有助于BS行程预测的改进。精度可以逐层提高,优于单一机器学习算法。研究结果可以为系统管理员提供有用的信息,以执行服务水平检查并在地铁站周围重新平衡BS。

介绍

共享单车系统(BSS)分为the dock-based BSS 和 the free-floating BSS (FFBSS)两种类型。
FFBS是一种分时租赁模式,可以停放在任何合适的位置而不受泊位限制,是连接到公共交通系统的起初/最后一英里服务的方便选择,特别是当公交站不在步行范围内或车辆停车位有限时。因此,FFBSS被认为是提高城市轨道交通系统可达性和促进绿色交通的有效解决方案。
现有的对FFBSS的研究主要集中在公交系统与公共交通的关系,以及相关交通系统的效率提高效果等方面。缺乏对于城市轨道交通等公共交通方式对BS移动的影响的深入的分析。

营运BSS的一个重要基础之一是避免在相关车站/地点出现没有BSS的情况。行程预测在改进从拥挤的车站/地点到供应不足的车站/地点的再分配战略方面起着至关重要的作用。传统的基于聚合站和网格单元划分的FFBSS方法,在BS网络规模很大,有数百个站点时,要为每个行程预测单元建立单独的模型非常耗时。因此,由于BSS受多种因素的影响,且各站点(网格)之间存在差异,因此提出一种针对整个BSS的行程预测模型是一项很有挑战性的工作。

研究的主要贡献包括(但不限于):
(1)以具有实际意义的地铁车站周边回程数预测为研究重点,揭示城市轨道交通对BSs的影响,确认地铁系统与BSs的互补性。与以往的研究不同的是,预测工作试图解决BSs与公共交通系统(即城市轨道交通)的连接问题。
(2)对地铁站点类别和移动模式进行了详细的特征分析,能够反映站点BS使用与地铁站点客流之间的相似性和相关性。相关特征的提取和解释有助于解决机器学习方法中常见的“黑匣子”问题。
(3)面对这一新的问题,需要用特定的特征挖掘方法来解决。本研究采用聚类和TD技术分别获取地铁站点相关的站点类别和站点移动模式。同时,本研究将多类别特征的组合纳入所提出的预测建模框架中,并取得了显著的效果。(4)所提出的多场点同时联合预测方法可应用于大规模FFBSS。而且,在叠加策略下,显著提高了逐层的准确率,这也优于单机学习算法。

相关工作回顾

在这里插入图片描述
相关工作可以总结在表1中,这表明以往的BS预测研究较少关注其与其他交通方式(如公共交通)的相关性。研究区域的分割可能缺乏实际意义,因为预先定义了预测的研究单元。对于BSS与公共交通关系的研究难以支持生成BSS管理策略的定量决策。对BS使用特性的研究主要侧重于发现移动规律。然而,这些特性的进一步应用相对较少。在共享单车交通系统中,通勤者使用BSs来完成从公交站到家庭/工作场所的最后一英里旅程。以往针对这一实际问题的公交车站周围的BSs研究较少报道。因此,有必要采用先进的数据驱动技术,整合关键影响特征,提出一种新的、有效的与公共交通系统连接的BS可用性预测研究框架。

数据采集与分析

BS出行数据:北京(中国)14天内的300多万FFBSS订单,每条行程记录包含订单ID、用户ID、BS签到时间、起止纬度/经度等详细信息。相应的280个地铁站的信息数据:站点名称、经度和纬度。

研究旨在建立地铁车站附近的BS返回数预测模型。
地铁站附近研究区域的确定:

圆形缓冲区不同半径对应的订单密度通过公式(1)得到:
在这里插入图片描述
在这里插入图片描述
考虑地铁站周围的BSs聚集(即圆心),距离圆心越远,订单密度越低,表示受相应车站影响的BSs会减少。因此,研究选择500 m作为缓冲区的半径。随着半径的变化(即600 m和700 m),该值的小幅增加可能受到其他地铁站或BS吸引原因的影响。
在这里插入图片描述
此外,考虑到BSs的平均骑行距离(约1000米),本文以绿色点状圆圈表示地铁站周围的BSs主要使用区域,半径为1500m。

多个特征的提取

在这里插入图片描述

1.聚类划分地铁站点类型

利用BSs的小时流入(即返回数)和小时流出(即租用数),以及进出地铁站的小时客流,挖掘与地铁站类型相关的分类特征。站点每小时BSs的流入和流出可以从源数据集和目标数据集得到。此外,利用城市轨道交通的AFC(即自动收费)数据对地铁站点类型进行聚类。该数据与BS数据在同一时间采集。从15分钟间隔的原始AFC数据中提取的每个站点的流入和流出量已转化为每小时流量。
利用k-means聚类方法捕捉地铁车站客流对BS利用率的影响。详细聚类步骤如下

Step 1: Preliminaries of subway and BS data
将地铁站点的原始客流数据分为凌晨5点至下午12点运营期间的客流流入和客流流出两组数据集。采用z-score方法对平均小时流入和流出进行标准化,使各站点的不同维度值具有可比性。类似的数据处理也可以应用于BS数据。为聚类指标的计算准备了标准化流程。

Step 2: Selection of clustering features
从形态、结构和时间序列等方面引入几个指标,揭示了地铁客流的特征,即流量曲线的最大点数、偏度、峰度、峰值小时系数和平衡系数。本研究同时计算了流入和流出的指标(即每个地铁站共有10个聚类指标),具体解释如下:
(1)最大点数对应时间序列曲线中出现的波峰数,可根据客流曲线推断。
(2)偏态是通过比较客流曲线与标准正态分布来度量数据分布的不对称性。当偏度向左或向右倾斜时,偏度值可以为正或负。特别地,当偏态为0时,数据分布模式与正态分布相同。
(3)用峰度来度量客流分布的陡度。像偏态一样,它描述了概率分布的形状。峰度为0,表示流量分布具有与正态分布相同的陡度。峰度大于0表示数据分布比较陡峭,有一个尖峰。峰度小于0表示数据分布比较平坦,为平坦的峰值。
(4)高峰小时系数P用来分析一天内高峰流量所占的比例,可以分别计算出流入和流出。
在这里插入图片描述
(5)平衡系数U是测量每个站点的客流平衡程度,可以表示为:
在这里插入图片描述
Step 3: Determination of K clusters
第2步得到的10个指标可以作为特征,通过k-means方法对地铁车站客流进行聚类。通过轮廓系数法确定集群数量k。如Fig.5.,因此k=3。
在这里插入图片描述
Step 4: Data preprocessing and feature determination of BSs
BS数据的处理与第1步至第2步的地铁车站处理相似,但高峰时段系数的计算不同。由于BS利用曲线中有独特的中午峰值,故对于每个地铁站相关站点的租出和返回曲线需分别计算上午时段和下午时段的高峰小时系数,表示为

在这里插入图片描述
因此,将总共得到12个指标,用于进一步聚类每个地铁站类型的BS使用量。

Step 5: Identification of classification features
根据步骤3中得到的地铁站点类型数量,将BS站点划分为三组。针对小时BS数与地铁站客流趋势的差异,对各类型地铁站租出和回程数的BS使用曲线进行了额外聚类。使用从步骤4中提取的12个特征指标进行k-means聚类,相关过程与步骤3中描述的类似。与地铁站类型关联的集群数k也可以根据轮廓系数法确定。因此,N个子类可以通过两次聚类得到。
在这里插入图片描述

2.TD技术提取BS站点移动性模式

研究引入非负TD方法,解决了多维场地移动模式识别中的表达和挖掘问题。利用指定站点返回的BSs的目标数据集构造张量,从而最终识别每个站点的移动模式。将能够反映地铁站周边BS变化时空特征的模式作为模型预测的特征。
由于张量是一个多维数组,其中不同的维有不同的坐标系,TD可以是矩阵分解的自然扩展。Tucker分解是一种典型的TD方法,它将一个张量分解为一个核心张量,每个模乘以一个因子矩阵。每个模数上的因子矩阵称为每个模数张量的基矩阵或主分量。一般来说,TD的核心张量和因子矩阵中的元素可以是正的,也可以是负的。然而,负值显示了对现实世界问题的解释的弱点。因此,本研究采用非负Tucker分解方法。一般来说,构造的张量及其分解表达式可以表示为:

在这里插入图片描述
具体步骤:

Step 1: Construction of a three-order tensor
使用BSs的目的地(destination)数据集,张量X是7x19x280。
在这里插入图片描述

Step 2: Determination of decomposition parameters
日分解模块,根据工作日和非工作日,常将P设为2;时间段模块Q通常设为5;表示站点移动模式数量的站点分解模块U可以在已知P,Q值得条件下,用Kullback-Leibler (KL)发散法得到:
在这里插入图片描述
Step 3: Feature extraction of BS site mobility patterns
数值表达式中的模式特征被指定为离散变量。由于280个站点的模式需要与所有数据样本相匹配,280xU值将扩展到整个数据集。对于同一BS站点的小时样本,其对应模式相同;而不同的BS站点在模式特征上也有所区别。

3.其他特征的提取和处理

除了基于聚类分类提取地铁车站的特征,以及TD获得的站点移动模式,其他信息,如POI、气象和空气质量数据也被整合并用于预测建模。

POI数据被引入来代表被调查地点的土地使用情况。调查共涉及餐饮服务、景区、企业、购物服务、交通设施、金融保险、科教文化、商品房、生活服务、医疗服务、政府机构、住宿服务等12个类别。计算场地面积(即小圆)和大圆对应数字的POI类别,如图3所示。这样,就可以得到每个类别在环形区域内的POI总数,该环形区域由两个圆的边界表示。

气象数据来自公众天气网站。它们被插值为每小时的站点级气象数据,包括温度、气压、湿度、风速、风力、能见度和降水。根据中国环境空气质量标准,以空气质量指标值表示的空气质量数据分为良好(0-50)、中等(51-100)、敏感人群不健康(101-150)、不健康(151-200)、非常不健康(201-300)和有害(>300)6个等级。

预测模型

BS数据集中以12天数据作为训练集,建立模型,同时预测280个站点的BSs返回单车数。其他两天数据作为测试集,将输出与实际值进行比较,对所提出的模型进行评估。

研究基于多层集成学习模型框架开发了SAP-SF方法。在预测时,将所有站点在预测日(如第13天)的对应特征输入到SAP-SF模型中,该模型包括6类特征。最后,预测结果的输出可以表示为一个280 × 19的矩阵,表示所有280个调查点预测日的19个时段的返回数。

基础学习器的选取:W个基本机器学习算法 根据高精度但机理不同的原则进行选取,即要求各基础学习器间相关性尽可能小,性能差异不应太大。

the first-layer submodel:
输入为上述提取的6类特征,输出为每个基础学习器的预测结果。
在这里插入图片描述
the second-layer submodel:
使用z-score方法对first-layer的输出结果进行标准化,并作为第7个特征输入。输出为每个每个基础学习器的预测结果。
在这里插入图片描述
the third-layer submodel:
输入为the second-layer submodel的输出结果。
在这里插入图片描述

结果分析

1.各地铁车站类型及其站点聚类结果

根据地铁站客流数据,采用k-means聚类方法,将地铁站点分为3类。
在这里插入图片描述

针对城市轨道交通对BS使用的影响,将各类地铁站点周围调查的BS站点根据BS租出和返回数量归为几个子类别。通过与前面提到的地铁车站相似的聚类过程,利用轮廓系数法进一步确定子类别的数量。下图为每种地铁车站类型的站点聚类结果,共可生成6个子类别。
在这里插入图片描述
对于每种地铁车站类型,根据BS数据对应的使用曲线与该类型地铁站的客流曲线峰值规律是否一致,将BS分为两类。若没有相似的规律,则表明,除了该类型地铁站的影响外,可能还有其他一些因素也会影响BS的使用。

因此,与研究结果相关的聚类过程不仅可以揭示BS与地铁系统之间的紧密联系,而且可以从城市轨道交通影响的角度提取作为分类变量的关键特征进行预测建模。然后,将上述6个子类别综合到预测模型中。

2.BS站点移动模式分解结果

U值的确定:
在这里插入图片描述
在这里插入图片描述

site mobility patterns和BS返回数间相关度的验证:

此外,还进行了Spearman和Kendall检验来计算site mobility patterns(离散变量)和BS返回数(数值变量)之间的相关系数。如图10所示,除模式1的相关系数分别为0.525和0.380外,其他相关系数大多在0.1 - 0.35之间。结果表明,site mobility patterns和BS返回数字没有重叠。
在这里插入图片描述
各主导模式站点分布:
为了显示每个站点的模式贡献,矩阵元素在行方向上被归一化。对于每一行,该值描述了对应模式对站点的比例贡献。按比例值从大到小排列,比例总和大于50%的多个模式组合可视为站点的主要模式。下图显示了以相应的移动模式为主要模式的站点分布。
在这里插入图片描述
10种模式与3种典型地铁车站类型之间的相似性:
通过引入Jaccard相似系数,进一步讨论匹配了地铁站的站点移动模式,以理解该模式在现实生活中的含义。它用于衡量10种模式与3种典型地铁车站类型之间的相似性。Jaccard相似系数定义为交集的大小除以样本集并集的大小,如下所示。
在这里插入图片描述
在这里插入图片描述
10个模式对3种地铁站类型的响应的Jaccard相似系数如下图所示。
在这里插入图片描述

3.预测模型结果分析

集成学习模型基础学习器的选择:
在这里插入图片描述
利用三则交叉验证对7种基本机器学习算法得到的每小时BS返回数预测的性能在训练集和测试集上进行了比较。其中,GB、RF和BR方法在训练和验证输出方面的性能都更油费,同时三种算法在原理上存在较大差异,适合作为集成学习模型的基础学习器。(RF算法基于决策树方法,GB算法和BR算法分别基于bagging方法和boosting方法。)

SAP-SF方法的三层集成学习模型框架如下:
在这里插入图片描述
预测结果准确度分析:

分别属于5个子类别的10个选定站点的预测值与实际值之间的比较如下图:
在这里插入图片描述

下图显示调查的BS站点预测值和实际值之间的平均绝对误差。结果表明,83.87%的BS站点的平均绝对误差小于10。只有3个站点的误差值较大,在20 - 30之间,其BS返回数相对较高。
在这里插入图片描述
在这里插入图片描述
Table 3 表明,与第一层学习者相比,第二层学习者的输出性能有了明显的提高。由于在训练过程中可以在第三层子模型中对权值进行校正,因此SAP-SF的最终预测结果不仅可以优于基于个体机器学习算法的模型,也可以优于底层子模型(如:第一层和第二层子模型)。所提出的SAP-SF方法框架能够突出最优性能并消除基础学习者的较差性能。
此外,Table 3 还表明,Model 2 和 Model 3的性能都劣于Model 1 ,说明将站点类别和移动模式纳入SAP-SF方法框架,有利于提高BS返回数预测的性能。

下图将SAP-SF模型的输出性能与Lin et al., 2018; Xu et al., 2018; Wang et al., 2021.文献中推荐的其他方法 以及 时间序列特征方面的另外两个时间序列模型——ARIMAX(带解释变量的自回归综合移动平均)和HA12(复制第12天的观测值作为第13天的预测) 进行了比较。在图中,后缀为“-4”的模型表示只使用了4类特征(去除站点类别和移动模式特征);而其他项则输入所有6类特征。

结果表明,SAP-SF模型预测结果最优,同时含6类特征的模型预测精度高于不含站点类别和迁移模式特征的模型。
在这里插入图片描述

结论

针对BSS与城市轨道交通的密切关系,以及BSS出行所提供的最后一英里服务,研究地铁车站周边BSS的小时可用性预测问题。首先,基于北京地区的FFBSS真实数据集对地铁站相关站点进行了调查。然后,提取地铁站点相关站点类别、站点移动模式、时间、POI、气象和空气质量特征等多类特征进行预测建模;本研究对地铁车站客流对BS使用的影响进行了分析。基于BS出行和地铁客流数据,将站点划分为与地铁站点类型相关的6个站点类型。此外,利用TD法共识别出10种场地移动模式,利用Jaccard相似系数法识别出空间和时间维度上与BS使用行为相对应的几种典型模式。它们作为主要特征被整合到预测模型中,描述了城市轨道交通对BS使用的显著影响。

最后,结合几种选择的机器学习算法,构建了堆叠策略下的SAP-SF方法框架。将该方法应用于北京某大型BSS,可同时预测280个站点的小时返点数。对所提出的SAP-SF方法的性能进行了检验,并与其他基准模型进行了比较。结果表明,SAP-SF方法框架能够逐层显著提高预测精度,显著优于单机器学习算法模型。同时,在不添加地铁站相关站点类别和站点移动模式特征的情况下,研究结果也表明,这两类特征对准确性的提高都有帮助。研究结果可以为理解与BS出行预测的定量影响相关的关键影响因素提供有价值的见解。

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值