文章信息
本周阅读的论文是题目为《A data‑driven approach for origin–destination matrix construction from cellular network signalling data: a case study of Lyon region (France)》的一篇2021年发表在《Transportation》的涉及到手机信令数据处理的文章。
摘要
OD矩阵是交通规划和城市管理动态研究的关键。传统研究常常根据家庭出行调查,以生成大规模的个人出行轨迹的OD流量信息,但调查往往需要较高成本,并且难以更新信息。在本文中,我们提出了基于被动收集的法国罗恩阿尔贝斯地区数百万匿名手机用户的蜂窝网络信令数据来估计OD矩阵的方法。与仅仅依赖于电话使用情况的CDR数据不同,信令数据包括所有基于网络的记录,提供更高的时空粒度。这些探索的数据集,由2G和3G蜂窝网络的时间戳痕迹组成,带有用户的唯一标识符和基站位置,用于首先分析每个用户的手机活动度指标,以确认这些记录中涉及的移动信息。这些指标作为筛选标准,用于识别分析期间手机事务充分分布的用户,以便于研究其移动轨迹。然后从可以被检测到家庭位置的用户时空轨迹中提取出行信息。行程是基于最小静止时间假设得出的,该假设能够确定每个用户的活动(停止)区域。虽然可以观察到大量的人口数据比例,但仍然属于总体中的一部分,因此需要进行缩放以获得完整总体的OD矩阵。我们提出了一种执行这种缩放的方法,并表明基于OD矩阵的信令数据具有与通过旅行调查获得的类似估计。
文章介绍
Introduction。描述利用传统交通调查生成出行OD矩阵的方法,指出其不足之处,进一步提出基于大规模2G和3G蜂窝网络信令数据推导OD矩阵的方法,并说明文章的首要目标:验证大规模的信令数据能否作为便宜、可靠的数据源去推导居民个体的出行行为。
Related works。从移动手机数据在出行行为的研究以及使用蜂窝网络信令数据估计OD矩阵这两个方面介绍目前手机信令在出行方面的应用,并指出目前研究存在的缺陷。一方面使用CDR数据研究出行行为时,时间分辨率过低,导致预测不准确,而一旦三角化CDR数据,则需要面临复杂的预处理模块;另一方面,较少研究涉及生成矩阵的验证和结果的准确性,没办法提供足够的实际代表性,以此说明文章的创新性和重要性。
Data sets and study area description。首先介绍蜂窝网络信令数据,文章探索的数据集包括2017年6月份法国阿尔卑斯地区超过200万匿名手机用户的2G和3G信令数据。接着介绍交通调查数据,数据为阿尔卑斯地区当局在2012到2015年期间开展的一次出行调查,采取地理分层随机抽样法,一共确定了143000次有效出行。
Methodology。为了将移动电话的信号数据转换为可理解的OD流矩阵,文章提出了一个更完整、更灵活的工作流程。分别由居住位置识别、电话活动指标确定、基于电话活动指标筛选出行用户、出行行为识别、扩展因子定义等组成。
Results and validation。该章节主要对根据信令数据构建的OD流矩阵的潜在性质进行研究。首先介绍在矩阵扩展前典型工作日用户出行次数的分布,为了准确识别OD流,考虑了区域中最小静止时间的假设;接着比较由信令数据生成的和由出行调查生成的OD流矩阵,证明由蜂窝网络数据生成的OD流矩阵具有更低的偏差,更容易覆盖大范围地理区域;另外,文章通过斯皮尔曼系数研究由手机信令得到的OD流矩阵与EDR数据间的相似性,并且进一步通过回归分析比较每个OD对对应流量的差异,拟合得到较为精确的线性回归公式。
Discussions。该章节讨论了基于手机信令数据的大规模OD出行研究的可行性,探讨根据传统出行调查得到的OD流矩阵与手机海量信令数据得到的OD流矩阵间的相关差异,以充分阐明所提出方法的潜力和挑战。
Conclusions。总结文章的研究,对文章提出根据蜂窝网络信令数据生成OD流矩阵的方法的可行性和优越性进行说明。最后,对蜂窝网络信令数据的应用提出展望。
研究方法
本文研究旨在根据蜂窝网络信令数据构建出行OD流矩阵,完整的工作流程如下图所示:
图1 具体方法流程
首先,对收集到的手机信令数据和蜂窝网络运营商的信息进行处理,识别用户的家庭地址,接着根据手机活动指标对数据进行筛选得到满足出行要求的用户,然后根据假设将出行和居住进行分离,最后通过交通调查得到的区域地理分区以及人口普查相关数据确定扩展因子,提取并放大出行次数,并在出行调查分区级别下进行汇总,推导出OD流矩阵。
1. 用户家庭位置检测
本文对于用户家庭位置的确定,只考虑了那些居住在兴趣点区域的居民,并根据人口普查数据将得到的估计扩展到整个区域。主要估计方法如下:
筛选出发生在夜间3:00到早上7:00以及晚上10:00到凌晨3:00的用户轨迹;
保留在静止状态下发生如下设备事件的用户轨迹:(视频)通话、短信、周期性事件(位置区域定期更新);
对每个用户,提取该用户已经连接到的所有可以观测到的手机基站;
对每个用户,统计整理出观测频率最高的手机基站,将其分配到对应位置的区域,并将该区域视为用户的居住位置。
2. 确定手机活动指标
由于手机信令数据包含大量记录流,这些记录流通常是由电信供应商出于操作和技术目的被动生成,存在大量噪音,为此文章引入相关手机活动指标,确保出行分布均匀性,筛除不应包含在OD流量估算中的离群设备,指标如下:
Number of observations (NO):该指标统计日内每个终端的记录数量。
Average inter-event time (AIT):该指标用于处理单个时间数据,描述了用户连续观察的平均时间。
Maximum inter-event time (MIT):该指标描述了单个用户连续观察的最大间隔时间,因为夜间设备比其他时间更不活跃,因此不建议在深夜和清晨时间段统计MIT。
Entropy (H):该指标测量24小时内每个用户的信令事件数的均匀性,提供了关于时间分布的更精确信息。
3. 用户筛选
为了正确选择合理的出行轨迹,需要对手机信令数据进行预处理,根据上述提到的手机活动指标对数据进行筛选,条件如下:
Maximum inter-event time (MIT) < 180 min:文章认为基于网络的测量应该设置最长连续观测时间,以确保居民在某区域的停留时间是在白天期间。
Entropy (H) < 0.9: 文章认为熵值高于0.9的设备在24小时内的观测分布十分活跃,且过于均匀,这部分设备很可能不是人为操作,因此需要筛除。
Number of observations (NO) > 4: 该条件根据设备停留位置以及行程定义所设置,要确定已进行的活动至少需要两次观察,由于需要两个活动地点(出发点和目的地)确定一次出行,所以每个用户至少需要4个观察记录。
4. 出行检测
对每个用户,提取所有观测到的位置,将各个位置依次关联到相应的EDR分区上。
按时间戳对提取的位置进行序列排序。
提取在某个EDR区域内连续停留时间t超过最小停留时间的位置,得到出行位置。
评估用户活动地点之间的路径作为用户出行行程,每次行程(U, O, D)由用户ID、出发地O和目的地D表示。
5. 扩展因子确定
尽管分析的手机用户样本数量很大,但并不能代表城市的全部人口,因此需要确定人口扩展因子,便于计算整个人口的流动量。为了方便,居住在特定区域的居民具有相同的权重。扩展因子相应公式如下:
经过计算可以发现,研究区域中的大城市区域往往具有更高的权重,其中一个潜在原因是这些地区使用4G网络的用户数量要高于其他地区,而文章的研究主要针对2G和3G用户,所以获得较大的扩展因子。计算得到的扩展因子空间分布如下:
图2 用户筛选过后扩展因子的空间分布
结论与验证
出行频率分布
文章选取了两个固定最小出行时间阈值(30分钟和60分钟),研究其对用户出行频率的影响。根据结果显示,不管是哪种情况下,大多数用户都有合理的少量出行,且阈值越大,行程频率越低,出行次数越少,基本符合预期。其不同阈值下出行次数的概率分布如下:
图3 不同阈值下用户出行次数概率分布图
2. EDR分区下的OD矩阵研究
文章依照EDR分区研究由信令数据推导出的OD矩阵与出行调查得到的矩阵间的相同和差异。经过分析,在出现调查中,仅得到不到一半的OD出行对,而基于手机信令数据则获得了将近95%的OD出行信息,这说明基于出行调查构建的OD矩阵不可避免的存在抽样偏差,同时耗费成本也很高。相比之下,从蜂窝网络数据中获取大量样本的成本较低,而且更容易覆盖大规模地理区域,减少了分区零出行单元的问题。具体OD对分布如下:
图4 不同阈值下的OD对分布情况
3. OD流矩阵比较
为了保证每个区域有足够数量的OD对,文章将77个EDR区域按地理分布聚合成14个宏区域以生成相关的OD矩阵,这样一来每个区域就有足够的行程数。由于重点是研究区域间流动,因此文章去除了区域内对,在宏观区域上对两个OD矩阵进行相关性分析。根据不同时间阈值构造的OD矩阵如下:
图5 不同阈值下手机信令数据和EDR数据生成的宏观区域OD出行分布图
一方面,文章选取斯皮尔曼等级相关系数研究宏观区域上两个矩阵的相关性,结果是ρ=0.95,表明尽管使用不同手段生成OD流矩阵,但二者的形状和分布非常相似;另一方面通过回归分析对每个OD对流量进行比较,有助于帮助我们在缩放步骤以后,在两个矩阵每个单元行程数之间确定一个比例系数。研究发现,使用较大范围的分区会导致抽样偏差的减少,在准确性上有显著提高;同时剔除OD流动过于频繁的OD对以后再进行回归,R2达到了95%,匹配结果良好。具体回归方程如下:
这表明文章提出的基于家庭位置定位、出行用户筛选以及扩展过程的完整的OD矩阵构建流程具有较高的准确性,可以作为职住研究的一个有效方法。同时结果也表明,模型具有较强鲁棒性,适用于不同的社会人口分布区域。
总结
这篇文章提出了一种基于(1)手机海量数据集(2)数据预处理(3)验证结果的数据驱动建模方法,并应用于法国阿尔卑斯地区的2G和3G手机信令数据集上。通过广泛的评估和验证,表明在宏观区域上,使用该模型得出的OD流矩阵与出行调查得到的矩阵具有很强的相似性。同时研究结果表明,蜂窝网络信令数据可以捕捉更多未知的OD流模式,因此可以用来作为传统出行调查的支持和补充,用于OD估计,从而显著改善和改革出行需求和交通流建模领域。
Attention
如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!