利用公交刷卡数据分析北京职住关系和通勤出行

01

文章信息

《利用公交刷卡数据分析北京职住关系和通勤出行》,本篇文章于2021年10月15日发表于《地理学报》。

02

摘要

基于位置服务 (Location Based Service,LBS) 技术为研究城市系统的时空动态规律提供

了新的视角,已往多基于移动通讯 (GSM)、全球定位系统 (GPS)、社会化网络 (SNS) 和无线宽带热点 (Wi-Fi) 数据开展研究,但少有研究利用公交IC卡刷卡数据进行城市系统分析。普遍存在的LBS数据虽然具有丰富的时间和空间信息,但缺乏社会维度信息,使其应用范围受到一定限制。本文基于2008年北京市连续一周的公交IC卡 (Smart Card Data, SCD) 刷卡数据,结合2005年居民出行调查、地块级别的土地利用图,识别公交持卡人的居住地、就业地和通勤出行,并将识别结果在公交站点和交通分析小区 (TAZ) 尺度上汇总:① 将识别的通勤出行分别从通勤时间和距离角度,与居民出行调查数据和其他已有北京相关研究进行对比,显示较好的吻合性;② 对来自3大典型居住区和去往6大典型办公区的通勤出行进行可视化并对比分析;③ 对全市基于公交的通勤出行进行可视化,并识别主要交通流方向。本研究初步提出了从传统的居民出行调查和城市GIS数据建立规则,用于SCD数据挖掘的方法,具有较好的可靠性。

03

本文贡献

本文贡献主要体现在三个方面:① 使用传统调查和GIS数据建立规则,对SCD进行数据挖掘和模式识别,进而用于研究城市空间动态的方法,可以充分利用传统数据与“新”数据之间的长项,共同用于城市研究。② 采用连续一周的SCD研究北京市的通勤形态,利用决策树的方法对分日识别结果进行了综合,相较于仅使用一日数据进行分析结果更为可靠。③ 与传统的问卷调查和居民出行调查相比,更详细地展示了北京市通勤出行的特征,与其他调研结果相比,本文所获得的通勤出行具有样本量大、时空信息准确的优点。总体上,本文内提出的SCD分析方法在城市空间动态研究,尤其是通勤特征分析中有很好的适用性,为大都市区通勤研究提供了一种新的分析思路。

04

数据

1. 公交线路和公交站点GIS图层用于将SCD进行空间化。

2. 本研究引入地块 (Parcel) 级别的土地使用现状图 (2007年) 作为识别居住地和就业地的依据之一,该图层包含每个地块的土地使用功能和建筑面积属性。

3. 本文所利用SCD为2008年4月北京市完整一周(周一至周日)的刷卡记录。其中分段计价的线路的SCD记录了持卡人的完整刷卡时空信息。一票制线路只有部分出行信息,难以识别职住地,但一票制线路不会影响两次分段计价线路之间乘坐一票制线路这种情况的识别结果。

4. 北京市在 1986 年、2000 年、2005 年和 2010 年分别进行了 4 次居民出行调查。本文利用2005年的居民出行调查数据 用于支持 SCD 的数据挖掘。该调查涵盖了北京市18个区 (县) 共1118个TAZ的基础地理数据。

05

方法

数据预处理和数据模型

数据预处理:利用公交站点GIS图层,基于刷卡记录对应的线路和站点信息,对SCD进行空间化,然后将每个持卡人连续一周的刷卡记录进行合并,得到每个持卡人一周的公交出行日志。

数据模型:

1) 出行(TRIP)数据模型:一次出行可以表达为出发地点{OP}、出发时间{OT}、到达地点{DP}和到达时间{DT}的集合。

2) “地点-时间-时长(Position-Time-Duration,PTD”数据模型:可由TRIP数据模型转换得到,PTD={P,t,D},P代表一个公交站点,t代表在地点P的开始时间,D代表地点P的持续时间。

基于一日SCD识别职住地

1) 居住地识别:假定首次出行的出发始点为持卡者的居住地,对于首次出行乘坐一票制公交车的持卡人,无法识别居住地。

2) 就业地识别:假设全职工作是一天中时间最长的活动,如果满足下面的条件,第k个地点的Pk地可以视为持卡人的就业地。条件一:卡片类型不是学生卡;条件二:Dk ≥ 360;条件三:k <> 1。如果持卡人在某地停留的时间超过360 min (6 h) (首个地点即居住地除外),可认为该地是持卡人的就业地。

基于一周SCD识别职住地

本文使用基于规则的方法和决策树的方法对每日的结果进行综合,该过程同时考虑了每个职住地的频率(即一周内识别的次数)和空间分布。(识别最终就业地的方法与下图居住地的识别方法相同。在确定最终居住和就业地的过程中,使用的是完整一周的数据,而非仅仅是考虑从工作日)

5b1fa49a28cbfea187659b350dba45b6.png

如果两个站点出现频率一样,为了确定最佳的最终居住地,引入“居住潜力 (Residential Potential)”和“就业潜力 (Job Potential)”概念,分别表示一个站点属于居住或就业地的概率,二者是基于土地使用现状数据计算得到的,具体公式为:

f498046c421c42971fc4746f9f6ab447.png

基于职住地识别通勤出行

基于识别的最终职住地,使用TRIP数据模型识别从居住地到就业地的通勤出行。

通勤距离:通过公交站点GIS图层生成的公交线路网络距离计算,或者计算职住地之间的欧氏距离。

通勤时间:在居住地上车和在就业地下车之间的时长。

对于一位持卡人,如果满足如下3个条件,① 一天中首次出行的上车地点为居住地;② 就业地出现在 一日出行中;③ 居住地和就业地在同一天 (在同一集群中的站点视为相同),则可以成功 识别通勤出行。需要指出的是,如果某持卡人一周内可识别的通勤出行超过一次,则一周内的通勤时间可能有所不同,则将平均通勤时间作为最终的通勤时间。

06

结果分析

使用两种工具进行数据挖掘和可视化:① 由于原始 SCD 存储在 MS SQL Server 中,因此使用结构化查询语言 (SQL) 进行数据预处理和数据模型生成,以提高运算效率;②将处理过的 SCD 和 2005 年调查、GIS 图层统一存储在 ESRI ArcGIS 的空间数据库(Personal Geodatabase) 中,并基于 ESRI Geoprocessing 模块采用 Python 脚本语言进行开发,用于识别职住地和通勤出行,并对通勤出行进行可视化。

5be044610c797230478afcb74f77c8a8.png

为了更好地展现北京市的通勤出行形态,将识别的通勤出行进行空间化,每条线代表一个通勤出行,通勤时间、通勤距离和持卡人的ID记录在GIS图层的属性中。可视化结果如下:

dcb02de348b59bf7ab0b87d0f2844fc6.png

0858bee7fdfd530dbb41190be027f19f.png

07

ATTENTION

如果你和我一样是轨道交通、道路交通、城市规划相关领域的,可以加微信:Dr_JinleiZhang,备注“进群”,加入交通大数据交流群!希望我们共同进步!

  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

当交通遇上机器学习

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值