基于互联网位置数据的通勤特征挖掘技术

7f8caedbe0a2cb44d225eb4b961d2728.png

写在前面:

针对传统通勤特征测算中存在的不足,作者提出一种基于互联网时空大数据的通勤特征挖掘技术框架,并将通勤特征数据应用于全国主要城市通勤监测报告和国土空间规划等方面。结果表明,基于互联网位置数据的通勤特征与抽样调查获得的通勤特征具有一致性,且能够以大样本、低成本、高空间精度提供高频更新的通勤监测指标,是对传统方法的有效补充和强化。

09b4166f1df7f77ead2fd1e423f9e28b.png

阚长城

百度时代网络技术(北京)有限公司 百度慧眼技术架构师

随着时空大数据在规划领域相关研究、实践的涌现,大数据已经成为规划行业不可或缺的重要组成部分。在全国人口流动迁徙分析、城市群识别与城市群内部城市网络节点分析、都市圈范围识别与中心体系构建、社区生活圈规划等各层次规划研究中,时空大数据都有广泛应用。在国土空间规划改革的背景下,构建规划实施监督体系已成为促进国土空间规划有序实施的重要手段与保障,通过时空大数据将人的活动纳入监督体系是重要的趋势。

通勤特征是衡量城市空间布局合理性及宜居性的重要方面,是应当纳入规划实施监督体系中进行定期监测的重要内容。传统上获取出行者通勤特征主要采用问卷调查的形式。文献[1-3]在不同城市采用问卷调查,对居民通勤的空间特征、出行成本、方式选择等方面进行探讨,在优化城市空间结构、鼓励低碳交通等方面提出政策建议。问卷调查不仅可以获取通勤出行的空间位置信息和出行信息,还可获取通勤者较为丰富完整的社会经济背景信息,但缺点是采集成本较高,不利于大规模展开,不适用于在整个城市层面进行通勤研究。虽然中国部分大城市已形成5~10年开展一次大规模居民出行调查的机制,但时间间隔较长,不支持通勤特征的高频更新与连续监测,调查年限、范围、抽样方法不尽相同,对不同城市间的横向对比也造成困难。

随着大数据技术发展,车辆GPS数据、公共交通IC卡数据、手机信令数据等时空连续性好、在不同城市都可普遍获取,为实现通勤监测提供了新的可能性。文献[4]以出租汽车GPS数据为基础,识别通勤出行并分析其空间特征;文献[5-6]使用公共交通刷卡数据结合公共汽车GPS数据对北京市职住关系和通勤出行进行分析,并评价职住分离的空间差异。然而,利用GPS数据开展通勤研究仅能获得部分出行方式的通勤特征,用于分析整个城市的通勤特征存在系统性偏差。手机信令数据可覆盖大部分人群,利用其开展通勤研究是近年来的研究热点。然而,手机信令数据提取的用户通勤特征以空间特征为主,难以拓展到通勤时间、通勤方式等方面;手机信令数据分布在各运营商,不同城市间的可对比性较差,且定位精度与基站位置分布密切相关。与互联网定位相比,手机信令定位精度差,互联网定位精度一般在40m之内。

本文采用互联网定位、地图数据及路径规划相关信息,围绕如何利用时空大数据呈现城市通勤的全貌,如何用人的活动呈现空间特征与规律等关键性问题,构建了基于百度地图时空数据的通勤特征挖掘技术体系,以机器学习算法系统挖掘通勤OD、通勤时间、通勤距离、通勤方式等通勤特征。

数据与技术路线

 1 

数据源

本文使用互联网位置服务、兴趣点(Point of Interest, POI)、用户画像、用户行为等基础时空大数据,每类数据在处理各环节均采取匿名化,各环节及输出均不涉及个体隐私。

1)互联网位置服务数据。

百度地图日均位置服务请求次数超过1200亿次,每月活跃智能设备数超过12亿台,涵盖全国各级行政区划。位置服务数据是通勤特征挖掘的基础,主要用于通勤OD、通勤时间、通勤方式的挖掘。定位数据一方面辅助提取样本,包括常驻点(居住地、就业地等)提取,小汽车、轨道交通、公共汽车、自行车、步行5类通勤方式样本提取;另一方面用于构建特征数据,包括常驻点中定位数量、定位时间分布等特征,通勤方式挖掘中定位点数量、速度中位数、最大和最小速度等特征的构建。

2)POI数据。

POI数据主要用于通勤OD和通勤方式的挖掘。一方面用于通勤OD特征构建,包括居住小区、工作写字楼、POI功能混合度等特征;另一方面用于通勤特征的计算,如公共交通便利性特征,包括居住地、就业地与公共汽车站和轨道交通车站的距离,居住地、就业地附近的公共汽车站和轨道交通车站数量等。

3)用户画像数据。

用户画像包括性别、年龄、资产状况、教育水平、消费水平、收入水平等维度,用于通勤OD和通勤方式的挖掘,构建通勤OD挖掘中是否退休、职业等特征,构建通勤方式挖掘中年龄、教育、消费和收入等特征。

4)用户行为数据。

用户行为数据包括地图中各类功能的使用情况,一方面用于辅助提取通勤OD和通勤方式挖掘的样本,另一方面用于不同通勤方式中地图功能的使用天数、使用次数等特征的构建。

 2 

技术路线

综合研究目标和研究数据,确定如图1所示的研究框架。本文基于定位数据、路径规划、用户画像、用户行为数据,利用空间聚类DBSCAN算法对定位点聚类,得到多个独立的用户簇;对用户簇提取定位、用地属性、用户画像等超过60个特征,利用XGBoost(eXtreme Gradient Boosting)等机器学习算法对用户簇进行分类,得到居住地、就业地、游憩地;基于居住地和就业地提取通勤OD,基于居住地、就业地、定位、用户画像等数据,提取用户画像、公共交通便利性等71个特征,利用机器学习算法挖掘通勤方式;基于通勤OD、定位时间、路径规划等数据,挖掘通勤距离、通勤时间、交通可达性,构成通勤特征数据;基于上述通勤特征指标数据,进一步应用到全国主要城市通勤监测报告、城市体检、国土空间规划等项目中。

807257990ee598d60b549e1aaabafae0.png

图1 研究框架

通勤OD挖掘

掌握全面准确的城市通勤OD分布,从长期看有利于优化城市空间格局,从源头上治理各类交通拥堵;近期看为解决各类交通问题提供重要数据支撑,有助于实现城市交通治理精细化、精准化。通勤OD挖掘首先要识别居住地和就业地,根据用户的常驻点进一步测算用户的通勤OD。

 1 

常驻点挖掘

基于6个月的互联网位置数据,整合去隐私化的位置、POI等多源数据,提取位置属性、时间分布等超过60个特征,基于GBDT,XGBoost算法挖掘得到精度高、覆盖广的常驻点数据,包括居住地、就业地、商圈和其他地点。

常驻点识别方法为:1)首先接入去隐私、匿名化的互联网位置服务数据,过滤异常噪声数据,进一步识别定位点所处的状态是停留还是运动;2)根据定位点所处的状态,去掉运动过程中的位置数据,保留停留状态的位置数据;3)利用空间聚类算法DBSCAN对停留状态的数据进行空间聚类,形成多个独立的用户簇,作为居住地、就业地的候选集合;4)对每个用户簇提取特征,运用预先训练好的模型进行分类,判断该用户簇是居住地还是就业地;5)最后利用分类标签、停留天数和最近所处位置等进行综合判断,例如居住地为用户簇中分类标签为居住地且夜间停留天数最多的簇,就业地为用户簇中分类标签为就业地并且工作日白天停留天数最多的簇,模型输出用户的居住地和就业地。

模型生成分为样本提取、特征工程、模型训练三个步骤。

1)样本提取。

基于位置服务数据、用户标注、POI数据,再结合用地属性(居住用地、商务用地等)数据,提取居住地、就业地、其他3类样本。

2)特征工程。

提取定位属性、时间分布、用户画像、用地属性、Wi-Fi属性5类60多个特征。设备在哪些地点停留的天数和平均时长比较多,说明这些地点是用户比较常去且有意义的地点,而不是偶然经过或短暂停留的地方;设备在夜间还是白天定位,工作日还是周末定位,对居住地、就业地的判断至关重要,例如用户在晚上或周末停留的地点可能是居住地,而在工作日白天停留的地点是就业地的概率更大;设备在居住地一般只连接一个无线网络,在就业地可能连接多个无线网络,设备连接的无线网络对居住地和就业地的判断至关重要;簇所在的位置上写字楼、居住小区、购物中心等地理位置信息用于辅助判断该簇是居住地或者就业地。

3)模型训练。

针对样本提取的多维特征数据,本文使用贝叶斯、SVM、随机森林、XGBoost等机器学习算法进行常驻点识别模型训练,并通过交叉验证的方式测试不同算法在样本上的准确率、召回率等指标。上述分类算法的效果从优到劣的排名依次是:XGBoost、随机森林、SVM、贝叶斯。

常驻点识别模型训练完成后,需要进一步基于测试集数据对训练好的模型进行评估。评估指标使用准确率和召回率,以居住地为例,准确率指模型预测为居住地的数据中样本标签也为居住地的比例,召回率指样本标签为居住地的数据中被正确识别为居住地的比例。评估结果显示:在测试集上,常驻点模型对居住地样本的识别准确率为91%、召回率为92%,对就业地样本的识别准确率为88%、召回率为87%,对其他类型样本的识别准确率和召回率均为89%。

基于上面挖掘的全部居住地样本,利用ID Mapping技术,结合《中国统计年鉴》人口年龄结构分布还原常住人口。该常住人口具有精度高、覆盖广、动态更新等优势,覆盖全国超过13亿常住人口,做到月级更新,用户搬家或换工作在一个月内即可识别。在以往的人口研究中,百度慧眼常住人口数据的可靠性得到了多次验证。例如,青岛市城市规划设计研究院通过对20个居住小区的走访调查,分析百度人口与年鉴人口的分布差异,发现百度人口的平均误差不到10%,优于传统人口统计方式[7];宁波市自然资源和规划局对比了封闭管理的宁波工程学院(杭州湾汽车学院)校教务处提供的学生统计数据,发现百度慧眼大数据在总的人口数据上的偏差仅为1.46%,在人口位置定位和人口画像上与学校真实情况基本相符[8];百度慧眼天津规划院联合创新实验室将百度慧眼提取的职住及通勤信息与天津市2017年居民出行调查数据进行指标对比分析,发现两组的相关性达到0.8,距离分布曲线拟合度较好[9]。

 2 

通勤OD测算

在常驻点识别的居住地和就业地基础上,进一步测算通勤OD数据。将定位点按时间先后顺序形成一个时空序列,判断定位点是否在居住地和就业地附近200m,若符合该距离条件则增加居住地或就业地的标签。从居住地出发后到达就业地或反向,定义这两种情况中间途经的地点序列为通勤OD,其他地点序列则为非通勤出行被过滤。在此基础上过滤异常的OD数据,包括出发地和目的地间隔时间过长、序列中有明显偏离设备常驻点的异常点等情况。

通勤距离挖掘

通勤距离是居住地与就业地之间的距离,包括直线距离、曼哈顿距离、路网距离等。城市或中心城区通勤人口的平均通勤距离是城市职住分离测度和通勤运行成本的体现,平均通勤距离越大,城市运行成本越高,需要更高效的通勤交通来支撑。

两点之间距离的最简单刻画是直线距离,平面坐标系下也叫欧式距离。而在现实世界里,两点之间的直线距离使用球面坐标系下的球面距离来表示。球面距离能在南北不同纬度下更加准确的度量两个位置之间的直线距离。通勤椭圆是衡量某个区域人口方向分布的重要手段,球面距离是计算该指标的基本变量。过剩通勤是评价某个区域职住分离度的重要指标,球面距离同样是其核心变量。

直线距离简单有效,但是现实世界里,大多数区域间并不能直线可达。此时,曼哈顿距离能更好地表达所谓的距离。曼哈顿距离又叫出租汽车距离或街区距离,出租汽车驾驶员计算从一个位置到另一个位置的距离时,通常直接用街区的两个坐标分别相减,再相加,该结果就是开车需要通过的街区数量。评估区域通勤距离时,曼哈顿距离通常具有更好的解释性。此外,曼哈顿距离依赖坐标系统的转度,而不是在坐标轴上的平移或映射,曼哈顿距离的具体计算仍然在球面坐标系下进行。

曼哈顿距离已经能很好地解释现实世界的距离。但是随着技术的发展,仍然希望充分利用现有数据与技术,把距离的刻画做到极致,这便是路网距离。基于全国的路网及路况数据,百度地图的路径规划服务能准确地评估从A地点到B地点的距离信息,并充分考虑路线改道、封路等情况,可以得到完全依照路网刻画的通勤距离。这份数据能更加准确地测量当前状态下整个城市的通勤距离、更好地度量通勤成本。

基于地图路网数据,利用路径规划技术测算路网通勤距离的具体流程如图2所示。首先获取全城的500m网格间的路径规划数据,包含小汽车、自行车两种方式的路径规划数据。计算的整体思路为:根据网格间的路径规划距离近似算作点到点之间的路网距离,而这个距离可以近似看作用户的路网通勤距离。路网距离能更加真实地反映两个区域之间的实际距离,这一点在网格距离过大时表现更为明显。其中有一些异常点位,并不能通过路径规划数据获取对应的距离,这时仍然使用该用户的曼哈顿通勤距离作为其最终的通勤距离。经过以上步骤,则有包含曼哈顿距离、欧式距离、球面距离、路网距离四种通勤距离可供数据分析师使用。

42c56ab6bdff6a63ba64178c9541e5a7.png

图2 通勤距离挖掘流程

通勤时间挖掘

通勤时间是出行者在通勤过程中花费的时间成本,通勤时间影响着人的幸福感,同时影响城市的运行效率。城市平均通勤时间越长,城市运行成本越高。城市的平均通勤时间、45min以内通勤时间占比是城市体检中的重要参考指标。

通勤是一种极具规律性的行为,利用这种规律性对一段时间的用户定位数据进行聚合,能计算出用户准确的通勤时间。通勤时间挖掘分为三步:1)从定位数据中挖掘出单日出行OD数据。2)对单日出行OD数据进行筛选,过滤从居住地到就业地,或者就业地到居住地的单日通勤OD数据。单日通勤OD数据是全量通勤OD数据的一个子集,包含抽样的用户通勤行为数据。3)将3个月的通勤OD数据进行聚合,计算出全量去重的用户通勤OD数据。这份数据包含全国经过优化的用户通勤起终时间点、时长等信息,能满足对通勤时段、通勤时长维度的分析需求。

图3展示了基于3个月通勤OD数据挖掘通勤时间的流程。整个处理过程分为两步:

736d159187fb805466f98ead6f778a26.png

图3 通勤时间挖掘流程

1)异常值过滤。将单日通勤OD数据分为早上(6:00—11:00)和晚上(17:00—22:00)两个时段。通过统计分析用户3个月能挖掘的单日通勤OD次数,过滤统计规律少于n次(n取5,去掉低于30%分位数的数据)的用户,保留高质量的用户通勤OD数据。

2)针对高质量通勤数据进行统计规律分析。首先,根据异常速度值、z-score异常值检测等策略进行单日通勤异常值过滤。然后,聚合计算某用户的出发时间点和到达时间点分布。以出发时刻为例,首先获取频度最高的小时作为该用户的最终出发小时;然后,获取此用户对应小时下的所有分钟组成的列表;使用分位数过滤分钟列表两端数据后,用时刻均值作为最终出发时刻。到达时刻以类似方式得到。最后,用户的通勤时间等于聚合的到达时刻减去聚合的出发时刻。这份通勤时间数据包含早、晚通勤的起点和终点时间点信息,对于城市通勤成本分析、区域加班情况分析、城市夜生活分析等场景都有很大帮助。

通勤方式挖掘

构建通勤方式挖掘样本集,基于互联网定位、POI数据、用户行为、常驻点、用户画像5类基础数据,提取小汽车、轨道交通、公共汽车、自行车、步行5类共计42万个样本集。

通过对样本集及其特征分析,结合交通调查数据可以发现,不同通勤方式的用户在时空大数据中呈现迥然不同的特点,而这些差异正是提取特征、构建分类数据集的基础。

以通勤距离分布为例,小汽车、轨道交通、公共汽车、自行车和步行样本之间存在明显差异,骑行和步行的通勤距离偏短,公共汽车和轨道交通的通勤距离偏长,驾车通勤的距离分布则较为分散。据此,可以将通勤距离作为分类的一项特征。

采取这一思路,本文设计了4大类71个特征,综合目前主流移动互联网相关数据,刻画用户的通勤行为。4类特征包括:定位特征7个、用户画像特征6个、用户行为特征45个、公共交通便利性特征13个。构建兼具广度和深度的特征集为通勤方式挖掘提供充足的证据。

构建通勤方式挖掘分类模型,基于贝叶斯、SVM、决策树、随机森林、GBDT、XGBoost等机器学习算法,使用样本集和71个特征进行模型训练,并对不同的机器学习算法进行对比、测试和评估。XGBoost算法准确率和召回率最优,整体超过87%。

确定分类模型后,对全国所有城市中的用户通勤数据进行分类,输出超过6亿用户的通勤方式数据。将个体数据按照一定的空间单位进行聚合,可以统计出每一空间单元中各类通勤方式的人数和比例。北京市部分区域通勤数据如表1所示。

表1 北京市部分地区通勤出行方式数据一览

c162131143b84faf6280f2d66e735420.png

交通可达性

用户给定起点和终点,地图返回两点间分交通方式的路线,即为一次路径规划;地图路径规划含小汽车、公共汽车、自行车和步行四种方式。地图路径规划包括算路和排序两个过程。在算路阶段,首先根据分交通方式线路的属性信息和交通成本,构建线路权值拓扑图,然后利用图搜索算法进行路径匹配,返回一定数量的备选路线;在排序阶段,结合海量用户的出行偏好分析,建立基于时间、换乘、步行、交通类型等要素的路线选择规则,并对初步返回的备选路线进行排序和筛选,最终得到最优路径规划路线的排列。

利用路径规划功能,可对通勤时间、通勤距离的获取提供有效支撑。然后,结合人口与就业岗位可进行不同地区的交通可达性分析,研究不同区位交通可达性与人口及就业岗位聚集的关系,发现交通网络布局存在的薄弱环节,并将城市更新与开发引向更有潜力的高可达性区域。针对交通规划中作为技术工具的交通模型,路径规划获得的各方式出行路径信息可用于校核或取代其出行成本,提高出行分布、方式划分模型的参数标定精度,并有潜力整体提升现有交通模型的数据精细度和空间精细度。

写在最后

本文针对传统通勤特征测算中存在的不足,提出一种基于互联网时空大数据的技术框架。通过融合多源互联网定位、地图等时空数据,利用机器学习算法挖掘通勤OD、通勤距离、通勤时间、通勤方式、交通可达性等通勤特征数据。经验证,本方法较传统方法有准确度高、覆盖广、更新速度快、空间精度高等优势,是对传统方法的有效补充和强化。基于上述通勤特征指标数据,进一步应用到全国主要城市通勤监测报告、城市体检、国土空间规划等项目中。

下阶段将以通勤特征为基础进一步构建反映通勤规律的分析模型,量化不同因素对通勤职住地、通勤方式选择的影响,优化城市空间结构,并以通勤OD为基础,将OD分析扩充至全出行链,为提高出行调查精度、15min生活圈设施评估与规划提供高质量的数据支撑;围绕轨道交通车站,分析车站及轨道交通出行与周边设施及人员活动的关系,为高质量TOD发展、建设轨道上的城市提供数据引导和支撑。

参考文献(上滑查看全部):

[1] 干迪,王德,朱玮.上海市近郊大型社区居民的通勤特征:以宝山区顾村为例[J].地理研究,2015,34(8):

[2] 黄晓燕,刘夏琼,曹小曙.广州市三个圈层社区居民通勤碳排放特征:以都府小区、南雅苑小区和丽江花园为例[J].地理研究,2015,34(4):751-761.

[3] 秦波,朱巍,董宏伟.社区环境和通勤方式对居民心理健康的影响:基于北京16个社区的问卷调研[J].城乡规划,2018(3):34-42.

[4] 付鑫,孙茂棚,孙皓.基于GPS数据的出租车通勤识别及时空特征分析[J].中国公路学报,2017,30(7):134-143.

[5] 龙瀛,张宇,崔承印.利用公交刷卡数据分析北京职住关系和通勤出行[J].地理学报,2012,67(10):1339-1352.

[6] 龙瀛,崔承印,张宇,等.利用公交一卡通刷卡数据评价北京职住分离的空间差异[C]//中国城市规划学会.多元与包容:2012年中国城市规划年会论文集(01.城市化与区域规划研究).北京:建筑工业出版社,2012:32-44.

[7] 青规院大数据中心.百度大数据与多源数据的人口校核分析[EB/OL].2018[2020-07-02].https://mp.weixin.qq.com/s/jJR8lvJC75ziKxwKLB2VnQ.

[8] 李宇,田轲.【百度大数据人口统计全新探索】城市人口时空分布研究新视角新工具[EB/OL].2017[2020-07-02].https://mp.weixin.qq.com/s/2M80pzpVCubhitqC2b23EQ.

[9] 天规院&慧眼.天津通勤与职住关系研究[EB/OL].2018[2020-07-02].https://mp.weixin.qq.com/s/xx-e6auafP_2egWkn8Hczw.

《城市交通》2020年第5期刊载文章

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值