文献阅读笔记 | Reconstructing commuters network using machine learning and urban indicators

原文:Spadon, G., de Carvalho, A. C., Rodrigues-Jr, J. F., & Alves, L. G. (2019). Reconstructing commuters network using machine learning and urban indicators. Scientific reports, 9(1), 1-13.

原文链接:https://www.nature.com/articles/s41598-019-48295-x

Personal note

经典的SIM考虑到的用于预测flows的变量较少(距离、人口规模),这篇主要是考虑了更加复杂的变量(22个urban indicators),并且引入了机器学习,来对城市与城市之间的flows进行预测,并且分析这些indicator的重要程度。

Abstrac

Background

人员流动对社会的各个层面都有重大影响。一般将系统表示为一个复杂的网络,physics-inspired model(eg. the gravitation models,the radiation models)被用于对从一个城市迁移到另一个城市的人数进行建模。尽管这些模型取得了进步,但预测通勤人数和重建移动网络的能力仍然有限。

Contribution

使用ML和22个城市指标来预测人流,并重建城际通勤网络。

Results:

  • 基于ML和城市指标的预测准确率高达90.4%,方差为77.6%(类似于R方?)。
  • 确定了恢复网络结构的基本特征和与通勤模式最相关的城市指标:距离国内生产总值(GDP)失业率等是人们通勤的主要驱动力。

Significant of this study

  • 本研究为migration建模提供了新的思路,并强化了城市指标在通勤模式中的作用。
  • 由于链路预测和网络重建仍然是网络科学中的公开挑战,结果在其他领域也有影响,如经济学、社会科学和生物学,其中节点属性可以为我们提供关于连接网络中实体的链路存在的信息。

Introduction

人类每天都要移动。

对Human movement进行建模的重要性:

  • to better allocate resources
  • to improve the impacts of human activities in the community (nearby people) and the environment (cities and nature)

Human movement与社会之间相互影响。

所以,对Human movement进行预测可以:

  • help improve daily human activities with better urban planning
  • help policy-makers with more informed decisions to intervene in the disease spreading and crime

physics-inspired models的缺点

一般都是将系统看做一个spatial complex network,然后用physics-inspired model来预测network的edge的weight(flows)。这些模型的假设:从一个node到另一个node的人数随着它们之间的距离而衰减,并且与这些node的人口数量成比例(即描述其公式)。但是,这个假设不太能准确描述人员流动,因为其他因素(基础交通网络、社会经济方面和交通拥堵)也会增加或减少流动性,而不仅仅只有距离和人口数量。一般情况下,这些模型对于flows的预测不会很准确,而且当面对sparse mobility network的时候会高估node所连接的edges数量。因此这些限制导致这些模型经过校准之后不太能generalize到其他data来进行预测。不太能重建humam mobility network。

基于网络的Link prediction

link prediction在Network science中受到的关注挺多。大多数有关link prediction的研究是评价node之间的相似性(指标有:中心度、最短路径),并且提出缺失的link(以此来重塑网络,方法有:贝叶斯推断etc)。

上述提到这些network-based metrics和基于meta-data attributes(如:人口规模和距离)的预测模型有着很大的区别。

基于meta-data attributes的预测模型

in the context of social contact networks,有着很多这种模型的应用。

本研究的重点就是将node的attributes作为input data来生成一个用于预测link的模型,这个模型比较generalize,可以fit其他数据集

Related research and gap

最近很多有关人与城市的数据都是公开获取的(big data),如GPS轨迹数据、人口规模数据。这些数据加快了有关human mobility的研究(子领域包括:transportation networks、commuters networks和network models of migration)。

另一方面,城市指标也有很多应用(被用来描述城市的规模、衡量城市的表现、不同城市之间的相似性、以及描述与犯罪有关的现象)。

然而,关于human mobility与城市指标(失业率、GDP等)之间的联系的研究很少。这种联系体现在:了解这些指标对个人日常通勤选择的影响,有助于我们预测不同地区之间的人员流动,重构通勤网络结构。

这个research gap导致我们提出了本文要研究的问题:在考虑更加复杂的指标(indicators)的情况下,如何量化/建模城市之间通勤的人数?

Methods

(吐槽一下,Nature子刊SR(Scientific Reports)Figure/Fig都不统一呀)
在这里插入图片描述

Classical:State-of-the-art models

  • Gravitation Model
  • Radiation Model

问题:现实中-sparse network;模拟出来:a fully connected network

使用OLS来校准这两个模型,然后使用两个指标(R方Pearson相关系数)来评价这两个模型预测的能力。

ML:Alternative modelling using machine learning

  • Classification:使用二元分类,用于判断一个link存在与否
  • Regression:用于预测每对node之间的flow大小

Classification

基于两个node之间的距离、人口规模来进行二元分类。

首先,the holdout approach:将数据按照7:3分为training和testing data
然后,取样方法:stratified k-fold cross-validation

如何寻找合适的分类器?从scikit-learn和eXtreme Gradient Boosting(XGBoost)库中找了34个分类器进行模拟,最终选择了其中的27个(有一些分类器没法fit),然后根据accuracy score选择了XGBoost这个分类器。

Regression

选择XGBoost,R方为73.1%,经过hp tuning后,提升到77.6%,Gravitation 和 Radiation Model要高很多。

(吐槽错误:Figure5没有C)
在这里插入图片描述

在这里插入图片描述

Interpreting ML

ML提高预测准确度的代价是模型难以解释。

使用SHapley Additive exPlanations(SHAP)来判断indicator的重要性。对于SHAP的分析有助于我们理解城市指标和距离如何影响个人的决策过程,以及是什么让人们从一个地区移动到到另一个地区工作。

分析结果:有四个变量在classifier和regressor中都很重要:距离、GDP、Area和Traffic accident·1

(看完了记录下:)
请添加图片描述

请添加图片描述
请添加图片描述
请添加图片描述
请添加图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值