2018-GCNs for human activity purpose imputation from gps_based trajectory data

[1] Martin H, Bucher D, Suel E, et al. Graph convolutional neural networks for human activity purpose imputation from gps-based trajectory data[J]. 2018.

摘要

Automatic location tracking of people has recently become a viable source for mobility and movement data. Such data are used in a wide range of applications, from city and transport planning to individual recommendations and schedule optimization. For many of these uses, it is of high interest to know why a person visited at a given location at a certain point in time. We use multiple personalized graphs to model human mobility behavior and to embed a large variety of spatiotemporal information and structure in the graphs’ weights and connections. Taking these graphs as input for graph convolutional neural networks (GCNs) allows us to build models that can exploit the structural information inherent in human mobility. We use GPS travel survey data to build person specific mobility graphs and use GCNs to predict the purpose of a user’s visit at a certain location. Our results show that GCNs are suitable to exploit the structure embedded in the mobility graphs.

  • 目的:找出为什么一个人在某个时间点访问了某个地点 == 推断出行目的 == 判断活动类型
  • 方法要点:
      1. 使用多个 个性化模拟人类的移动行为,并在图的权重和连接中嵌入大量的时空信息和结构
      2. 把这些图作为图卷积神经网络(GCNs)的输入
  • 结果表明,GCNs适合于挖掘嵌入在移动图中的结构(GCNs are suitable to exploit the structure embedded in the mobility graphs)。
  • 其他关键点:
      - 个性化:为每个用户构建移动图
      - 第1次将GCN用于根据轨迹数据预测出行目的
      - 数据集是自己收集的

1 Introduction and Related Work

  研究人员开发  清洗原始数据/识别行程(即移动)和活动(即停留点)/预测交通方式和活动类型  的方法
  先前的研究已经提出了许多方法来从各种轨迹数据集中识别活动类型。例如,[16;15]在GPS跟踪数据上训练随机森林模型,改进旅行目的识别。[21;3]使用基于贝叶斯理论的模型,利用出租车轨迹数据推断出行目的。然而,这些研究在预测活动类型时往往忽略了人类活动模式的高规律性大多依赖于提取活动的特征(如平均停留时间、一天中的时间、附近的兴趣点等)。


  我们提出了一种基于图形卷积神经网络(GCNs)的新方法,用于根据GPS轨迹数据预测活动类型(即出行目的)。这允许将一天的特定时间访问的地点和观察到的两个地点间的直接旅行的频率纳入人类移动的高规律性.


创新点:
  1.这是GCNs第一次用于从轨迹数据中预测活动目的
  2.我们使用了一个独特的数据集,其中包括来自瑞士139名用户超过一年的原始轨迹,参与者将每个停留点标记为他们访问的目的。


2 Data and Methods

2.1 Data

  • 通过手机APP收集用户的轨迹数据, 然后APP将数据分割为停留点和移动轨迹.
  • 轨迹被用户标记了使用的交通方式,停留点被标记了活动目的 {家、工作、差事、休闲、等待}。
  • 139名用户, 每天产生2到20个停留点. 在跟踪期间(一年),每个用户的停留点在2000到4000个之间.

2.2 Methods

Activity areas

  从之前关于人类移动分析的工作中,我们知道人类倾向于访问一组随着时间推移而演变的固定空间位置。为了探索人类移动的时空模式和结构,以及这些地点的顺序访问,我们明确地模拟了这些地点之间的人类移动行为。使用DBSCAN聚类算法创建了经常访问的地方,我们称之为活动区域(activity areas)

Graph network construction

目的:挖掘序列访问模式中编码在活动区域和时空结构之间的关系中的空间信息
方法:构建了一组用户特定的无向连接图 G u , j = ( V u , E u , j ) G_{u,j} = (V_u, E_{u,j}) Gu,j=(Vu,Eu,j)

  • G u , j G_{u,j} Gu,j: 用户 u u u的第 j j j个移动图,节点集 V u V_u Vu = { V u , i V_{u, i} Vu,i}, i i i∈[1,2,…, n u n_u nu],其中 n u n_u nu为每个用户的节点数, V u , i V_{u, i} Vu,i表示用户 u u u的某个特定节点。结点与m条加权边 E u , j E_{u,j} Eu,j相连, j j j∈[1,2,…m]。对于每个图 G u , j G_{u,j} Gu,j,我们定义 W u , j W_{u,j} Wu,j R n u × n u \mathbb{R} ^{n_u×n_u} Rnu×nu加权邻接矩阵
  • 节点:将每个活动区域定义为一个节点Vu,i
  • :为了展示GCNs在不同图上(具有相同的节点集)的学习能力,我们使用两种不同的时空连接性定义来创建节点之间的边。具体来说,我们将节点之间的转移频率所有节点之间的空间(欧氏)距离作为两组不同的加权边。转换频率是通过计算用户在两个活动区域之间直接移动的频率来计算的。
  • 对于节点之间的边的其他合适的定义可以基于旅行时间(例如,每个运输模式的一个图)、角度、票价或软相似度量,如文化相似度。
Feature extraction
  • 对于每个节点(活动区域) V u , i V_{u, i} Vu,i,我们根据相关停留点的聚合信息提取了30个特征。(如mean stay duration, mean longitude and latitude, average distance to public stops,departure time at staypoints…)类似地,我们将标签分配给基于聚合的停留点的节点。这个过程如图1所示。与同一个节点相关联的停留点可以有不同的标签; 因此,我们将所有类的分布分配给每个节点
  • 在节点i处标签lp的概率被定义为 P i , l p = n i , l p / n i P_{i, l_p} = n_{i, l_p}/n_i Pi,lp=ni,lp/ni。( n i n_i ni表示所有停留点的数量, n i , l p n_{i, l_p} ni,lp是在节点i处标签lp的数量)。节点标签是不平衡的, 所以我们引入基于逆标签权重的样本权重 w l p = n L / ( ∣ L ∣ ⋅ n l p ) w_{l_p} = n_L/(\vert L \vert \cdot n_{l_p}) wlp=nL/(Lnlp)。 ( n l n_l nl是所有标签的累计权重, n l p n_{l_p} nlp是为单个标签lp∈L的累计权重)。这些都是后来用于计算加权交叉熵损失成本函数。
  • 在136个用户中,我们选择了82个具有相似标记行为的用户子集(每个类的停留点超过100)。在实验过程中,我们从82个用户中随机选择41个用户进行训练,5个用户进行验证,36个完全看不见的用户进行测试。此外,我们通过去除其均值并将其缩放为单位方差标准化所有训练特征,并将对训练数据估计的标准化应用于测试数据。

Activity purpose imputation

  CNN通过使用自学方法而不是手工获得特征的方法来获取数据内部的结构。图卷积神经网络(GCN)将这种能力推广到任意图结构和流形。GCNs利用嵌入在图结构中的信息和利用时空结构来完成任务
  我们采用[6]的方法,利用切比雪夫多项式的截断展开来近似傅立叶域中的图卷积。和[11]中一样,我们只用一阶近似。为了便于阅读,我们现在只考虑单个用户的迁移图,忽略了索引u,但是所有的图相关参数都是特定于用户的。这导致图卷积层的传播规则如下:

Figure 2说明:转移图和距离图每个都被卷积了两次(层大小为400和200)。它们的输出被通过加权和进行组合(层大小为50)。最终,一个全连接层产生了输出——标签分布。


3 Results

  • 这里展示的模型预测了每个活动区域的标签分布。为了测量我们的模型的性能,我们使用了the earth mover’s distance(EMD;也被称为瓦瑟斯坦度量)[17]。本质上,这个度量报告了从预测的目标分布到给定目标分布所需的概率质量的最小偏移
  • 表1显示了本文介绍的GCN的结果,包括多层感知器(MLP)、随机森林(RDF)分类器、多输出随机森林回归器,以及基线(每个节点是平均标签分布)。
  • 所有的分类器都能优于baseline,而两种神经网络实现都优于随机森林,这可能是因为随机森林不能利用软类标签提供的附加信息。GCN比MLP实现执行得更好,即使两者都经过类似的训练和调优。这表明GCN能够利用嵌入在图中的附加信息(连接和权值),并使用它们来利用本地结构

4 Conclusion and Future Work

  我们提出了一种基于GCN的方法来从GPS轨迹数据中推断人类活动的目的。研究结果表明可以使用多种个性化的图来模拟人类的移动行为,并在其权重和连接中嵌入大量的时空信息和结构
  在未来的工作中计划结合GCNs基于图的建模来开发时空结构,尝试不同的图构建方法,并将它们与本工作中应用的聚类方法进行比较。例如,这里提出的研究仅仅考虑了预测活动类型的停留点的特征。考虑到其他上下文信息(例如,兴趣点或道路网络)可能会显著影响GCN模型的预测能力。最后,我们想分析使用更复杂的GCN模型的影响(例如,在图卷积中使用k阶近似而不是一阶近似)。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值