2018-Spatio-temporal check-in time prediction with recurrent neural network based survival analysis

[1] Yang G, Cai Y, Reddy C K. Spatio-temporal check-in time prediction with recurrent neural network based survival analysis[C]//Proceedings of the Twenty-Seventh International Joint Conference on Artificial Intelligence. 2018.

摘要

We introduce a novel check-in time prediction problem. The goal is to predict the time a user will check-in to a given location. We formulate check-in prediction as a survival analysis problem and propose a Recurrent-Censored Regression (RCR) model. We address the key challenge of check-in data scarcity, which is due to the uneven distribution of check-ins among users/locations. Our idea is to enrich the check-in data with potential visitors, i.e., users who have not visited the location before but are likely to do so. RCR uses recurrent neural network to learn latent representations from historical check-ins of both actual and potential visitors, which is then incorporated with censored regression to make predictions. Experiments show RCR outperforms state-of-the-art event time prediction techniques on real-world datasets.

  • 首次引入签到时间预测问题!!!!!
  • 将签到预测看作一个生存分析(survival analysis)问题
  • 提出循环审查回归(Recurrent-Censored Regression,RCR)模型
  • 解决签到数据稀疏问题(check-in data scarcity)——> 用potential vistors丰富数据
    (potential visitors指很可能访问某个地点但还未访问过)
  • RCR模型要点:GRU(学习历史签到的隐含表示)+ consored regression(审查回归,预测签到时间)

1 Introduction

  1. 预测签到时间问题的描述
  1. potential vistors通过矩阵分解(MF)方法求解
  2. contributions:
  • We identify an open issue in human mobility research, namely, the check-in time prediction problem. In particular, given a user and a location of interest, we aim to predict the time when the user will check-in to that location.
  • We address the key challenge of check-in data scarcity. Our method is to enrich the check-in data with potential visitors. In order to effectively use both actual and potential visitors, we propose a novel recurrent-censored regression model which is able to learn the latent dependencies of check-in time with respect to historical check-ins.
  • The proposed model is evaluated on real-world data. The results show that RCR model achieves significant performance improvement compared to state-of-the-art event time prediction techniques.

3 Problem Formulation

  1. (Check-in) 一个签到c是一个三元组(u,l,t)∈ U×L×T
    U是用户集合,L地点集合,T表示时间域。
  2. (User-trajectory) C是很多签到的集合,u∈U是一个user。u的用户轨迹就是集合 C u C_u Cu:={(u,l,t)∈ C }
  3. 问题陈述

给定一个地点l∈L,一个用户u∈U。check-in time predition的目标是预测u在l签到的时间t。

  1. 除了历史签到数据,也考虑了LBSN中用户的画像(用户特征)

  在签到时间预测问题中,每个用户都是一个实体entity,我们要建模事件“一个用户u访问地点 l l l”的时间。问题本质:建模 “事件发生的时间”
一个例子

  其中,有三名用户(U1,U3,U5)在星巴克咖啡店签到,另外两名用户(U2,U4)没有签到(在观察窗口内)。时间轴是相对的,所以它不需要所有的轨迹同时开始。在本例中,我们希望使用这些轨迹作为训练实例,为这家星巴克咖啡店建模签到时间,这样,给定一个新用户,我们就能够预测他到该地点的签到时间。
  如果用户ui访问了  l l l,我们就知道访问的确切时间,用Ti表示。然而,如果用户是一个潜在的访问者(potential visitor),签到时间是一个未知的变量,并且该用户被认为是censored (被审查的)。为了利用实际的和潜在的游客建模签到时间,我们将签入时间预测问题作为生存分析问题。生存分析的核心是一套称为审查回归/删失回归(censored regression)的技术,它可以利用 被审查实例。


  将每个用户 u i u_i ui表示为 ( X i , t i , δ i ) (X_i, t_i, \delta_i) (Xi,ti,δi)
   X i X_i Xi表示从用户的轨迹 C u i {C_u}_i Cui中提取的时空特征向量 δ i \delta_i δi表示用户是否访问过l,如果用户向l报告了签入, δ i = 1 \delta_i = 1 δi=1,反之 δ i = 0 \delta_i = 0 δi=0。观测时间 t i t_i ti定义为

if u i u_i ui 访问过 l l l:
t i t_i ti = T i T_i Ti  // T i T_i Ti是从 u i u_i ui的轨迹开始经过的时间(不表示特定的时间点)
else
t i t_i ti = U i U_i Ui // U i U_i Ui表示在轨迹上 u i u_i ui的上一次的签到时间


  在生存分析中,审查回归通常用于模拟非复发事件,如患者死亡。


  这里出现的一个问题是在我们的公式中处理一个用户在l的多次签到的问题。我们的方法是将用户的轨迹划分为几个不重叠的轨迹段每个轨迹段包含1个(访客)或0个(潜在访客)对l的签到每个轨迹段被视为模型的一个实例


本文提出的解决方案包括两个步骤(图4)。

  • 第一步 时空特征提取:

  选择一组游客和潜在的游客感兴趣的地点。然后创建这些用户轨迹的轨迹段。段内的每次check-in都用一个时空特征向量表示

  • 第二步 模型训练和预测

  RCR模型的输入是由轨迹段生成的特征向量序列。然后使用训练过的模型进行预测(给定新的用户轨迹作为观察)。

4 时空特征提取

4.1 用户选择 User Selection

  给定一个地点 l l l用户选择就是找到一组用户 U t U_t Ut(访问过地点 l l l的visitors+潜在的visitors),他们的轨迹可以被用来建模到地点 l l l的签到时间。
关键点:找到potential visitors
方法:矩阵分解

4.2 轨迹片段生成 Trajectory Segments Generation

假设:连续的签入很可能是相关的。但是,如果两次签入之间的时间间隔很长,那么它们就不太可能是相关的。

  当用户 u u u签到地点 l l l时,我们对地点 l l l之前的地点特别感兴趣。这些之前的签到和 l l l一起组成了用户 u u u的轨迹段。
  轨迹段的大小由超参数*观测窗口大小(observation window size)*约束, 用 T T T表示该超参数。
  假设c = {u, l, t}是一个访问了地点 l l l的签到点, 则轨迹段c时间段在min(tprev,t−T)和t之间的所有签到点组成。 t p r e v t_{prev} tprev是用户在t之前访问了地点 l l l的上一个时间。

4.3 特征提取 Feature Extraction

  • 1 用户移动特征 User Mobility Features
       > 这些特征描述了生成轨迹片段的用户
  • 2 签到特征 Check-in Features
       这些特征为轨迹片段上的每一个签到产生

5 循环审查回归模型 Recurrent-Censored Regression Model

目标:建模在给定地点 l l l签到时间

  • 签到时间T用一个连续随机变量表示。设S(t)表示签到发生在特定时间点t之后的概率,定义为(6)。其中f(u)是概率密度函数,F(t)是累积分布函数。
  • 为了预测事件时间,审查回归试图估计签到率函数r(t),即t时刻签到的瞬时发生率,其定义为(7)。在传统的审查回归设置中,每个实体是由特征向量表示,被用于构造r (t)。相比之下,我们的模型适应了签到的时空性质。它学习用户签到的潜在表示,然后使用它来构造r(t)

   图5说明了RCR模型。我们特别感兴趣的是对时间t的条件签入率建模,给定时间t之前的签入序列。{X1, X2,…, Xk}为k次签到的特征向量,U为用户移动性特征向量。我们将RCR模型中的条件签到率定义为(8)。其中 r 0 ( t ) r_0(t) r0(t)为基线签到率函数。这里的关键部分是H(t),它是X和U内每次签到的潜在表示。


   在RCR中,H(t)是使用门控递归单元(GRU)的神经网络学习的。给定X和U作为输入,模型遍历X1, X2,…Xk。设 t i t_i ti X i X_i Xi的时间戳。在第i步,模型学习到X1, X2,…Xi的一个表示representation,记为 h ( t i ) h(t_i) h(ti)。然后用 h ( t i ) h(t_i) h(ti)和U估计 t i t_i ti时刻的条件签到概率 H ( t i ) H(t_i) H(ti)。在每一步,门控递归单元使用 X i X_i Xi、U以及上一步生成的表示 h ( t i − 1 ) h(t_{i-1}) h(ti1)更新 h ( t i ) h(t_i) h(ti)。方程式(9)~(13)描述了这个更新过程。
   其中[·,·]表示两个向量的拼接。Wz、Wr、W为递归神经网络的权重矩阵,β0、β1、β2为模型参数。 z t z_t zt r t r_t rt分别对应forget gate和reset gate。直观地说, z t z_t zt忘记从X1, X2,…学到的无关信息, 而 r t r_t rt决定了Xi对h(ti)的影响
   这种门控结构特别适合标识对事件时间影响最大的签到


   在训练阶段,给定{X, U}的集合作为训练实例。使用通过时间的反向传播算法(BPTT算法)来训练RCR模型。
   我们使用的损失函数是观察训练实例的负可能性,它考虑了访问者和潜在访问者。
   基线函数参数化如(15)。其中 R i R_i Ri是事件时间等于或大于 t i t_i ti的实例集。
   在每次训练迭代中,模型根据损失函数的输出更新其参数。它试图利用随机梯度下降法达到最优参数,直到达到收敛。

6 实验

Datasets: FoursquareGowalla

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
智慧校园的建设目标是通过数据整合、全面共享,实现校园内教学、科研、管理、服务流程的数字化、信息化、智能化和多媒体化,以提高资源利用率和管理效率,确保校园安全。 智慧校园的建设思路包括构建统一支撑平台、建立完善管理体系、大数据辅助决策和建设校园智慧环境。通过云架构的数据中心与智慧的学习、办公环境,实现日常教学活动、资源建设情况、学业水平情况的全面统计和分析,为决策提供辅助。此外,智慧校园还涵盖了多媒体教学、智慧录播、电子图书馆、VR教室等多种教学模式,以及校园网络、智慧班牌、校园广播等教务管理功能,旨在提升教学品质和管理水平。 智慧校园的详细方案设计进一步细化了教学、教务、安防和运维等多个方面的应用。例如,在智慧教学领域,通过多媒体教学、智慧录播、电子图书馆等技术,实现教学资源的共享和教学模式的创新。在智慧教务方面,校园网络、考场监控、智慧班牌等系统为校园管理提供了便捷和高效。智慧安防系统包括视频监控、一键报警、阳光厨房等,确保校园安全。智慧运维则通过综合管理平台、设备管理、能效管理和资产管理,实现校园设施的智能化管理。 智慧校园的优势和价值体现在个性化互动的智慧教学、协同高效的校园管理、无处不在的校园学习、全面感知的校园环境和轻松便捷的校园生活等方面。通过智慧校园的建设,可以促进教育资源的均衡化,提高教育质量和管理效率,同时保障校园安全和提升师生的学习体验。 总之,智慧校园解决方案通过整合现代信息技术,如云计算、大数据、物联网和人工智能,为教育行业带来了革命性的变革。它不仅提高了教育的质量和效率,还为师生创造了一个更加安全、便捷和富有智慧的学习与生活环境。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值