在本文中,提出了一个非参数的位置轨迹生成模型,可以捕捉人类移动的高阶地理和语义特征。我们设计了一种简单、直观而有效的位置轨迹嵌入方法,并使用生成式对抗网络在该空间中产生数据点,这些数据点最终将被转换回顺序位置轨迹形式。
Introduction
在本文中,我们提出了一个非序列非参数生成模型的人体轨迹。我们假设位置被离散化,并且所考虑区域的地图被建模为二维矩阵,其中矩阵的每个元素对应于一个位置。我们以这样的矩阵形式展平并嵌入轨迹,其中每个单元包含在给定轨迹中访问该单元的时间和持续时间的信息。这可以被可视化为地图上的彩色轨迹,其中颜色反映了访问的时间,其强度捕捉了访问的持续时间。我们训练一个生成对抗神经网络来建模,然后以这种表示产生数据。然后,我们将生成的输出转移到一个连续的轨迹。
Problem Definition
在本文中,我们以稍微不同的方式表示轨迹,将传统的主要时间表示法改为主要位置表示法。这意味着,我们不是问在给定的时间内某次拜访发生在哪里,而是问在给定的地点内某次拜访发生(或不发生)的时间和持续时间。
Mthod
模型的结构如图所示,
鉴别器以Mreal和Msynthetic作为输入,同时用一个输入随机噪声的生成器进行训练。在采样阶段,我们生成张量,经过后处理后,张量被转换为位置轨迹
1.representation
作者用一个矩阵M, N 1 ∗ N 2 ∗ K N_1*N_2*K N1∗N2∗K来嵌入轨迹Traj,用 M x , y , k = ( t , d ) M_{x,y,k}=(t,d) Mx,y,k=(t,d)来表示在(x,y)位置的第k次停留。
2.Generative Model
非参数生成模型不假定目标分布的显式参数函数。相反,它用一个模型来学习目标函数。在这项工作中,我们利用生成性对抗网络来训练一个非参数模型,该模型从联合分布p(TRaj)生成位置轨迹。我们的模型是由卷积层构成的。在每一层中,使用矩形滤波器对来自较低层的特征地图进行卷积,以生成较高级别的表示。
D
w
D_w
Dw是鉴别器,
g
θ
g_{\theta}
gθ是生成器,鉴别器的任务是鉴别来自真实数据和假数据的真假,即
P
r
e
a
l
P_{real}
Preal和
P
g
(
z
)
P_{g(z)}
Pg(z),对
g
θ
g_{\theta}
gθ模型进行训练,以生成鉴别器无法将其与真实数据区分开的样本,损失函数为,(实在看不懂这个函数是什么意思)
其中,
x
~
\tilde{x}
x~是从
P
g
(
z
)
P_{g(z)}
Pg(z)和
P
r
e
a
l
P_{real}
Preal提取的凸组合。
Evaluation
我们通过比较合成数据在地理和语义特征上与真实数据的相似性来评估合成数据的效用。
1.数据集
2.实验
2.1baseline模型
(1)一阶MC
(2)时间相关MC模型[Shokri等人,2011]:它通过将时间分成多个时间段(例如,上午、下午、晚上),假设转移概率是时间相关的。
(3)HMM,该模型是根据[Yen et al.,2017]建立的具有离散发射概率和7个隐藏变量的模型,并使用Baum-Welch[Rabiner,1989]算法进行了优化。
(4)LSTM-MLE,LSTM模型通过最大化对数似然logp(θ|TRaj)来训练,在训练阶段,给出整个序列,而在生成阶段,模型生成给定其先前位置(由模型生成)的位置。
2.2地理统计
使用
p
(
r
)
,
p
(
r
,
t
)
,
p
(
r
,
d
)
p(r),p(r,t),p(r,d)
p(r),p(r,t),p(r,d)三种边缘分布来衡量模型的质量。
(1)P( r )度量位置r的访问概率,反映位置的受欢迎程度。
(2)P(r,t)测量位置r在任何时间t的访问概率,反映位置(例如酒吧、住宅)的时间受欢迎程度。
(3)P(r,d)度量了在持续时间d内访问某一地点r的概率,反映了在不同地点停留的模式。
(4)P(r,dtotal)度量了一天内访问某个位置r(多次)并停留总持续时间dTotal的概率,反映了该位置的总体重要性。
为了评估合成数据和原始真实数据之间的距离,我们使用了Jensen-Shannon散度(JSD)
图2显示了我们比较的结果。随着优化(在训练生成模型中)的进行,生成数据的分布与真实数据之间的JSD显著降低。
我们还将我们的合成轨迹的质量与现有方法的质量进行了比较,结果如下图所示,
2.3绝对语义
我们使用合成集、实际数据集和马尔可夫链中的样本(作为基准)比较了前50个最受欢迎位置的访问分布,以及前N个位置的精度。这两个指标都表明,我们的模型在捕捉热门地点方面优于基线。
2.4相对语义
各种研究表明,在许多情况下,两个在地理上可能不同的轨迹在语义上相似。我们采用中的语义距离度量,即:
我们将轨迹样本之间的相对语义距离表示为成对语义距离,评价结果如图4所示。
Related Work
近年来发展了各种生成概率模型来近似模拟运动分布,可以模拟人的行为和运动模式。
最广泛使用的模型是状态空间模型,包括马尔科夫链,HMM模型等。
为了解决这个问题,利用现代深层神经网络,建立LSTM模型来捕捉地点之间的复杂过渡。深度神经网络是通用的逼近器,具有层次化的结构来抽象高层表示,其性能优于HMM-模型。然而,这些工作是通过最大化对数似然来学习的,在通过自展开生成样本时存在曝光偏差的问题。相反,我们的模型不依赖于似然优化,并且能够生成高保真的样本。
结论
本文提出了一种非参数的人体运动生成模型,用于合成真实的人体运动轨迹。据我们所知,这是第一次使用非参数产生式模型进行轨迹综合的工作。我们给出的实验结果表明,该模型不仅保留了用于训练的轨迹的统计特性,而且保留了它们的内在语义。
技术上,本论文在发表当时的创新的点在于对轨迹的矩阵化表征、和GAN的应用,将来会分享更多轨迹生成和城市流动性建模的相关研究或观点。
疑问
什么是非参数产生式模型?