Fast Large-Scale Trajectory Clustering(VLDB2019)

文中研究了大规模轨迹数据的聚类问题——k条路径,旨在高效地识别路网中的k条"代表性"路径。与需要多个数据依赖超参数的传统聚类方法不同,k-paths可用于交通监控、公交规划和选址等应用中的可视化探索。通过将地图匹配与有效的轨迹中间表示和新的基于边缘的距离(edge-based distance, EBD)度量相结合,提出了一种可扩展的聚类方法来解决k-路径问题。实验验证,可以在不到一分钟的时间内对数百万条出租车轨迹进行聚类,与解决相似轨迹聚类问题的最先进解决方案相比,实现了多达两个数量级的改进。

方法:

本文提出k-paths,旨在将轨迹聚类为k个组,其中选择k个有代表性的真实路径作为代表,如图1(c)所示,其中k = 10。k-paths让人想起经典的k-means[38],在这两个问题中,k都是用户需要的唯一参数

 1)拟线性距离测度   本文提出了一种新的距离测度EBD,作为最近提出的距离测度LORS[48]的扩展。EBD基于相交路段和行驶长度计算轨迹间的距离。它可以将轨迹距离的计算代价从二次型(LORS)降低到准线性型,同时在度量两个轨迹之间的相似性时返回相同的分数,并允许在聚类过程中使用压缩的轨迹表示。

2) Fewer distance computations  设计了新的索引技术,以显著减少分配和细化阶段的距离计算次数。在证明EBD满足三角不等式(度量)后,采用下界技术对计算空间进行剪枝,并提出一个索引框架来加速聚类。为了更有效地细化质心路径,我们提出了一种利用长度直方图和边缘直方图的线性时间方法。通过遍历路网图进一步提取与轨迹数量无关的质心路径

问题

 

 k-path和k-means之间的关键区别有三点:(1)轨迹可以是可变长度的,而不是欧氏空间中固定长度的向量;(2)必须定义两条轨迹的轨迹距离距离;(3)单纯计算聚类中所有轨迹的平均值,无法得到质心路径µj。类似于k-means的变体k-medoids[41],可以选择现有的轨迹作为质心路径。

BASELINE FOR K-PATHS

   当使用EBD时,我们的k路径基线工作原理如算法1所示。我们首先在第1行(5.1节)进行质心初始化。然后在第一次迭代中(t = 0),从第4行到第9行,我们将每个轨迹Ti分配到最近的质心路径。从第二次迭代开始(第12至25行),我们在每个轨迹和质心路径之间引入了两个边界,以避免不必要的距离计算和加速分配(第5.2节)。在每次迭代赋值后(第27行),我们提出了一个解决方案,降低因为剪枝产生的线性时间复杂度

1)Centroid Initialization

在k-means算法[11]中,良好的初始聚类分配可以提高算法的收敛速度。本文比较了两种不同的策略:1)从数据集中随机选择k条轨迹;2)采用k-means++[11]。当使用EBD进行k路径聚类时,随机初始化足以实现快速收敛(详情见[47])。

2) Trajectory Assignment

基于k条新选择的质心路径,将每个轨迹分配给最近的簇称为轨迹分配。实现这一目标的基线是计算其到每个簇的质心路径µj的距离,如第一次迭代中算法1的第4至9行所示。

   ------Pruning by Lower Bounds(降低距离计算复杂度)

3)Centroid Path Refinement

与k-medoids[41]类似,选择已有的轨迹作为质心路径可以使结果G中成为真实路径。这样的轨迹T会使到同一簇中所有其他轨迹的距离最小

 

 

 为了使用公式11计算簇中每个轨迹的目标函数,我们为每个簇维护两个直方图,以在每次迭代中更新质心路径

Edge Histogram

Length Histogram

BOOSTING K-PATHS WITH PIG

在本节中,我们提出一种索引框架,称为进一步提升PIG 的性能。PIG由三个模块组成(图5):枢轴表、倒排索引和图遍历算法。特别地,路网中每条边e上的倒排索引可以进一步减少距离计算代价;数据透视表中的数据透视节点可以将一组相似的轨迹绑定在一起,而不是单独分配它们;将求精化步骤转化为可扩展的图遍历问题cpep,以避免对轨迹数据集的重复扫描,并在此基础上提出一种鲁棒、实用、高效的贪心算法。

 

 1)Inverted Index Acceleration

对于数据集中的所有轨迹,将构建一个反向索引,其中键是边,值是经过这条边的轨迹id的排序列表。反向索引可以避免距离计算来加速k路径。

2)Pivot-table for Metric Features

如算法2所示,我们针对k路径聚类问题提出了一种新的索引构建方法。首先,利用第5节中的基线将所有轨迹划分为k个具有k条路径的聚类(第4行)。对于具有超过k条轨迹的簇,我们继续执行k条路径聚类,直到内部轨迹的数量不大于k。最终的簇将形成一个节点并添加到pivot表PT中,质心路径μ j是该节点的枢轴轨迹。在生成所有节点后,为每个节点构建边和长度直方图。当一个节点被分配到一个集群时,这用于细化

实验部分

。。。。。。。。。。。。。。。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值