Fast Large-Scale Trajectory Clustering（VLDB2019）

最新推荐文章于 2023-11-17 19:50:22 发布

西西弗的小蚂蚁

最新推荐文章于 2023-11-17 19:50:22 发布

阅读量241

点赞数

分类专栏：时空轨迹数据文章标签：聚类机器学习 python

本文链接：https://blog.csdn.net/zj_18706809267/article/details/126389496

版权

时空轨迹数据专栏收录该内容

53 篇文章 16 订阅

订阅专栏

文中研究了大规模轨迹数据的聚类问题——k条路径，旨在高效地识别路网中的k条"代表性"路径。与需要多个数据依赖超参数的传统聚类方法不同，k-paths可用于交通监控、公交规划和选址等应用中的可视化探索。通过将地图匹配与有效的轨迹中间表示和新的基于边缘的距离(edge-based distance, EBD)度量相结合，提出了一种可扩展的聚类方法来解决k-路径问题。实验验证，可以在不到一分钟的时间内对数百万条出租车轨迹进行聚类，与解决相似轨迹聚类问题的最先进解决方案相比，实现了多达两个数量级的改进。

方法：

本文提出k-paths，旨在将轨迹聚类为k个组，其中选择k个有代表性的真实路径作为代表，如图1(c)所示，其中k = 10。k-paths让人想起经典的k-means[38]，在这两个问题中，k都是用户需要的唯一参数

1)拟线性距离测度本文提出了一种新的距离测度EBD，作为最近提出的距离测度LORS[48]的扩展。EBD基于相交路段和行驶长度计算轨迹间的距离。它可以将轨迹距离的计算代价从二次型(LORS)降低到准线性型，同时在度量两个轨迹之间的相似性时返回相同的分数，并允许在聚类过程中使用压缩的轨迹表示。

2) Fewer distance computations 设计了新的索引技术，以显著减少分配和细化阶段的距离计算次数。在证明EBD满足三角不等式(度量)后，采用下界技术对计算空间进行剪枝，并提出一个索引框架来加速聚类。为了更有效地细化质心路径，我们提出了一种利用长度直方图和边缘直方图的线性时间方法。通过遍历路网图进一步提取与轨迹数量无关的质心路径

问题

k-path和k-means之间的关键区别有三点:(1)轨迹可以是可变长度的，而不是欧氏空间中固定长度的向量;(2)必须定义两条轨迹的轨迹距离距离;(3)单纯计算聚类中所有轨迹的平均值，无法得到质心路径µj。类似于k-means的变体k-medoids[41]，可以选择现有的轨迹作为质心路径。

BASELINE FOR K-PATHS

当使用EBD时，我们的k路径基线工作原理如算法1所示。我们首先在第1行(5.1节)进行质心初始化。然后在第一次迭代中(t = 0)，从第4行到第9行，我们将每个轨迹Ti分配到最近的质心路径。从第二次迭代开始(第12至25行)，我们在每个轨迹和质心路径之间引入了两个边界，以避免不必要的距离计算和加速分配(第5.2节)。在每次迭代赋值后(第27行)，我们提出了一个解决方案，降低因为剪枝产生的线性时间复杂度

1）Centroid Initialization

在k-means算法[11]中，良好的初始聚类分配可以提高算法的收敛速度。本文比较了两种不同的策略:1)从数据集中随机选择k条轨迹;2)采用k-means++[11]。当使用EBD进行k路径聚类时，随机初始化足以实现快速收敛(详情见[47])。

2） Trajectory Assignment

基于k条新选择的质心路径，将每个轨迹分配给最近的簇称为轨迹分配。实现这一目标的基线是计算其到每个簇的质心路径µj的距离，如第一次迭代中算法1的第4至9行所示。

------Pruning by Lower Bounds（降低距离计算复杂度）

3）Centroid Path Refinement

与k-medoids[41]类似，选择已有的轨迹作为质心路径可以使结果G中成为真实路径。这样的轨迹T会使到同一簇中所有其他轨迹的距离最小

为了使用公式11计算簇中每个轨迹的目标函数，我们为每个簇维护两个直方图，以在每次迭代中更新质心路径

Edge Histogram

Length Histogram

BOOSTING K-PATHS WITH PIG

在本节中，我们提出一种索引框架，称为进一步提升PIG 的性能。PIG由三个模块组成(图5):枢轴表、倒排索引和图遍历算法。特别地，路网中每条边e上的倒排索引可以进一步减少距离计算代价;数据透视表中的数据透视节点可以将一组相似的轨迹绑定在一起，而不是单独分配它们;将求精化步骤转化为可扩展的图遍历问题cpep，以避免对轨迹数据集的重复扫描，并在此基础上提出一种鲁棒、实用、高效的贪心算法。

1)Inverted Index Acceleration

对于数据集中的所有轨迹，将构建一个反向索引，其中键是边，值是经过这条边的轨迹id的排序列表。反向索引可以避免距离计算来加速k路径。

2)Pivot-table for Metric Features

如算法2所示，我们针对k路径聚类问题提出了一种新的索引构建方法。首先，利用第5节中的基线将所有轨迹划分为k个具有k条路径的聚类(第4行)。对于具有超过k条轨迹的簇，我们继续执行k条路径聚类，直到内部轨迹的数量不大于k。最终的簇将形成一个节点并添加到pivot表PT中，质心路径μ j是该节点的枢轴轨迹。在生成所有节点后，为每个节点构建边和长度直方图。当一个节点被分配到一个集群时，这用于细化

实验部分

。。。。。。。。。。。。。。。

西西弗的小蚂蚁

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Fast Large-Scale Trajectory Clustering（VLDB2019）

它可以将轨迹距离的计算代价从二次型(LORS)降低到准线性型，同时在度量两个轨迹之间的相似性时返回相同的分数，并允许在聚类过程中使用压缩的轨迹表示。本文提出k-paths，旨在将轨迹聚类为k个组，其中选择k个有代表性的真实路径作为代表，如图1(c)所示，其中k = 10。实验验证，可以在不到一分钟的时间内对数百万条出租车轨迹进行聚类，与解决相似轨迹聚类问题的最先进解决方案相比，实现了多达两个数量级的改进。对于数据集中的所有轨迹，将构建一个反向索引，其中键是边，值是经过这条边的轨迹id的排序列表。...
复制链接

扫一扫