Mining Spatio-Temporal Reachable Regions over Massive Trajectory Data

最新推荐文章于 2024-09-15 08:03:51 发布

西西弗的小蚂蚁

最新推荐文章于 2024-09-15 08:03:51 发布

阅读量297

点赞数

分类专栏：时空轨迹数据文章标签：数据库

本文链接：https://blog.csdn.net/zj_18706809267/article/details/125045770

版权

时空轨迹数据专栏收录该内容

54 篇文章 16 订阅

订阅专栏

Mining Spatio-Temporal Reachable Regions over Massive Trajectory Data

时空可达性查询的目的是在给定的时间段里从一个位置找到空间网络中的可达区域。作为显示在图1中,时空的地区是非常有用的在许多城市的应用:1)基于位置的建议,当用户想找附近的餐厅根据她的当前位置和时间,时空的地区提供了一个位置推荐候选人名单;2)基于地理位置的广告，商家可以在此找到潜在的空间区域来安排特殊的活动，如发放优惠券和销售折扣等;3)业务覆盖分析这些信息可以帮助他们在规划一些新的分支机构时做出正确的决定。在图1中，前两个应用程序示例使用单位置可达性查询(仅使用一个查询位置作为输入)进行说明，第三个应用程序示例使用多位置可达性查询(使用多个查询位置)进行说明。

不足之处在于:1)现有的研究主要集中在基于空间网络距离的可达范围上，而不是基于时间段。但在实际应用场景中，用户更关心的是实际出行时间，而不是距离。2)大多数现有的工作不支持不同时间戳的查询。但在现实中，由于高峰期交通条件的不同，可达区域可能会有较大差异。传统的基于空间网络的方法无法捕捉这种差异。

为了提高可达性查询在真实应用场景中的可用性，我们提出了一种基于道路网络中大量真实轨迹数据的时空可达区域的数据驱动方法。我们的方法背后的主要直觉是，我们希望将时空可达性查询表示为一个数据挖掘过程，该过程找出通过查询位置的所有轨迹，并在给定时间段内聚合它们的所有目的地。这样，可达区域就更真实了，因为它本质上是动态数据的总结。

利用海量轨迹数据集进行可达性查询的主要挑战是系统的效率，因为轨迹数据通常无法装入内存，同时分析它们需要从磁盘进行大量的I/O访问，这将导致较长的响应时间。为了提高时空可达性查询的效率，我们提出了一套新颖的索引结构和一种有效的查询处理算法来最小化冗余磁盘访问

通过引入连接指数来表示两个相邻时间段的路段连接，我们首先开发了时空索引(ST-Index)和连接索引(co -Index)，并提出了单位置可达查询最大/最小边界区域搜索(SQMB)算法来确定范围查询q的边界区域。设计了多位置可达性查询最大/最小边界区域搜索(MQMB)算法来处理多个起始位置且边界区域重叠的多位置时空可达性查询。在每个边界区域内，我们还设计了回溯搜索(TBS)算法，从最大边界区域搜索概率可达区域。

1.问题定义

给定一个道路网络图G (V, E), E是一组公路段和V是一个十字路口,一个查询位置 S,一个开始时间T,持续时间L,概率比prob和轨迹数据库TR,我们想要找到一套道路段的Prob-Reachable区域道路网,其中集合中的道路段在轨迹数据库中至少有概率Prob在给定的时间内从起始位置S到达。我们的系统的目标是在根据用户的查询参数寻找概率可达区域时最小化系统的总体开销。

该系统由三个主要部分组成:预处理、索引构建和查询处理。

1.预处理。该组件主要完成两项任务:1)道路再分割和2)轨迹匹配。道路再分割步骤的目标是提高可达范围的粒度。预处理组件基于给定的空间粒度(如500米)对原始路网进行再分割。然后，系统从数据库中读取大量的轨迹数据，并将轨迹映射到新划分的路网中。

2.索引结构。该组件构建了两个索引结构来加速后续的查询处理:1)时空索引和2)连接索引。基于空间和时间的时空索引划分轨迹。另一方面，连接指数以历史轨迹信息为基础进行路段连接，其下界范围为NearTable，上界范围为FarTable，即在图中分别记为N和F。连接索引用于修剪时空可达性查询过程。

3.查询处理。这个组件处理来自用户的查询。该组件主要采用两种技术:1)s-query最大/最小边界区域搜索，利用我们的时空索引和连接索引，根据查询参数生成proba可达区域的粗略估计;2)回溯搜索，从第一步开始，利用连接指数和原路网对区域进行细化

INDEX CONSTRUCTION

在本节中，我们将详细介绍我们的两个索引结构:1)时空索引(st - time index)和2)连接索引(Con-Index)。

1.Spatio-Temporal Index

利用ST-Index加快过程，根据查询位置找到相应的起始路段。我们的时空索引的主要区别是嵌入了两个级别的时间信息(即一天中的时间和日期)，以便更有效地计算概率可达区域。因此，ST-Index由3个组成部分组成:时态index、空间index和时间列表

Temporal index。为了支持更细粒度的时空可达性查询，我们将一天分成几个时间段。例如，如果我们希望在图中支持5分钟粒度的查询，我们将时间划分为多个5分钟间隔。在此之后，我们在所有的小时间间隔上构建一个b树来加速时间范围的选择。在索引的每个叶节点中，有一个空间索引与之关联。

Spatial index. 基于重新分割的路网构建空间索引(如R-tree)。由于路网是静态的，时间索引中的所有叶节点基本上具有相同的空间索引结构。因此，在查询处理过程中，我们只需要访问相同的空间索引就可以找到候选路段。

Time List. 对于索引中的每个叶节点，我们维护一个时间列表。时间列表中的每一项都是根据日期确定的。在相应日期和时间内通过该路段的所有轨迹id都作为该条目的内容存储在磁盘中，如图所示。将该时间列表与轨迹日期信息保持在一起的主要原因是为了加快概率可达区域的计算，因为系统需要识别轨迹来验证可达概率。

2.Connection Index

通过上述时空索引的构建，可以提出一个简单的时空可达性查询解决方案:我们使用传统的网络扩展算法，如[17]，从查询位置对路网进行扩展，并通过读取磁盘上的轨迹id来验证每个扩展的路段是否满足可达概率。这个查询过程的效率非常低, 为了提高系统效率，避免不必要的磁盘访问，我们提出了一个连接索引来跳过一些网络扩展步骤。其基本思想是利用历史轨迹数据建立每个路段的连接表，并根据时间粒度记录其可达路段的下界和上界。具体来说，每个具有不同时间粒度的路段都与以下内容相关联:1)Near ID list(下界范围)和2)Far ID list(上界范围)，表示在给定时间段内可以到达的最近(最远)的路段

结论

本文研究了在给定时间段内从用户指定的位置挖掘时空可达区域的问题，该问题在现实中有广泛的应用，包括基于位置的推荐、广告等。为了有效地解决这种针对海量轨迹数据的轨迹挖掘问题，我们开发了一种新的索引和查询处理框架。首先，为了捕获道路段间随时间变化的时间连接信息，引入时空指标和连接指标对轨迹数据进行索引;利用这两种索引结构，我们进一步开发了快速定位查询结果的最大和最小边界区域的算法，并引入了回溯搜索算法来找到查询结果的准确可达区域。最后，利用中国深圳194gb的大型出租车轨迹数据集，评估了我们的索引结构和查询处理算法。大量的实验表明，我们的查询处理框架可以减少50% - 90%的运行时间来回答时空可达性查询的基线算法。