A Data-adaptive and Dynamic Segmentation Index for Whole Matching on Time Series

时间序列的相似性搜索是许多应用中必不可少的操作。在最先进的方法中,如基于r树的方法,SAX和iSAX,默认情况下,时间序列被全局划分为等长的段,也就是说,所有时间序列都以相同的方式分割。然后,这些方法将重点放在如何近似或表示分段和构造索引上。在本文中,我们做了一个重要的观察:所有时间序列的全局分割可能会在索引时间序列时产生不必要的空间和时间成本。我们开发了一种基于时间序列的数据自适应动态分割指标DSTree。除了节省空间和时间之外,我们的新指数还可以提供时间序列之间距离的严格上界和下界。一项广泛的实证研究表明,我们的新索引DSTree能够有效地支持时间序列相似度搜索。

问题:

Principle 1: Dimensionality Reduction by Global Segmentation

一个根本的挑战是,时间序列的长度往往很长。在最先进的时间序列索引方法,所有要索引的时间序列都以同样的方式分段。因此,它们是全局分割的方法。这些方法集中于如何近似或表示段以及构造索引。时间序列的分割与索引的建立没有紧密结合。如果我们能够对时间序列进行自适应的分段,我们可能能够达到更好的降维,从而节省更多的空间和查询回答时间。

示例1虽然简单,但清楚地表明,局部分割为更有效的索引提供了大量机会。如果我们能够对时间序列进行自适应的分段,我们可能能够达到更好的降维,从而节省更多的空间和查询回答时间

Principle 2: Using Lower Bounds in Search

下界性(也称收缩性)是时间序列降维表示方法的一个重要的理想性质。如果一种降维方法带有距离下界函数,则该方法被称为保持下界属性

 具有下界属性的方法保证在搜索中没有假阴性。现有的相似度搜索方法没有系统地考虑上界的问题

 现在的挑战是如何在索引中建立有效的上边界机制来进行高效的相似度搜索。

方案:

我们探索了数据自适应动态分割和时间序列指数的上边界。我们提出了一种新的时间序列表示,这是著名的自适应分段常数逼近(APCA)的扩展。它不仅提供了更好的表示精度,而且支持上限估计,极大地丰富了索引的功能。我们开发了一种基于时间序列的数据自适应动态分割索引DSTree。除了节省空间和时间之外,我们的新索引还可以提供时间序列之间距离的严格上界和下界。一项广泛的实证研究表明,我们的新索引DSTree能够有效地支持时间序列相似度搜索。

EXTENDINGAPCAREPRESENTATION

1)APCA

EAPCA and Upper/Lower Bounds Using Standard Deviations

我们可以通过加入标准差来扩展APCA

 Bounding Distances to a Set ofTime Series

 

 

 THE DSTREE INDEX 

1)DSTree

2) Node Splitting Strategies

 我们可以用两种方法分割一组时间序列:水平分割(简称h -拆分)和垂直拆分(简称v -拆分)。

 QUERY ANSWERING ALGORITHMS(跳过)

1)Similarity Search

实验

 

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值