motif

Exact Discovery of Time Series Motifs 

    时间序列motif是一对独立的时间序列,或者较长的时间序列的子序列,它们彼此非常相似。与它们在计算生物学中的离散类似物一样,这种相似性暗示了由于某种原因而保持不变的结构,因此可能是有趣的。自2002年提出时间序列模体模型以来,已有许多研究人员将其应用于不同的领域。由于计算模体的最明显的算法是元素个数的二次型,已有十几种近似算法被提出。本文首次展示了一个易于处理的精确算法来发现时间序列motif。我们将通过广泛的实验表明,在大型数据集上,我们的算法比暴力搜索快三个数量级。进一步表明,该算法的速度足够快,可以作为一个子程序用于更高层次的数据挖掘算法中的任意时间分类、近似重复检测和摘要,并考虑了脑电图解释和昆虫遥测数据挖掘等不同领域的详细案例研究

 OUR ALGORITHM

该算法的关键见解是,数据的这种线性排序为我们提供了一些有用的启发式信息来指导motif搜索。我们可以观察到,如果两个对象在原始空间中很接近,那么它们在线性排序中也一定很接近。注意逆反命题不成立。在线性排序中,两个对象可以任意接近,但在原始空间中却相距很远。 

 在算法的下一个阶段,我们可以扫描线性排序并测量相邻对之间的真实距离。如果在执行此操作时遇到一个距离小于当前最好值的pair,则可以更新它,如图4所示在我们的例子中,我们从左到右滑动,将O8和O6之间的估计距离从3.0更新为正确距离42.0。类似地,我们将O6和O4之间的估计距离更新为49.0。在我们的下一次更新中,我们发现O4和O5之间的真实距离仅为7.0。由于这比我们目前最好的(即23.0)要小,我们对其进行了更新。

 Towards Never-Ending Learning from Time Series Streams

本文表明,时间序列motif的大多数以前的应用都受到了定义的脆弱性的严重限制,即均匀缩放的轻微变化本文提出一种新算法,允许发现对均匀缩放具有不变性的时间序列motif,并表明它在几个重要领域产生了客观优越的结果。除了比所有其他motif发现算法更通用外,该工作的进一步贡献是比以前的方法更简单,特别是大大减少了需要指定的参数数量。 

为了激发对这种均匀尺度不变motif发现的需求,我们将研究一个合成的时间序列 

 如果让我们指出长度为120的最佳重复模式,答案似乎微不足道:在两个位置有一个长度近似为120的重复正弦波。然而,正如我们在图2中看到的,这并不是这个数据集中真正的motif。

 

 这个不直观的结果的原因是A与B的线性比例相差5%。这意味着尽管两个子序列中较短的部分几乎相同,但当我们试图对它们进行对齐时,相异部分的累积误差将占主导地位。

总结:主要关注在时间序列不同缩放条件下的motif发现,两个序列的scaling的不同导致选择ED或者DTW距离度量方式 ,使得motif会不同

Matrix Profile V: A Generic Technique to Incorporate Domain Knowledge into Motif Discovery

   时间序列motif发现可能是时间序列数据挖掘中最常用的原始元素,并已被应用于机器人、医学和气候学等不同的领域。近年来,motif发现的可扩展性研究取得了重大进展。然而,我们认为,当前对motif发现的定义是有限的,并且会在用户的意图/期望和motif发现搜索结果之间造成不匹配。本文解释了这些问题背后的原因,并介绍了一个新的通用框架来解决这些问题。我们的想法可以与当前最先进的算法一起使用,几乎没有时间或空间开销,并且速度足够快,可以在大规模数据集上进行实时交互和假设测试。在地震学和癫痫发作监测等不同领域证明了所提出想法的实用性 

该方法背后的基本思想使用用户的约束对其进行注释。当motif发现算法发现候选motif时,使用该注释向量(AV)对它们进行重新排序,使最能平衡保护保真度和用户约束的motif上升到顶部。

 GUIDED MOTIF SEARCH

产生一个与原始时间序列(和矩阵轮廓)“平行”的向量,该向量对用户的领域依赖偏差(es)进行编码。然后用这个向量来修改矩阵的轮廓,改变它的形状,使不期望的解决方案更加昂贵,并且不再出现在前k个图案中。

总结:稀疏motif发现。这篇motif发现主要在融入用户的意图在搜索过程中,以便找到符合用户意图的motif 。同时也说明全局motif 和部分数据motif之前差距也很大,这类似与数据流中找到相关的motif一样

Rare Time Series Motif Discovery from Unbounded Streams

时间序列(motif)是时间序列流中的近似重复子序列,其检测在许多更高层次的数据挖掘算法中具有重要的作用。然而,当感兴趣的主题非常罕见或面临无穷无尽的数据流时,这种检测将变得更加困难。本文研究了寻找这种罕见图案的算法。本文证明,在合理的假设下,必须放弃对motif问题通常定义的精确解决方案的任何希望;然而,我们引入了允许我们以高概率解决潜在问题的算法。 

Probabilistic Discovery of Time Series Motifs

一些重要的时间序列数据挖掘问题可以归结为在较长的时间序列中寻找近似重复子序列的核心任务。在早期的工作中,通过引入时间序列motif的概念,形式化了近似重复子序列的想法。这项工作的两个局限性是motif发现算法的可扩展性差,以及在存在噪声的情况下无法发现motif。本文通过引入一种新算法来解决这些限制,该算法受到生物序列模式发现问题的最新进展的启发。该算法本质上是概率的,但正如我们根据经验和理论表明的那样,即使在存在噪声或“不关心”符号的情况下,它也可以以非常高的概率找到时间序列motif。该算法不仅速度快,而且是一个随时算法,几乎可以立即产生可能的候选motif,并随着时间的推移逐渐提高结果的质量。

 在尝试发现主题时,噪声的重要性再怎么强调都不为过。考虑图2中所示的两个序列。虽然它们非常相似,但其中一个在38岁时出现了下降峰值。

 

 本文的贡献是双重的。本文推广了时间序列模体的定义,使其能够考虑不关心的子片段,并提出了一种新的时间和空间高效的算法来发现模体。该方法基于最新的DNA序列模式发现算法[34]。该算法基于随机选择的对象特征子集,将数据对象(在我们的例子中是时间序列)投影到低维子空间。低维空间可以快速进行后处理,以发现可能的主题候选,同时可以快速与原始数据进行检查。

总结:文中主要提出时间序列motif检测中存在大量噪声数据 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值