Matrix Profile

西西弗的小蚂蚁

已于 2024-04-13 10:26:15 修改

阅读量67

点赞数

分类专栏：时间序列聚类文章标签：算法机器学习人工智能

于 2022-11-12 15:54:24 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/127819696

版权

时间序列聚类专栏收录该内容

45 篇文章 10 订阅

订阅专栏

Matrix Profile I: All Pairs Similarity Joins for Time Series: A Unifying View that Includes Motifs, Discords and Shapelets

全对相似性搜索(或相似性连接)问题已经被广泛研究用于文本和少数其他数据类型。然而，时间序列子序列相似性连接的研究进展甚微。缺乏进展可能是因为这个问题令人生畏。即使是中等规模的数据集，明显的嵌套循环算法也可能需要几个月的时间，而在这个领域中典型的加速技术(即索引、下界、三角不等式修剪和早期放弃)最多只能产生一个或两个数量级的加速。本文提出了一种新的可扩展的时间序列子序列全对相似性搜索算法。对于异常大的数据集，该算法可以简单地转换为任意时间算法，并在合理的时间内产生高质量的近似解。精确相似性连接算法计算了时间序列motif和时间序列不一致问题的答案，该算法顺便提供了这两个广泛研究的问题的最快的已知算法。展示了该思想在许多时间序列数据挖掘问题上的实用性，包括motif发现、新颖性发现、shapelet发现、语义分割、密度估计和对比集挖掘

Matrix Profile XX: Finding and Visualizing Time Series Motifs of All Lengths using the Matrix Profile

许多时间序列分析任务可以简化为发现和推理保守结构或时间序列模体。最近，矩阵画像已经成为寻找时间序列motif的最先进技术，使社区能够有效地在大型数据集中发现时间序列motif。矩阵轮廓将时间序列motif发现简化为一个需要单个参数的过程，即我们期望(或希望)找到的时间序列motif的长度。在许多情况下，这是一个合理的限制，因为用户可以利用带外信息或领域知识来设置此参数。然而，在真正的探索性数据挖掘中，这个参数的糟糕选择可能导致无法在数据中发现意想不到的和可利用的规律。本文提出Pan矩阵轮廓，一种新的数据结构，包含所有长度的所有子序列的最近邻信息。这种数据结构使得文献中第一个真正的无参数motif发现算法成为可能。我们的表达产生的信息量可能是压倒性的;本文还提出了一种新的可视化工具，即motif-heatmap，使用户可以一目了然地发现和推理重复的结构。我们在不同的领域展示了我们的想法，包括地震学，生物信息学，运输和生物学

总结：这篇论文找motif是不用提前设定子序列的长度

Matrix Profile VI: Meaningful Multidimensional Motif Discovery

时间序列Motif 是实数时间序列数据中的近似重复模式。它们对于探索性数据挖掘非常有用，经常被用作各种时间序列聚类、分类、分割、规则发现和可视化算法的输入。自2002年提出第一个单变量时间序列motif发现算法以来，研究者们多次尝试将motif推广到多维时间序列。本文表明，这些努力通常试图在所有维度上找到主题，除非在最人为的情况下，否则不会产生有意义的主题。本文解释了这一发现，并介绍了mSTAMP，一种允许发现多维motif的有意义的算法。除了产生客观和主观有意义的结果外，该算法还有许多其他优势，包括速度快得多、需要的参数少和支持流数据。展示了基于mstamp的motif发现框架在音频处理、工业和体育分析等不同领域的效用。

如果我们在前两个维度上运行经典的单维motif发现[26]，我们可以在位置150和350正确地找到视觉上明显的motif。如果我们将motif定义推广到多维时间序列数据(MTS)，并考虑两个维度{T1,T2}中的最佳motif，那么毫无疑问，我们仍然找到相同的最佳motif位置。然而，当我们向多维数据集添加随机漫步时，会发生什么呢?只需添加一次随机漫步来创建一个三维时间序列，我们仍然可以鲁棒地找到正确的motif位置;真子集{T1,T2}的信号强到足以抵抗单个随机游走所添加的无关信息。然而，通过经验平均100多次试验，我们发现，如果有8个额外的不相关维度，那么我们的效果与随机效果差不多。此外，上述motif约占数据的5%。然而，motif通常要少见得多，这加快了维数的增加掩盖了数据子空间中存在的motif的速度。

The mSTAMP Algorithm

我们的定义允许naïve解决方案。我们可以计算矩阵剖面(使用所有维度[16]的多维变体)到所有𝑑选择𝑘维度组合，并在某些排序函数下选择最佳的一个。然而，由于这种方法固有的组合爆炸，naïve解决方案只能用于非常小的数据集。

Admissible Time Series Motif Discovery with Missing Data

时间序列motifs 的发现已经成为时间序列数据挖掘中最有用的基元之一。研究人员已经证明了它在探索性数据挖掘、摘要、可视化、分割、分类、聚类和规则发现等方面的应用。尽管已经进行了十多年的广泛研究，但仍然没有任何技术能够发现存在缺失数据的时间序列模体，尽管在科学、工业和医疗数据集中，缺失数据无处不在。本文提出一种在缺失数据存在时进行motif发现的技术。正式证明了该方法是可接受的，没有产生假阴性。该方法可以"捎带"到最快的已知motif发现方法，具有很小的常数因子时间/空间开销。我们将在具有不同数量缺失数据的不同数据集上演示我们的方法。

HOT SAX: Finding the Most Unusual Time Series Subsequence: Algorithms and Applications

本文提出了发现时间序列不协调的新问题。时间序列不协调子序列是较长的时间序列中的子序列，与其他时间序列最大程度上不同。因此，它们捕捉到了时间序列中最不寻常的子序列的感觉。时间序列不一致在数据挖掘中有很多用途，包括提高聚类质量、数据清洗、摘要和异常检测。我们将展示，discord作为异常检测器特别有吸引力，因为它们只需要一个直观的参数(子序列的长度)，而不像大多数通常需要许多参数的异常检测算法。虽然发现Time series discords 的蛮力算法在时间序列长度上是二次的，但本文展示了一个简单的算法，比蛮力快3到4个数量级，同时保证产生相同的结果。用一组全面的实验来评估我们的工作。在航天飞机遥测监测、医学、监视和工业等不同领域的客观实验中，证明了discord发现算法的效用。在来自不同领域的82个不同数据集上，通过100多万个实验，证明了discord发现算法的有效性。