Akane: Perplexity-Guided Time Series Data Cleaning

西西弗的小蚂蚁

已于 2024-06-26 15:12:09 修改

阅读量562

点赞数 20

分类专栏：时间序列/高维数据相似性查询文章标签：算法人工智能机器学习深度学习

于 2024-06-26 15:09:30 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/139981722

版权

时间序列/高维数据相似性查询专栏收录该内容

46 篇文章 8 订阅

订阅专栏

Akane: Perplexity-Guided Time Series Data Cleaning (SIGMOD2024)

脏数据在时间序列中很普遍，例如能源消耗或库存数据。现有的数据清理算法在脏数据识别和清理决策方面存在不足。为了处理这些缺点，我们利用时间序列中固有的循环模式，将它们类比为文本数据中的固定组合，并纳入困惑的概念。因此，将清洗问题转化为在给定清洗成本下最小化时间序列的困惑度，并设计了一个四阶段算法框架来解决这一问题。为了确保框架的可行性，我们还对脏数据的影响进行了简要分析，并设计了一个自动预算选择策略。此外，为了使其更具通用性，我们还引入了先进的解决方案，包括基于同态模式聚合的改进概率计算方法和基于贪婪的启发式资源节约算法。在12个真实数据集上的实验证明了我们方法的优越性。

简单总结：1解决的问题是时间序列数据清理算法中面临的脏数据识别和清理问题，2主要采用了序列模式方法，并引入复杂度的方法，基于这种复杂度，设计算法来使得该复杂度最小。因此该算法类似一种组合优化的设计思路，目标就是minimize perplexity, 约束条件是budget，即为时间或者内存等。

下面简单总结该论文的设计思路。

一，简单介绍

1）主要核心思想：基于统计的时间序列数据清洗算法，该算法有效地利用了循环模式的特性。

1.1）详解：我们的直觉是，表现出几种循环模式的时间序列数据与文本数据有一些相似之处，因为这些循环模式可以类比为固定的单词组合。随后，我们将自然语言处理(NLP)中的困惑度概念引入时间序列分析，作为评估时间序列数据质量的手段。与文本错误相比，脏数据的存在降低了时间序列的概率，从而增加了其复杂性。相反，清理脏数据(利用从序列本身收集的可用统计数据)可以解释为在给定预算范围内减少时间序列困惑的一种努力。我们开发了一个四阶段框架来解决时间序列的困惑计算和优化问题，

1.2）Perplexity and Likelihood. 在信息论中，困惑度是衡量概率分布或模型对特定样本的预测能力的度量标准。它已经扩展到多个领域[9,28]。在这里，我们借用NLP领域的困惑定义，在时间序列的背景下重新定义它。参考论文具体如下：

由于原始时间序列的取值范围是连续的，直接计算其发生概率是不可行的。由于累积相乘后发生的概率会变得非常小，所以我们用似然来代替计算

论文公式从1 到公式2 这是引入参变量，改变优化对象，优化中的常规方法。

2）问题定义

2.1)清洗问题可以定义为找到一个与原始时间序列𝑋相比具有更低困惑度的清洗过的时间序列𝑋'。

2.2) 在数据清理任务中，我们经常坚持最小变化原则，这有利于清理的时间序列𝑋' 接近 X （这个就是优化问题的约束条件）。基数最小度量在此任务中更加精确和有意义

优化问题：

二框架

图2描绘了框架的四个阶段:时间序列符号化、概率计算、似然优化和时间序列重建。

时间序列符号化将每个连续的数值数据点转换为有限集合的符号，便于正确捕获循环模式并使后续概率计算成为可能。

概率计算阶段指定了基于统计确定符号化时间序列概率的方法，这对于进一步的似然计算至关重要。

似然优化采用基于动态规划的递归算法实现似然最大化，通过回调得到经过清洗的符号化时间序列。

然后在时间序列重建阶段将其中的符号转换回数值，从而产生最终的清理结果。

1. Time Series Symbolization

论文的这部分太绕了。

然后引入k-means实现聚类，然后对k-means解释一段，然后再引出k-means中的质量度量参数minimum Davies-Bouldin Index (DBI), 在说DBI和上面的beta之间的关系........读起来的地方很突兀.(跳过)

2 Probability Calculatio

这个类似有限马尔科夫分布计算就是xi仅仅受到i-1或者过去几个点的影响

3. Likelihood Optimization

问题 1 显然是一个优化问题，让人想起背包问题。因此，我们采用基于动态规划（DP）的伪多项式时间算法来解决这个问题。它旨在找到具有最大可能性的符号化时间序列。

这部分是动态规划算法的表达式，还是要直接看代码，伪代码

这个算法的关键点是 delta（budget）的选择，论文给出了一个例子：

随着预算从0开始增加，可能性不断上升，均方根误差不断下降。在预算为140时，均方根误差最小，之后开始稳步上升，但可能性仍在上升。这是由于过度清洗造成的。一般来说，可能性增长率，即每个预算的可能性增加，随着预算的增加而减慢，因为我们更愿意首先清理能够提高更多可能性的数据点。图3显示了过度清洗期间的小增长率，因为大多数脏点已经被识别和纠正。这使我们能够将选择一个适当的预算转变为确定一个增长率阈值，在这个阈值上，增长的可能性应该停止。

一般这类是一个tradeoff的问题，选择一个合适的参数，满足预定的条件。

我们可以启发式地以𝜔作为阈值来解决这种清洁情况。显然，如果阈值小于𝜔，我们可能会错误地修改许多最初干净的案例。

4. Time Series Reconstructio

我们获得了一个具有最大似然和最小困惑的干净的符号化时间序列。因此，我们通过从符号重建到数值的时间序列来完成清洗过程。

我们的想法包括使用LR模型(Linear Regression (LR)-based strategy)来拟合在清理过的数据点中找到的模式。基于周围初始干净的数据点和拟合的LR模型，我们可以计算出最可能的重建值。(直接看论文的例子)

三优化

1. 同态模式聚合

尽管图4所示的一年内的变化方式表现相似，并且可能是反复出现的模式，但由于每年乘客数量的增长，不同的基础值使得它们的值变化很大。就是序列在模式形态上相同，但是在一些值上有点变化。

我们的概率计算阶段，因为这样的模式将被单独计算。我们把这些模式称为同态模式，那些行为相似的模式属于同一个同态集合。为了处理更多的清理情况，我们在这里为我们的框架提出了高级策略。这有点像微分拓扑里面微分同胚的意思，只要在空间上几何满足一定性质，即使几何做各种变化，都是一个胚体出来的。

要避免对相同模式的子序列重复计算概率，这相当于是在优化计算过程

问题2是NP-Hard。我们可以通过将单位磁盘图(udg)[8,14,44]中的NP-Hard最小团分区(MCP)问题简化为它来证明它

5. 实验部分

我们从算法框架中选择了Akane (K-Means符码化+全局优化，无模式聚合)、AkaneH (K-Means符码化+启发式算法，无模式聚合)和AkaneH+(均匀符码化+启发式算法，有模式聚合)三种方法来评估其整体性能。我们将介绍详细的设置，并将其与12个真实数据集上的11个基线进行比较，以检验我们提出的方法是否真正有效，并进行深入的参数分析，以找出参数如何影响我们的方法。

5.1 实验数据

判断标准

在许多相关研究中，普遍采用均方根误差(RMS Error)来评价时间序列数据清理算法的质量

Comparisons with Existing Method

从实验结果看 Akane的效果是最好的，MSE的结果都很小，但是耗时就比较大。以时间换效率。因此对时效性要求比较高的流式数据，该算法可能就不适合了。

Comparisons on Fixed Datasets

这10个固定的数据集对于评估不同情况下的整体清洁能力是理想的。考虑到不同数据集的不同尺度，我们采用准确性作为更好的呈现效果的度量。它被定义为

For the Traffic, ID_7c18, ID_7698, and ID_a40b datasets， AkaneH+表现不佳，因为数据中许多微小且不显著的变化使得难以捕获有意义的循环模式并选择精确的预算。对于产品、零售和客运数据集，AkaneH+优于Akane和AkaneH，因为这些数据集中存在单一趋势，证明了采用同态模式聚合来检测和解决隐蔽偏差的有效性。结合之前的分析，Akane和AkaneH使用K-Means符号化，更适合具有特定非均匀分布特征的真实数据集。Akane优先考虑高效率，而AkaneH则利用贪婪的思想，在保留大部分功效的同时强调效率。AkaneH+使用万无一失的统一符号和同态模式聚合，适合于没有这种分布或太多先验知识的数据。它更喜欢像AkaneH这样的效率，并对具有单一趋势的数据表现出特别的精通

总结从实验结果和解释看出来，该算法在短周期和稀疏周期的捕获能力一般，甚至对非平稳数据的清洗能力也值得考虑，因此对高频率短波数据的效率可能也一般（文中没有这类数据的比较）

Parametric Analysis

参数敏感性分析结果看出，参数对清洗结果的RMS error影响是明显的。比如distance的结果中，改变参数，四个数据集上的差异性变化很大。比如马尔科夫阶数K的选择，AKane的三个变体结果都不稳定。因此这个算法应该依赖特定的类型的数据和相关的算法参数选择，如果算法能提取数据的先验知识，是不是对参数选择会更好呢？