Efficient Learning Interpretable Shapelets for Accurate Time Series Classification

最新推荐文章于 2024-09-24 14:41:29 发布

西西弗的小蚂蚁

最新推荐文章于 2024-09-24 14:41:29 发布

阅读量216

点赞数

分类专栏：时间序列聚类文章标签：机器学习算法深度学习

本文链接：https://blog.csdn.net/zj_18706809267/article/details/125126927

版权

时间序列聚类专栏收录该内容

45 篇文章 10 订阅

订阅专栏

近年来，基于shapelets的时间序列分类技术由于其较高的识别能力和良好的可解释性，引起了学术界的广泛关注。以往的shapelets生成方法主要是从训练时间序列中提取shapelets，或者学习多个参数的shapelets。虽然它们可以达到比其他方法更高的精度，但它们仍然面临一些挑战。首先，在原始时间序列空间中搜索或学习形状簇会产生巨大的计算成本。例如，处理数百个时间序列可能需要几个小时。其次，他们必须事先确定需要多少shapelets，这在没有先验知识的情况下是很难做到的。为了克服这些挑战，本文提出了一种新的shapelets学习算法。我们首先从分段聚合逼近(PAA)词空间中发现候选的shapelet，这比在原始时间序列空间中搜索要有效率得多。此外，提出了覆盖度的概念来衡量候选样本的质量，并在此基础上设计了一种计算最优shapelets数量的方法。然后，我们应用逻辑回归分类器对shapelets进行调整。在15个数据集上的大量实验表明，我们的算法在6个基线上更准确，在效率方面优于2个数量级。此外，我们的算法具有较少的冗余形状，更方便解释分类决策。

SHAPELET CANDIDATES DISCOVERY

我们的方法包括两个阶段。在第一阶段，我们发现每个类的shapelet候选者。我们不再从原始时间序列中搜索，而是从PAA空间生成候选序列，然后将它们还原到原始数值空间中。在第二阶段，我们使用一个学习模型来调整候选样本以生成最终的shapelets。

在本文中，我们提出了一个三步方法来发现shapelet候选。在第一步中，我们将D中的所有子序列转换为PAA单词。与前面基于结构的方法(PAA或SAX单词的窗口号w是固定的)不同，我们生成的PAA单词具有每个子序列的多个w值。这种方法可以解决第一部分中介绍的粒度不合理的问题。第二步，我们计算每个类中每个PAA词的TFIDF得分，并对其进行排序。得分越高的PAA词辨别力越强：在第三步中，对于每个类，从排序的PAA单词中，我们使用基于覆盖的方法来选择其中一些作为最终的候选集合。我们使用覆盖增益来衡量每个PAA词的贡献，并使用假集来确定候选的数量。所选的候选词各不相同，它们的集合可以提供较高的分类精度。