近年来,基于shapelets的时间序列分类技术由于其较高的识别能力和良好的可解释性,引起了学术界的广泛关注。以往的shapelets生成方法主要是从训练时间序列中提取shapelets,或者学习多个参数的shapelets。虽然它们可以达到比其他方法更高的精度,但它们仍然面临一些挑战。首先,在原始时间序列空间中搜索或学习形状簇会产生巨大的计算成本。例如,处理数百个时间序列可能需要几个小时。其次,他们必须事先确定需要多少shapelets,这在没有先验知识的情况下是很难做到的。为了克服这些挑战,本文提出了一种新的shapelets学习算法。我们首先从分段聚合逼近(PAA)词空间中发现候选的shapelet,这比在原始时间序列空间中搜索要有效率得多。此外,提出了覆盖度的概念来衡量候选样本的质量,并在此基础上设计了一种计算最优shapelets数量的方法。然后,我们应用逻辑回归分类器对shapelets进行调整。在15个数据集上的大量实验表明,我们的算法在6个基线上更准确,在效率方面优于2个数量级。此外,我们的算法具有较少的冗余形状,更方便解释分类决策。
SHAPELET CANDIDATES DISCOVERY
我们的方法包括两个阶段。在第一阶段,我们发现每个类的shapelet候选者。我们不再从原始时间序列中搜索,而是从PAA空间生成候选序列,然后将它们还原到原始数值空间中。在第二阶段,我们使用一个学习模型来调整候选样本以生成最终的shapelets。
在本文中,我们提出了一个三步方法来发现shapelet候选。在第一步中,我们将D中的所有子序列转换为PAA单词。与前面基于结构的方法(PAA或SAX单词的窗口号w是固定的)不同,我们生成的PAA单词具有每个子序列的多个w值。这种方法可以解决第一部分中介绍的粒度不合理的问题。第二步,我们计算每个类中每个PAA词的TFIDF得分,并对其进行排序。得分越高的PAA词辨别力越强:在第三步中,对于每个类,从排序的PAA单词中,我们使用基于覆盖的方法来选择其中一些作为最终的候选集合。我们使用覆盖增益来衡量每个PAA词的贡献,并使用假集来确定候选的数量。所选的候选词各不相同,它们的集合可以提供较高的分类精度。
SHAPELETS ADJUSTMENT
该阶段的主要思想是在训练时间序列中不可能出现分辨能力最高的真实shapelets。因此,我们通过学习逻辑回归模型来调整形状,以实现准确的分类。同时,该过程不应花费太多时间,并应保留形状块的可解释性。
实验: