Efficient Learning Interpretable Shapelets for Accurate Time Series Classification

近年来,基于shapelets的时间序列分类技术由于其较高的识别能力和良好的可解释性,引起了学术界的广泛关注。以往的shapelets生成方法主要是从训练时间序列中提取shapelets,或者学习多个参数的shapelets。虽然它们可以达到比其他方法更高的精度,但它们仍然面临一些挑战。首先,在原始时间序列空间中搜索或学习形状簇会产生巨大的计算成本。例如,处理数百个时间序列可能需要几个小时。其次,他们必须事先确定需要多少shapelets,这在没有先验知识的情况下是很难做到的。为了克服这些挑战,本文提出了一种新的shapelets学习算法。我们首先从分段聚合逼近(PAA)词空间中发现候选的shapelet,这比在原始时间序列空间中搜索要有效率得多。此外,提出了覆盖度的概念来衡量候选样本的质量,并在此基础上设计了一种计算最优shapelets数量的方法。然后,我们应用逻辑回归分类器对shapelets进行调整。在15个数据集上的大量实验表明,我们的算法在6个基线上更准确,在效率方面优于2个数量级。此外,我们的算法具有较少的冗余形状,更方便解释分类决策。

 

SHAPELET CANDIDATES DISCOVERY

我们的方法包括两个阶段。在第一阶段,我们发现每个类的shapelet候选者。我们不再从原始时间序列中搜索,而是从PAA空间生成候选序列,然后将它们还原到原始数值空间中。在第二阶段,我们使用一个学习模型来调整候选样本以生成最终的shapelets。

在本文中,我们提出了一个三步方法来发现shapelet候选。在第一步中,我们将D中的所有子序列转换为PAA单词。与前面基于结构的方法(PAA或SAX单词的窗口号w是固定的)不同,我们生成的PAA单词具有每个子序列的多个w值。这种方法可以解决第一部分中介绍的粒度不合理的问题。第二步,我们计算每个类中每个PAA词的TFIDF得分,并对其进行排序。得分越高的PAA词辨别力越强在第三步中,对于每个类,从排序的PAA单词中,我们使用基于覆盖的方法来选择其中一些作为最终的候选集合。我们使用覆盖增益来衡量每个PAA词的贡献,并使用假集来确定候选的数量。所选的候选词各不相同,它们的集合可以提供较高的分类精度。

 

 

SHAPELETS ADJUSTMENT

该阶段的主要思想是在训练时间序列中不可能出现分辨能力最高的真实shapelets。因此,我们通过学习逻辑回归模型来调整形状,以实现准确的分类。同时,该过程不应花费太多时间,并应保留形状块的可解释性。

 

实验:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值