Time Series Shapelets: A New Primitive for Data Mining

时间序列的分类在过去的十年中引起了人们极大的兴趣。最近的经验证据强烈表明,简单最近邻算法是很难击败大多数时间序列问题。虽然这可能被认为是好消息,但考虑到实现最近邻算法的简单性,这也有一些负面影响。首先,最近邻算法需要存储和搜索整个数据集,导致时间和空间的复杂性,限制了其适用性,特别是在资源有限的传感器上。其次,除了分类的准确性,我们通常希望对数据有一些了解。在这项工作中,我们引入了一个新的时间序列原语,时间序列shapelets,以解决这些局限性非正式地说,shapelets是时间序列子序列,在某种意义上最大地代表了一个类。正如我们将在不同领域的广泛经验评估中展示的那样,基于时间序列shapelet基元的算法可以被解释,比最先进的分类器更准确、更快

优点:

Shapelets可以提供可解释的结果,这可以帮助领域从业者更好地理解他们的数据

在某些数据集上,Shapelets可以显著地更加准确/健壮

与现有的最先进的方法相比,Shapelets可以更快地进行分类。

基本定义:

 

 

 

 

 FINDING THE SHAPELET

1)Brute-Force Algorithm

 它的空间效率非常低,需要存储所有的shapelet候选者。

2)Subsequence Distance Early Abandon

Brute-Force Algorithm中,时间序列T到子序列S的距离是通过计算T和S中每个长度为|S|的子序列的欧氏距离并取最小值来得到的。这需要在子序列之间进行O(|T|)距离计算。然而,我们只需要知道最小距离,而不是所有的距离。因此,不需要计算每个子序列与候选子序列之间的精确距离,只要部分距离超过了目前已知的最小距离,就可以停止计算距离。这个技巧被称为早期放弃,它非常简单,但已经被证明对类似类型的问题非常有效。

 

 Admissible Entropy Pruning

我们可以使用一种叫做早期熵剪枝的新思想,以避免在寻找shapelet时需要进行大量的距离计算。

基于这一观测,我们可以根据当前观测的距离计算出信息增益的上界,而不是等到我们得到每个时间序列对象到候选对象的所有距离。如果在搜索过程中的任何一点上,上界不能超过目前最好的信息增益,我们就停止距离计算,并从考虑中删除特定的候选项

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值