Time Series Shapelets: A New Primitive for Data Mining

最新推荐文章于 2024-08-31 23:13:29 发布

西西弗的小蚂蚁

最新推荐文章于 2024-08-31 23:13:29 发布

阅读量412

点赞数

分类专栏：时间序列聚类文章标签：数据挖掘人工智能

本文链接：https://blog.csdn.net/zj_18706809267/article/details/125121856

版权

时间序列聚类专栏收录该内容

45 篇文章 10 订阅

订阅专栏

时间序列的分类在过去的十年中引起了人们极大的兴趣。最近的经验证据强烈表明，简单最近邻算法是很难击败大多数时间序列问题。虽然这可能被认为是好消息，但考虑到实现最近邻算法的简单性，这也有一些负面影响。首先，最近邻算法需要存储和搜索整个数据集，导致时间和空间的复杂性，限制了其适用性，特别是在资源有限的传感器上。其次，除了分类的准确性，我们通常希望对数据有一些了解。在这项工作中，我们引入了一个新的时间序列原语，时间序列shapelets，以解决这些局限性。非正式地说，shapelets是时间序列子序列，在某种意义上最大地代表了一个类。正如我们将在不同领域的广泛经验评估中展示的那样，基于时间序列shapelet基元的算法可以被解释，比最先进的分类器更准确、更快

优点：

Shapelets可以提供可解释的结果，这可以帮助领域从业者更好地理解他们的数据

在某些数据集上，Shapelets可以显著地更加准确/健壮

与现有的最先进的方法相比，Shapelets可以更快地进行分类。

基本定义：

FINDING THE SHAPELET

1）Brute-Force Algorithm

它的空间效率非常低，需要存储所有的shapelet候选者。

2）Subsequence Distance Early Abandon

Brute-Force Algorithm中，时间序列T到子序列S的距离是通过计算T和S中每个长度为|S|的子序列的欧氏距离并取最小值来得到的。这需要在子序列之间进行O(|T|)距离计算。然而，我们只需要知道最小距离，而不是所有的距离。因此，不需要计算每个子序列与候选子序列之间的精确距离，只要部分距离超过了目前已知的最小距离，就可以停止计算距离。这个技巧被称为早期放弃，它非常简单，但已经被证明对类似类型的问题非常有效。

Admissible Entropy Pruning

我们可以使用一种叫做早期熵剪枝的新思想，以避免在寻找shapelet时需要进行大量的距离计算。

基于这一观测，我们可以根据当前观测的距离计算出信息增益的上界，而不是等到我们得到每个时间序列对象到候选对象的所有距离。如果在搜索过程中的任何一点上，上界不能超过目前最好的信息增益，我们就停止距离计算，并从考虑中删除特定的候选项

西西弗的小蚂蚁

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Time Series Shapelets: A New Primitive for Data Mining

时间序列的分类在过去的十年中引起了人们极大的兴趣。最近的经验证据强烈表明，简单最近邻算法是很难击败大多数时间序列问题。虽然这可能被认为是好消息，但考虑到实现最近邻算法的简单性，这也有一些负面影响。首先，最近邻算法需要存储和搜索整个数据集，导致时间和空间的复杂性，限制了其适用性，特别是在资源有限的传感器上。其次，除了分类的准确性，我们通常希望对数据有一些了解。在这项工作中，我们引入了一个新的时间序列原语，时间序列shapelets，以解决这些局限性。非正式地说，shapelets是时间序列子序列，在某种意义上
复制链接

扫一扫

专栏目录