时间序列聚类
文章平均质量分 65
西西弗的小蚂蚁
不要辜负这美好的时光!
展开
-
WHEN: AWavelet-DTW Hybrid Attention Network for Heterogeneous Time Series Analysis KDD2023
具有较短距离 的规整方式具有较大的注意力系数 ,因此,在输出 b 中,具有较短距离的规整方式将获得更多的关注。因为每个滑动窗口采样后的 和 长度是有限的,所以它们对应的规整方式也是有限的(同时在滑动窗口长度较短时,规整方式总数目也并不大),假设总共有 种不同的规整方式,它们对应的 种规整距离可以写为。通过专门设计的分析,详细探讨了when处理时间序列异质性的能力。图 4 中,动态时间规整注意力模块的输入记为序列 ,这里论文采用一个滑动窗口覆盖输入序列 ,形成了图中的 ,而图中的 则是一个可学习的参数序列。原创 2023-10-02 21:34:47 · 189 阅读 · 0 评论 -
contrastive learning for unsupervised domain adaptation of time series
据我们所知,CLUDA是第一种为UDA在多元时间序列中学习域不变的上下文表示的方法。重要的是,我们的两个新组件-即我们的定制CL和NNCL -产生了明显的性能改进。据我们所知,我们的框架是第一个学习时间序列数据UDA的域不变上下文表示的框架。无监督域适应(UDA)旨在使用标记的源域学习机器学习模型,该模型在类似但不同的无标记目标域上表现良好。本文开发了一种新的时间序列数据UDA框架,称为clua。用广泛的时间序列数据集对所提出框架进行了评估,以证明其有效性,并表明其在时间序列UDA方面取得了最先进的性能。原创 2023-03-01 15:23:47 · 168 阅读 · 0 评论 -
Neuro-symbolic Models for Interpretable Time Series Classification using Temporal Logic Description
本文提出神经符号时间序列分类(NSTSC),一种神经符号模型,利用信号时序逻辑(STL)和神经网络(NN)来完成多视图数据表示的TSC任务,并将模型表示为人类可读、可解释的公式。然而,以往的工作仅显式地对时间序列与类别之间的关系进行建模,忽略了关系的多样性,信息利用不足。在包含111,888个多结果手术的大数据集和外部高分辨率ICU数据集上的实验表明,所提出模型可以实现强大的预测性能(即高准确性),并为基于术中时间序列的预测结果提供鲁棒的解释(即高透明度)。主要的术后并发症对手术患者是毁灭性的。原创 2023-02-22 20:21:36 · 7 阅读 · 0 评论 -
Learning to Reconstruct Missing Data from Spatiotemporal Graphs with Sparse Observations
Learning to Reconstruct Missing Data from Spatiotemporal Graphs with Sparse Observations 在一个(可能是动态的)图上将多元时间序列建模为时间信号是一个有效的表示框架,允许开发时间序列分析模型。事实上,自回归图神经网络可以处理离散的图序列,以递归地学习每个离散时间和空间点的表示。时空图通常是高度稀疏的,其中时间序列具有多并发长序列的缺失数据的特征,例如由于底层传感器网络的不可靠导致的缺失数据。在这种情况下,自回归模型原创 2022-12-03 14:25:23 · 18 阅读 · 0 评论 -
SeiSMo: Semi-supervised Time Series Motif Discovery for Seismic Signal Detection
这与准确的基于位置的sink识别是一个必要的偏差。如果s1100的最近邻居是s501100, s501100的最近邻居是s2100,那么算法将在第5行终止迭代,如果算法在第5行检查NN(NN(currentNode) = currentNode,则不会这样。该算法的输出是一组新检测到的事件的位置。例如,在地震学中,10秒的时间窗口对于地雷爆炸来说是足够的,而20秒的时间窗口对于地震来说是很好的。由于算法在子序列重叠的情况下停止,因此我们的算法依赖于数据的顺序,因为许多其他数据挖掘算法都是[22][14]。原创 2022-11-14 14:54:50 · 7 阅读 · 0 评论 -
Finding Motifs in Time Series
如何在时间序列数据库中有效地定位已知模式(即按内容查询)已成为一个亟待解决的问题。然而,从知识发现的角度来看,一个更有趣的问题是枚举以前未知的、频繁发生的模式。本文谨慎地提出并介绍了时间序列motif的一个重要定义。提出了一个有效的算法来发现它们,并在几个真实世界数据集上证明了所提出方法的效用和效率。这一点很重要,否则这两个主题的大部分元素可能是相同的,因此本质上是相同的。图4展示了投影到二维空间上的一组简单时间序列对这种条件的需求。这个定义强制每个motif中的子序列集是互斥的。原创 2022-11-12 16:21:30 · 7 阅读 · 0 评论 -
MERLIN: Parameter-Free Discovery of Arbitrary Length Anomalies in Massive Time Series Archives
本文认为,对这一单一用户选择的敏感性降低了不和谐的效用。这个问题的明显解决方案,计算所有长度的不一致,然后选择最佳异常(在某种度量下),在计算上似乎是站不住脚的。本文提出MERLIN算法,可以高效、准确地在大量时间序列档案中找到所有长度的不协调。在大规模和多样化的实验中证明了所提出想法的实用性,并表明MERLIN可以发现违背现有算法甚至是仔细人工检查的微妙异常。时间序列不一致是指时间序列的子序列与最近邻居的距离最大。如果有什么不同的话,这是一项在迅速发展的物联网时代变得越来越重要的任务。原创 2022-11-12 16:15:06 · 20 阅读 · 0 评论 -
Matrix Profile XIII: Time Series Snippets: A New Primitive for Time Series Data Mining
面对新数据源时,数据分析师提出的最基本的查询可能是“向我展示一些有代表性/典型的数据”。在许多领域中,回答这个问题是微不足道的,但令人惊讶的是,在大型时间序列数据集上是非常困难的。主要的困难不是时间或空间的复杂性,而是定义在这个领域中代表数据的含义。除了用于可视化和总结大规模时间序列集合外,时间序列片段对于大型时间序列集合的高层次比较也有用处。本文表明,明显的候选定义:motif、shapelets、聚类中心、随机样本等,都是糟糕的选择。段,一种典型时间序列子序列的新表示。原创 2022-11-12 16:09:38 · 9 阅读 · 0 评论 -
Matrix Profile XIX: Time Series Semantic Motifs: A New Primitive for Finding Higher-Level Structure
它们目前的定义局限于查找字面或近似精确的匹配,无法发现更高层次的语义结构。在当前的motif定义下,单泵握手无法与三泵握手相匹配,即使它们在文化和语义上是等价的事件。让我们将我们的想法应用到一个例子中,通过一个研究生的手机记录的加速度计数据来检查她生活中的一天。她跳过了繁忙的电梯,下了两段楼梯来到位于二楼的咖啡厅。无关区域的形状是任意的,会被忽略。然而,我们感兴趣的是发现这些未知的事件序列。令人惊讶的是,这种表现力的提高并没有付出很大的代价。前缀和后缀是相似的,而不在乎区域是不同的,其中一个要多出6秒。原创 2022-11-12 16:09:30 · 6 阅读 · 0 评论 -
Matrix Profile
对于异常大的数据集,该算法可以简单地转换为任意时间算法,并在合理的时间内产生高质量的近似解。精确相似性连接算法计算了时间序列motif和时间序列不一致问题的答案,该算法顺便提供了这两个广泛研究的问题的最快的已知算法。虽然发现Time series discords 的蛮力算法在时间序列长度上是二次的,但本文展示了一个简单的算法,比蛮力快3到4个数量级,同时保证产生相同的结果。然而,在真正的探索性数据挖掘中,这个参数的糟糕选择可能导致无法在数据中发现意想不到的和可利用的规律。原创 2022-11-12 15:54:24 · 16 阅读 · 0 评论 -
Matrix Profile XV: Exploiting Time Series Consensus Motifs to Find Structure in Time Series Sets
本文提出一种时间序列共识motif的定义,以及一种可扩展的算法,用于在大规模数据集中发现它们。到目前为止,还没有工具来发现时间序列集中的重复结构,我们将这种想法称为时间序列共识motif,以识别它们与DNA字符串中离散类似物的相似性。我们现在要问相应的问题,是否存在一个保守的模式,覆盖一秒的间隔,出现在每个时间序列中?近年来,数据挖掘界普遍认为,时间序列分析中的许多问题本质上都可以归结为发现并推理时间序列中的重复结构。我们把时间序列数据集中的重复结构,时间序列共识motif,原创 2022-11-12 15:34:40 · 49 阅读 · 0 评论 -
motif
该算法本质上是概率的,但正如我们根据经验和理论表明的那样,即使在存在噪声或“不关心”符号的情况下,它也可以以非常高的概率找到时间序列motif。如果在执行此操作时遇到一个距离小于当前最好值的pair,则可以更新它,如图4所示在我们的例子中,我们从左到右滑动,将O8和O6之间的估计距离从3.0更新为正确距离42.0。本文推广了时间序列模体的定义,使其能够考虑不关心的子片段,并提出了一种新的时间和空间高效的算法来发现模体。时间序列motif是一对独立的时间序列,或者较长的时间序列的子序列,它们彼此非常相似。原创 2022-11-12 15:02:22 · 152 阅读 · 0 评论 -
Rare Time Series Motif Discovery from Unbounded Streams
时间序列(motif)是时间序列流中的近似重复子序列,其检测在许多更高层次的数据挖掘算法中具有重要的作用。假设我们有一个无穷无尽的时间序列流S,它在R中主要产生无模式数据的实例,在G中以较小的概率产生未知模式的实例(我们将在后面定义无模式)。如图2中运行的示例所示,G中的项在视觉上看起来彼此相似,但不是完全相似。具体来说,G中的模式具有在r中数据的典型统计特性。因此,本工作的定义假设是,我们可以判断一个项目是否在G中,唯一的方法是注意它与另一个也怀疑来自G的项目足够相似,我们称之为匹配(参见定义5)。原创 2022-11-12 13:48:05 · 37 阅读 · 0 评论 -
Online Discovery and Maintenance of Time Series Motifs
本文提出了第一个在线motif发现算法,在流的最近历史中准确地实时监控和维护motif。该算法的最坏情况下更新时间与窗口大小成线性关系,并且可扩展以维护更复杂的模式结构。相比之下,当前的离线算法要么需要大量的更新时间,要么需要非常昂贵的预处理步骤。重复子序列(时间序列motifs)的检测问题对于分类、聚类、分割、预测和规则发现等高级数据挖掘算法都有重要意义。我们的核心思想允许对算法进行有用的扩展,以处理任意数据率和发现多维图案。通过机器人、声学监测和在线压缩领域的各种案例研究,证明了所提出算法的实用性。原创 2022-11-12 11:09:18 · 8 阅读 · 0 评论 -
ASAP: Prioritizing Attention via Time Series Smoothing
本文用一种简单的策略解决了时间序列中注意力优先级的挑战:在保持大规模偏差的同时,尽可能平滑的时间序列可视化。与旨在产生视觉上无法区分的原始信号表示的现有平滑技术(例如,[35,57])不同,ASAP旨在“扭曲”可视化(例如,通过消除局部波动),以突出关键偏差(例如,如图1所示),并优先考虑最终用户的注意力[18]。提出了量化评估平滑图质量的指标,并提供了一种有效的搜索策略,用于优化这些指标,通过基于自相关的剪枝、像素感知的预聚合和按需刷新,结合了来自流处理、用户界面设计和信号处理的技术。原创 2022-11-08 20:59:15 · 6 阅读 · 0 评论 -
Separation or Not: On Handing Out-of-Order Time-Series Data in Leveled LSM-Tree
在合成数据集和真实数据集上的实验表明,该模型在不同的延迟分布下均具有较高的WA估计精度。此外,基于估计模型,在开源的Apache IoTDB中实现了一个analyzer模块,用于选择低WA的策略。然而,给定特定的内存预算来缓冲数据,level LSM-Tree的写放大(WA)会受到πs的影响。分离的影响是正的还是负的,以及影响WA的程度取决于工作负载的属性以及有序和乱序memtable的容量。根据传统的策略(用πc表示),在写入数据时,首先将数据缓存在内存的MemTable中。原创 2022-11-01 19:53:43 · 5 阅读 · 0 评论 -
Fast Similarity Search in the Presence of Noise, Scaling, andTranslation in Time-Series Databases
该匹配系统由三个主要部分组成:(i)“原子”子序列匹配,(ii)长序列匹配和(iii)序列匹配。其基本思想是使用较小的原子子序列创建一个快速的、可索引的数据结构,该子序列表示所有序列的幅度缩放和偏移。第三阶段对第二阶段匹配到的子序列进行线性排序,以确定两个序列中是否存在足够的相似片段。如果两个子序列中的一个可以被包含在另一个周围的指定宽度的包络内,则认为它们是相似的。相似性序列模型,捕捉到的直观序列应该被认为足够相似的非重叠序列。该模型还允许在匹配的子序列中存在非匹配的空白。原创 2022-10-27 16:08:22 · 6 阅读 · 0 评论 -
Streaming Pattern Discovery in Multiple Time-Series
发现的趋势还可以用来立即发现潜在的异常,进行有效的预测,更一般地说,可以大大简化进一步的数据处理。阅读者总结:这是一篇很有趣的论文,利用了统计上的方法实现隐藏变量的检测。可以将数百个数值流简化为少数几个隐藏变量,这些变量紧凑地描述了关键趋势,并极大地降低了进一步数据处理的复杂性。第一步,对于给定的k,增量更新k个参与权重向量wi, 1≤i≤k,从而只用少量数字(隐藏变量)总结原始流。(例如,同一栋建筑的温度、同一网络的流量、同一市场的价格等),SPIRIT还适应所需的隐藏变量的数量k,以捕获大多数信息。原创 2022-10-27 15:16:03 · 4 阅读 · 0 评论 -
Palette: Towards Multi-source Model Selection and Ensemble for Reuse
虽然源任务和目标任务应该足够相似,但任务相关度的计算通常需要额外的源训练数据存储和领域专家的大量工作,这在许多应用中是不切实际的。给定一组源模型,旨在选择一个源模型子集,并开发一个对目标任务达到最佳性能的集成模型。在MAB中,每个模型都可以看作是一个bandit的手臂,观察到的模型评估结果表明扮演一个想得到的bandit的奖励,目标是快速识别具有最高奖励的arms。总结来说:论文就是提出了一个集成方法,该模型主要借鉴了多臂老虎机的方式,选择最佳的模型。这里面的细节,比如每个模型选择的loss等。原创 2022-09-15 16:00:30 · 10 阅读 · 0 评论 -
dCAM: Dimension-wise Class Activation Mapfor Explaining Multivariate Data Series Classification(DB)
例如,在图1中,dCAM(底部热图)指向特定维度的特定子序列,解释了为什么两种手势不同。该方法只需要一个训练阶段,不受架构类型的限制,并且可以高效有效地检索可判别特征,这得益于一种利用来自输入数据维度不同排列的信息的技术。因此,我们可以应用CAM的任何类型的架构都可以从我们的方法中受益。在多个合成数据集和真实数据集上的实验表明,dCAM不仅比以往的方法更准确,而且是多元时间序列中判别性特征发现和分类解释的唯一可行解决方案。本文提出一种新的方法,通过同时突出时间和维度的判别信息来解决这个问题。...原创 2022-08-15 16:42:21 · 491 阅读 · 0 评论 -
IPS: Instance Profile for Shapelet Discovery for Time Series Classification
简而言之,该指标可以将a类和B类的不一致识别为shapelets(第1期,不一致识别为“shapelets”),这可能在矩阵剖面之间有很大的差异。之前的工作[37]将所有时间序列实例连接为一个长实例,这降低了shapelets的多样性(第2期,shapelets多样性的缺乏),尽管可以通过选取topk shapelets[37]来缓解这一问题。因此,定义“大多数元素”是很重要的。利用LSH函数将产生候选序列的整个时间序列哈希到桶中(也称为聚类),并根据每个桶(聚类)的中心与原始桶的距离对桶进行排序。....原创 2022-08-09 16:34:39 · 283 阅读 · 0 评论 -
Multi-series Time-aware Sequence Partitioning for Disease Progression Modeling
基于ehr,在这项工作中,我们关注败血症——一种可以从几乎所有类型的感染(如流感、肺炎)发展而来的广泛综合征。败血症的症状,如心率升高、发烧和呼吸短促,对其他疾病来说是模糊的和常见的,这使得对其进展的建模极具挑战性。更重要的是,它揭示了可解释的模式,有助于更好地理解败血症的进展。例如,在我们的ehr中,两个连续记录之间的间隔范围为0.94秒到28.19小时。将TICC单独应用于每个访问可能会导致不同访问之间的模式不一致,而将所有访问合并为一个序列可能会在相邻访问之间的连接处引入一些不希望出现的模式。...原创 2022-08-07 16:16:43 · 171 阅读 · 0 评论 -
Long-term Spatio-Temporal Forecasting via Dynamic Multiple-Graph Attention
许多现实世界中无处不在的应用,如停车建议和空气污染监测,都从精确的长期时空预测(LSTF)中获益良多。LSTF利用了空间和时间域、上下文信息和数据中的固有模式之间的长期依赖关系。近年来的研究表明,多图神经网络(MGNNs)具有提高预测性能的潜力。然而,现有的MGNN方法普遍存在通用性不强、对上下文信息利用不足、图融合方法不平衡等问题,无法直接应用于LSTF。为了解决这些问题,我们构建了新的图模型来表示每个节点的上下文信息和长期的时空数据依赖结构。为了融合多图信息,我们提出了一种新的动态多图融合模块,通过空间原创 2022-06-27 23:25:59 · 1220 阅读 · 1 评论 -
DeepExtrema: A Deep Learning Approach for Forecasting Block Maximain Time Series Data
由于极端事件对人类和自然系统的重大影响,准确预测时间序列中的极端值至关重要。本文提出了一种将深度神经网络(DNN)与广义极值(GEV)分布相结合的预测时间序列块最大值的新框架——DeepExtrema。实现这样的网络是一个挑战,因为即使在初始化DNN时,框架也必须保持GEV模型参数之间的相互依赖约束。我们描述了解决这一挑战的方法,并提出了一种体系结构,该体系结构支持对块最大值的条件平均值和分位数进行预测。在真实数据和合成数据上进行的大量实验表明,与其他基线方法相比,DeepExtrema具有优越性背景:1)原创 2022-06-27 21:37:35 · 496 阅读 · 0 评论 -
Triple-shapelet Networks for Time SeriesClassification(ICDM2020)
Shapelets是时间序列分类的判别子序列。尽管基于形状的方法已经取得了良好的性能和可解释性,但它们仍然有两个问题需要改进。首先,以前的方法只是通过对所有样本进行分类的准确性来评估一个shapelet。然而,对于多类不平衡分类任务,这些方法将忽略能够区分少数类和其他类的shapelets,而倾向于使用能够区分多数类的shapelets。其次,在训练阶段后,shapelets是固定的,不能适应有变形的时间序列,这将导致该shapelets匹配不佳。在本文中,我们提出了一种新的端到端shapelet学习模型,原创 2022-06-26 15:48:53 · 314 阅读 · 0 评论 -
Difference-Guided Representation LearningNetwork for Multivariate Time-SeriesClassification(TCYB)
多变量时间序列广泛应用于医学、多媒体、制造业、动作识别、语音识别等领域。MTS的准确分类已成为一个重要的研究课题。传统的MTS分类方法没有对时间序列的时间差异信息进行显式建模,而时间差异信息实际上是重要的,反映了动态演化信息。本文提出了差分引导表示学习网络(DGRL-Net),利用动态演化信息指导时间序列的表示学习。DGRL-Net由差分引导层和多尺度卷积层组成。首先,在差分引导层,我们提出了一个差分门控LSTM来建模时间依赖性和动态演化的时间序列,以获得原始序列和差分序列的特征表示。然后,将这两个表示作为原创 2022-06-26 13:26:33 · 236 阅读 · 0 评论 -
Time Series Anomaly Detection with Multiresolution Ensemble Decoding(AAAI2021)
循环自编码器是一种常用的时间序列异常检测模型,它利用异常点或异常段的高重建误差来识别异常点或异常段。然而,现有的循环式自动编码器由于序贯解码,容易出现过拟合和错误累积的问题。在本文中,我们提出了一种简单而有效的循环网络集成,称为多分辨率集成译码循环自编码器(RAMED)。通过使用不同译码长度的译码器和一种新的粗到细融合机制,较低分辨率的信息可以帮助译码器实现高分辨率输出的长距离译码。进一步引入多分辨率形状强迫损失,以鼓励解码器在多个分辨率下输出匹配输入的全局时间形状。最后,利用分辨率最高的解码器的输出,在每原创 2022-06-26 10:13:14 · 725 阅读 · 0 评论 -
Joint-Label Learning by Dual Augmentation for Time Series Classification(AAAI2020)
近年来,深度神经网络(DNNs)在时间序列分类方面取得了优异的性能。然而,dnn需要大量标记数据进行监督训练。虽然数据增强可以缓解这个问题,但标准方法给来自同一来源的所有增强样本分配相同的标签。这导致数据分布的扩展,以至于分类边界可能更难确定。在本文中,我们提出了双重增广联合标签学习(JobDA),可以在不扩展原始数据分布的情况下丰富训练样本。相反,我们对时间序列应用简单的转换,并给这些修改过的时间序列新的标签,以便模型必须区分这些数据和原始数据,以及分离原始类。该方法细化了原始时间序列周围的边界,获得了较原创 2022-06-26 09:07:49 · 130 阅读 · 0 评论 -
TapNet: Multivariate Time SeriesClassification with Attentional Prototypical Network(AAAI2020)
随着传感器技术的发展,多元时间序列分类(MTSC)问题是时间序列数据挖掘领域中最重要的问题之一,近几十年来一直受到人们的关注。传统的基于Bag-of-Patterns或time series Shapelet的时间序列分类方法难以处理高维多元数据中产生的大量候选特征,但即使在训练集很小的情况下,仍具有良好的分类性能。相比之下,基于深度学习的方法可以有效地学习低维特征,但缺乏标记数据。在本文中,我们提出了一种新的MTSC模型,该模型带有注意力原型网络,同时吸收了传统方法和基于深度学习的方法的优点。具体而言,我原创 2022-06-25 20:24:15 · 1917 阅读 · 1 评论 -
Adversarial Dynamic Shapelet Networks(AAAI2020)
Shapelets是时间序列分类的判别子序列。近年来,提出了用梯度下降法直接学习时间序列shapelets (LTS)。虽然基于学习的shapelet方法取得了比以往方法更好的效果,但它们仍然存在两个不足之处。首先,学习到的shapelets经过训练后是固定的,在测试阶段不能适应有变形的时间序列;其次,通过反向传播学习到的shapelets可能与任何真实子序列都不相似,这与shapelets的初衷相反,降低了模型的可解释性。本文提出了一种新型的shapelet学习模型——对抗动态shapelet网络(ADS原创 2022-06-25 17:46:11 · 735 阅读 · 0 评论 -
ShapeNet: A Shapelet-Neural Network Approach forMultivariate Time Series Classification(AAAI2021)
时间序列shapelets是一种具有短分辨性的子序列,近年来被发现在单变量时间序列的分类问题中不仅具有精确性,而且具有可解释性。然而,现有的关于shapelets选择的研究还不能应用于多变量时间序列分类(MTSC),因为MTSC的候选shapelets可能来自不同长度的变量,因此无法直接进行比较。为了解决这一问题,本文提出了一种新的ShapeNet模型,该模型将不同长度的shapelet候选者嵌入到一个统一的空间中进行shapelet选择。该网络采用聚类三组损失训练,考虑锚点与多个正(负)样本之间的距离和正原创 2022-06-25 12:13:43 · 1538 阅读 · 5 评论 -
Efficient Shapelet Discovery for Time Series Classification(TKDE)
时间序列shapelets是一种鉴别子序列,近年来被发现用于时间序列分类(TSC)。很明显,shapelets的质量对TSC的准确性至关重要。然而,主要的研究集中在从一些候选shapelet中建立精确的模型。为了确定这些候选者,现有的研究出奇地简单,例如,枚举某些固定长度的子序列,或随机选择一些子序列作为shapelet候选者。然后,主要的计算工作就是从候选对象构建模型。在本文中,我们提出了一种新的高效的shapelet发现方法,称为BSPCOVER,以发现一组高质量的候选shapelet用于模型构建。具体原创 2022-06-24 20:41:42 · 376 阅读 · 0 评论 -
Adaptive Temporal-Frequency Network for Time-Series Forecasting(TKDE)
提出了一种用于中长期时间序列预测的自适应时频网络(ATFN),它是一种融合深度学习网络和频繁模式的端到端混合模型。在ATFN框架内,利用增广序列到序列模型学习复杂非平稳时间序列的趋势特征,利用频域块捕捉时间序列数据的动态和复杂周期模式,利用全连接神经网络将趋势和周期特征结合起来产生最终的预测。设计了相位自适应、频率自适应和幅度自适应的频率机制,将当前滑动窗口的频谱映射到预测区间的频谱。多层神经网络进行类似于反离散傅里叶变换的变换来生成周期性特征预测。利用不同周期特征的合成数据和实际数据来评估模型的有效性。实原创 2022-06-23 22:42:49 · 560 阅读 · 1 评论 -
Variable-Length Subsequence Clustering in Time Series(TKDE)
序列聚类是时间序列数据挖掘中的一个重要问题。观察到大多数时间序列由不同的未知长度的模式组成,我们提出了一个优化框架,以自适应估计不同模式的长度和表示。我们的框架最小化内部子序列集群错误与子序列集群和分割在时间序列覆盖约束下,子序列集群的长度可以是可变的。为了优化我们的框架,我们首先生成大量不同长度的初始子序列簇。然后,通过分簇、合并和移除三个聚类操作,分别对不同模式组成的聚类进行拆分、加入属于同一模式的相邻聚类以及将聚类移除到预定义的聚类号,迭代细化聚类长度和表示。在每次聚类细化过程中,我们采用一种基于动态原创 2022-06-23 20:50:53 · 321 阅读 · 0 评论 -
Anomaly Detection in Quasi-Periodic TimeSeries Based on Automatic Data Segmentation and Attentional
准周期时间序列在现实世界中广泛存在,探测准周期时间序列的异常具有重要意义。本文提出了一种自动QTS异常检测框架(AQADF),该框架由基于两级聚类的QTS分割算法(TCQSA)和混合注意LSTM-CNN模型(HALCM)组成。TCQSA首先自动将QTS划分为准周期,然后利用HALCM将准周期划分为正常周期或异常周期。值得注意的是,TCQSA融合了层次聚类和k-means技术,具有很强的通用性和抗噪声性。HALCM将LSTM和CNN混合,同时提取QTS的整体变化趋势和局部特征,对其波动模式进行建模。此外,我们原创 2022-06-23 17:27:28 · 355 阅读 · 1 评论 -
DenForest: Enabling Fast Deletion in Incremental Density-Based Clustering over Sliding Windows(2022)
基于密度的聚类被用于各种应用,如热点检测或分割。为了实时地服务于这些应用程序,需要通过只捕获最近的数据来增量地更新集群。以往基于增量密度的聚类算法常常以图的形式表示聚类,性能下降严重。这是因为当移除一个点时,需要花费大量的图遍历来检查集群是否仍然连接。为了解决删除速度慢的问题,本文提出了一种新的基于增量密度的聚类算法DenForest。通过将集群维护为一组生成树而不是一个图,DenForest可以有效和准确地确定一个集群是否要在对数时间内从窗口中删除一个点。经过广泛的评估,证明DenForest显著优于最先原创 2022-06-22 18:54:59 · 196 阅读 · 0 评论 -
dCAM: Dimension-wise Class Activation Mapfor Explaining Multivariate Data Series Classification
数据序列分类是数据科学中一个重要且具有挑战性的问题。通过找到导致算法做出某些决策的输入的判别部分来解释分类决策是许多应用中真正需要的。卷积神经网络在数据序列分类任务中表现良好;但是,这类算法对多元数据序列的具体情况的解释并不充分。解决这个重要的限制是一个重大的挑战。在本文中,我们提出了一种新的方法,通过突出时间和维度的判别信息来解决这个问题。我们的贡献是双重的:我们首先描述了一个卷积架构,它支持维度的比较;然后,我们提出了一种返回dCAM的方法,这是一种专门为多元时间序列(以及基于cnn的模型)设计的维度类原创 2024-04-25 09:48:35 · 251 阅读 · 0 评论 -
Efficient Learning Interpretable Shapelets for Accurate Time Series Classification
近年来,基于shapelets的时间序列分类技术由于其较高的识别能力和良好的可解释性,引起了学术界的广泛关注。以往的shapelets生成方法主要是从训练时间序列中提取shapelets,或者学习多个参数的shapelets。虽然它们可以达到比其他方法更高的精度,但它们仍然面临一些挑战。首先,在原始时间序列空间中搜索或学习形状簇会产生巨大的计算成本。例如,处理数百个时间序列可能需要几个小时。其次,他们必须事先确定需要多少shapelets,这在没有先验知识的情况下是很难做到的。为了克服这些挑战,本文提出了一原创 2022-06-08 00:05:10 · 196 阅读 · 0 评论 -
Searching and Mining Trillions of Time Series Subsequences under Dynamic Time Warping
大多数时间序列数据挖掘算法都将相似度搜索作为核心子程序,因此相似度搜索的时间是几乎所有时间序列数据挖掘算法的瓶颈。将搜索扩展到大型数据集的困难在很大程度上解释了为什么大多数时间序列数据挖掘的学术工作停留在考虑几百万个时间序列对象,而许多工业和科学领域却有数十亿个时间序列对象等待探索。在这项工作中,我们表明,通过使用四个新的想法的组合,我们可以搜索和挖掘真正大规模的时间序列第一次。我们证明了以下极不直观的事实;在大型数据集中,我们可以在DTW下精确搜索,比目前最先进的欧几里得距离搜索算法快得多。我们在有史以来原创 2022-06-08 00:06:14 · 260 阅读 · 0 评论 -
iSAX: Indexing and Mining Terabyte Sized Time Series
目前在索引和挖掘时间序列数据方面的研究产生了许多有趣的算法和表示。然而,所考虑的算法和数据大小通常不能代表科学、工程和商业领域中遇到的日益庞大的数据集。在这项工作中,我们展示了如何使用一种新颖的多分辨率符号表示来索引比文献中考虑的任何其他数据集都大几个数量级的数据集。我们的方法允许快速精确搜索和超快速近似搜索。我们将展示如何在数据挖掘算法中利用这两种搜索类型的组合作为子例程,从而允许对包含数百万个时间序列的真正大规模的真实世界数据集进行精确挖掘。相关工作:1)Time Series Distance Mea原创 2022-06-08 00:06:33 · 548 阅读 · 0 评论