Diffusion Language-Shapelets for Semi-supervised Time-Series Classification

西西弗的小蚂蚁

已于 2024-04-10 10:43:28 修改

阅读量683

点赞数 8

文章标签：人工智能机器学习深度学习算法

于 2024-04-10 10:21:18 首次发布

本文链接：https://blog.csdn.net/zj_18706809267/article/details/137563884

版权

Diffusion Language-Shapelets for Semi-supervised Time-Series Classification AAAI-2024

半监督时间序列分类可以有效缓解标注数据缺乏的问题。然而，现有的方法通常忽略了模型的可解释性，使得人类很难理解模型预测背后的原理。Shapelets是一组判别子序列，在时间序列分类任务中具有很高的可解释性。基于Shapelet学习的方法有很好的分类性能。不幸的是，如果没有足够的标记数据，现有方法学习到的shapelets通常辨别能力很差，甚至与原始时间序列的任何子序列都不相似。

为了解决这个问题，我们提出了用于半监督时间序列分类的扩散语言shapelets模型(DiffShape)。在DiffShape中，设计了一种以子序列为条件的自监督扩散学习机制。这有助于通过使用大量未标记的数据来增加学习到的shapelets和实际子序列之间的相似性。此外，我们引入了一种对比语言-shapelets学习策略，通过结合时间序列的自然语言描述来提高学习到的shapelets的可判别性。在UCR时间序列档案上进行了实验，结果表明所提出的DiffShape方法达到了最先进的性能，并且在基线上具有优越的可解释性

总结：论文采用了扩散模型实现半监督的时间序列shaplets学习

论文论述：

我们提出了用于半监督时间序列分类的扩散语言hapelets模型(DiffShape)。与大多数现有的时间序列SSC方法不同，DiffShape自动为每个时间序列生成shapelets，从而提高了可解释性。

具体来说，DiffShape包含两种机制。第一种是基于真实子序列作为扩散条件的自监督学习机制，提高生成的shapelets与原始子序列之间的相似性。二是对比语言-shapelets学习机制，旨在提高生成shapelets的可判别性。通过结合这些机制，DiffShape在训练过程中有效地利用了时间序列的文本描述和分类器的分类信息，使生成的shapelets更有效地提高了分类性能。

一框架

DiffShape的示例如图1所示。DiffShape包含两个机制:(i)自监督扩散学习;(二)对比language-shapelets学习。

对于前者，我们首先用固定的滑动窗口对所有标记和未标记的时间序列进行切片，以提取实子序列。这些真实的子序列被送入卷积层，以获得学习到的shapelets(记为S0)。然后，计算S0与每个时间序列的所有真实子序列的相似度，搜索一组最相似的实子序列，记为Sr。最后，将S0和Sr作为g(·)馈入一维1-D U-Net网络，进行自监督学习。值得注意的是，DiffShape使用Sr作为扩散条件来指导模型生成shapelets 。

二 Diffusion for Shapelet Generation

这个过程需要改变原始扩散模型

DiffShape的扩散过程通过结合前向和逆过程来实现。在前向过程中，向shapelets添加噪声以创建扩散样本。然后在逆过程中，使用这些扩散样本和真实子序列作为条件来训练模型生成与真实子序列相似的shapelets。通过这种方式，DiffShape可以利用未标记数据来提高shapelets的可解释性，并在没有标签的情况下发现时间序列数据中的有用模式。

这个机制包括2个部分：寻找相似的真实子序列、Shapelet扩散。

三 Contrastive Language-Shapelets Learning

我们利用时间序列的标签构造语言-shapelets对进行对比学习，利用自然语言描述时间序列的丰富语义，提高生成shapelets的可判别性

实验效果

研究者使用了UCR时间序列存档来评估所提出的方法。与先前的时间序列SSC工作类似，选择了106个UCR时间序列数据集进行实验。

在106个UCR时间序列数据集上，DiffShape在不同标记比例下实现了最佳的分类性能。

在基准方法中，MTL和MTFC都采用了无监督的时间预测损失来学习未标记数据，但未能提高模型的分类性能。

SemiTime和SSSTC使用时间预测损失作为一致性正则化策略，在时间序列半监督分类的背景下证明是有效的。与有监督方法相比，Pseudo-Label和TS-TFC使用伪标记技术，可以有效地缓解缺乏标记数据的问题。

此外，研究者应用Wilcoxon符号秩检验来评估测试分类准确率的显著性。结果表明，DiffShape的分类性能显著优于所有考虑的基准方法（P值<0.05）。

下图是在标记比例为10%的ArrayHead数据集上shapelet的可视化，其中DiffShape的测试准确率为72.3%。

西西弗的小蚂蚁

关注

8
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
Diffusion Language-Shapelets for Semi-supervised Time-Series Classification

然后，计算S0与每个时间序列的所有真实子序列的相似度，搜索一组最相似的实子序列，记为Sr。通过结合这些机制，DiffShape在训练过程中有效地利用了时间序列的文本描述和分类器的分类信息，使生成的shapelets更有效地提高了分类性能。不幸的是，如果没有足够的标记数据，现有方法学习到的shapelets通常辨别能力很差，甚至与原始时间序列的任何子序列都不相似。我们利用时间序列的标签构造语言-shapelets对进行对比学习，利用自然语言描述时间序列的丰富语义，提高生成shapelets的可判别性。
复制链接

扫一扫