Time Series as Images: Vision Transformer for Irregularly Sampled Time Series

最新推荐文章于 2025-03-20 17:02:43 发布

萧宛亦

最新推荐文章于 2025-03-20 17:02:43 发布

阅读量982

点赞数 1

文章标签： transformer 深度学习人工智能

原文链接：https://arxiv.org/abs/2303.12799

版权

系列文章目录

作为图像的时间序列:不规则采样时间序列的视觉转换器 NeurIPS 2023
例如：第一章 Python 机器学习入门之pandas的使用

文章目录

系列文章目录
摘要
一、介绍
二、相关工作
三、方法
- 3.1时间序列到图像的变换
3.2用于时间序列建模的视觉变压器
四、实验

摘要

不规则采样时间序列越来越普遍，特别是在医疗领域。虽然已经开发了各种专门的方法来处理这些不规则性，但有效地建模其复杂的动力学和明显的稀疏性仍然是一个挑战。本文引入了一种新的视角，将不规则采样的时间序列转换成线形图像，然后利用强大的预训练视觉变压器进行时间序列分类，就像对图像进行分类一样。这种方法不仅大大简化了专门的算法设计，而且有可能成为时间序列建模的通用框架。值得注意的是，尽管它很简单，但我们的方法在几个流行的医疗保健和人类活动数据集上优于最先进的专业算法。特别是在测试过程中忽略部分变量的严格的传感器设置中，我们的方法对不同程度的缺失观测显示出很强的鲁棒性，即使在一半变量被掩盖的情况下，也比领先的专业基线在绝对F1得分上取得了42.8%的令人印象深刻的提高。代码和数据可在https://github.com/Leezekun/ViTST.

提示：以下是本篇文章正文内容

一、介绍

时间序列数据在广泛的领域中无处不在，包括医疗保健、金融、交通和气候科学。随着LSTM[13]、时序卷积网络(TCN)[18]和Transformer[38]等深度学习架构的进步，已经开发了许多用于时间序列建模的算法。然而，这些方法通常假设以固定的间隔和固定大小的数值输入完全观察到的数据。因此，这些方法在面对不规则采样时间序列时遇到困难，因为不规则采样时间序列由一系列观测时间间隔不规则的样本组成。为了应对这一挑战，人们开发了高度专业化的模型，这需要在模型架构选择和算法设计方面有大量的先验知识和努力[24,20,3,16,49,34,48]。

与此同时，基于预训练变压器的视觉模型，尤其是视觉变压器，已经出现，并在各种视觉任务中表现出强大的能力，如图像分类和目标检测，几乎接近人类水平的性能。受人类通过可视化分析复杂数值时间序列数据的灵活有效方式的启发，我们提出了一个问题:这些强大的预训练视觉转换器能否像人类一样，在可视化时间序列数据中捕获时间模式?

为了研究这个问题，我们提出了一种称为ViTST(视觉时间序列转换器)的极简方法，它涉及将不规则采样的多变量时间序列转换成线形图，将它们组织成标准的RGB图像格式，并使用得到的图像作为输入，对预训练的视觉转换器进行分类微调，如图1所示。

在这里插入图片描述
图1:我们的方法ViTST的说明。该示例来自医疗保健数据集P12[12]，该数据集为患者提供了36个变量的不规则采样观察结果(为了简单起见，我们在这里只显示了4个变量)。表中的每一列是一个变量的观测值，具有观测到的时间和值。我们为每个变量绘制单独的线形图，并将它们排列成单个图像，然后将其输入视觉转换器进行分类。

线形图是时间序列数据的一种有效的可视化技术，无论其不规则性、结构和尺度如何。它们可以捕获关键的模式，例如在单个线形图中表示的时间动态，以及在单独图形中变量之间的相互关系。这种可视化技术对我们的方法有好处，因为它既简单又直观地易于理解，可以为时间序列到图像的转换提供直接的决策。以这种方式利用视觉模型进行时间序列建模反映了提示工程的概念，其中个人可以直观地理解和制作提示，从而潜在地提高语言模型的处理效率。

我们对提出的方法ViTST进行了全面的调查和验证，该方法已证明其优于专门为不规则采样时间序列设计的最先进(SoTA)方法。具体而言，对于医疗数据集P19 b[29]和P12 [12]， ViTST在绝对AUROC点上分别超过了先前的SoTA 2.2%和0.7%，在绝对AUPRC点上分别超过了1.3%和2.9%。对于人类活动数据集PAM[28]，我们观察到与现有的SoTA方法相比，准确度提高了7.3%，精密度提高了6.3%，召回率提高了6.2%，F1分数(绝对分数)提高了6.7%。我们的方法对缺失的观测值也表现出很强的鲁棒性，在不考虑传感器的情况下，在绝对F1得分点上，我们的方法比以前的领先解决方案高出42.8%，其中测试集中一半的变量在测试期间被掩盖。此外，当对常规时间序列数据(包括变量数量变化和序列长度延长的数据)进行测试时，ViTST仍然取得了与常规时间序列建模专用算法相当的优异结果。这强调了我们方法的多功能性，因为为定期采样的时间序列设计的传统方法通常难以处理不规则采样的数据，反之亦然。

总的来说，这项工作的贡献有三个方面:(1)我们提出了一种简单而高效的多元不规则采样时间序列分类方法。尽管它很简单，但我们的方法相对于高度专门化的SoTA方法获得了强有力的结果。(2)我们的方法在不规则和规则时间序列数据上都展示了出色的结果，展示了它作为时间序列建模通用框架的多功能性和潜力。它提供了一个强大的解决方案，能够处理具有不同特征的各种时间序列数据集。(3)我们的工作证明了知识从自然图像预训练的视觉转换器成功转移到合成的可视化时间序列线形图图像。我们预计这将有助于在时间序列领域中使用快速发展和研究充分的计算机视觉技术，例如更好的模型架构[23]，数据增强[32]，可解释性[4]和自监督预训练[15]。

二、相关工作

不规则采样时间序列 不规则采样时间序列是一系列观测值，它们之间的时间间隔是不同的。在多变量设置中，同一时间序列中的不同变量可能不对齐。这些特征对标准时间序列建模方法提出了重大挑战，这些方法通常假设充分观察和定期采样数据点。处理不规则采样的一种常用方法是将连续时间观测值转换为固定时间间隔[24,20]。为了解释观测之间的动态，已经提出了几种模型，例如GRU- d[3]，它基于门控循环单元(GRU)[6]衰减隐藏状态。同样，[46]提出了一种基于多向RNN的方法，可以捕获蒸汽间和蒸汽内的模式。除了循环和基于微分方程的模型架构外，最近的工作还探索了基于注意力的模型。变压器[38]自然能够处理任意序列的观测。ATTAIN[50]将注意力机制与LSTM相结合，对时间不规则性进行建模。SeFT[16]将不规则时间序列映射为基于可微集函数的一组观测值，并利用注意机制进行分类。mTAND[34]学习连续时间嵌入，并结合多时间注意机制来处理连续时间输入。UTDE[48]集成了来自mTAND和具有可学习门的经典输入时间序列的嵌入，以处理复杂的时间模式。Raindrop[49]将不规则采样时间序列建模为图，并利用图神经网络对变量之间的关系进行建模。虽然这些方法专门用于不规则时间序列，但我们的工作探索了一种简单而通用的基于视觉变换的不规则采样时间序列建模方法。

Numerical time series modeling with transformers 变形金刚在时间序列建模中获得了极大的关注，因为它们具有捕获序列数据中的长期依赖关系的特殊能力。已经提出了大量基于变压器的方法，并成功地应用于各种时间序列建模任务，如预测[19,51,41,52]、分类[47]和异常检测[45]。然而，这些方法通常是为常规时间序列设置而设计的，其中同一时间戳的多变量数值被视为一个单位，并且跨不同单位的时间交互被显式建模。最近的一项工作[25]建议将每个单变量时间序列分成一系列子序列，并独立地对它们的相互作用进行建模。这些方法都是在数值上操作，并假设完全观察到的输入，而我们提出的方法以视觉方式处理时间序列数据。通过将时间序列转换成可视化的线形图，可以有效地处理不规则采样的时间序列，并利用预训练的视觉转换器强大的视觉表示学习能力。

Imaging time series 之前的研究已经探索了将时间序列数据转换成不同类型的图像，如Gramian fields[39]、recurring plots[14,37]和Markov transition fields[40]。这些方法通常使用卷积神经网络(cnn)来完成分类任务。然而，它们通常需要领域专家来设计专门的成像技术，并且不能普遍适用于各个领域。另一种方法[35]涉及使用卷积自编码器来完成从时间序列转换的图像，特别是用于预测目的。类似地，[31]利用cnn对从时间序列转换而来的图像进行编码，并使用回归量进行数值预测。然而，这些方法仍然需要大量的专门设计和修改来适应时间序列建模。此外，它们仍然落后于目前领先的数值技术。相比之下，我们提出的方法利用预训练视觉转换器的强大能力，将时间序列转换为线形图像，避免了对先验知识和特定修改和设计的需要，获得了更好的效果。

三、方法

如图1所示，ViTST包括两个主要步骤:(1)将多变量时间序列转换为连接的线形图图像，(2)利用预训练的视觉转换器作为分类任务的图像分类器。首先，我们介绍一些基本的符号和问题表述。

Notation 令 $\mathcal{D}=\{(\mathcal{S}_{i},y_{i})|i=1,\cdots,N\}$ 表示一个包含N个样本的时间序列数据集。每个数据样本都与一个标签 $y_{i}\in\{1,\cdots,C\}$ 相关联，其中C为类的个数。每个多变量时间序列Si最多由D个变量的观测值组成(有些可能没有观测值)。每个变量d的观测值由具有观测时间和值 $[(t_{1}^{d},v_{1}^{d}),(t_{2}^{d},v_{2}^{d}),\cdots,(t_{n_{d}}^{d},v_{n_{d}}^{d})],$ 的元组序列给出，其中nd为变量d的观测值个数。如果观测时间 $[t_1^d,t_2^d,\cdots,t_{n_d}^d]$ 在不同变量或样本之间的间隔不同，Si是一个不规则采样的时间序列。否则，它就是一个常规的时间序列。

Problem formulation 给定包含N个多元时间序列的数据集 $\mathcal{D}=\{(\mathcal{S}_{i},y_{i})|i=1,\cdots,N\}$ ，我们的目标是预测每个时间序列Si的标签 $\hat{y}_{i}\in\{1,\cdots,C\}$ 。我们的框架主要有两个组成部分:(1)将时间序列Si转换为图像xi的函数;(2)以线形图图像xi为输入，预测标签 $\hat{y}_{i}$ 的图像分类器。

3.1时间序列到图像的变换

时间序列折线图 线形图是一种流行的时间数据点可视化方法。在这个表示中，每个点表示一个观测值，用它的时间和值来标记:横轴表示时间戳，纵轴表示值。观察结果按时间顺序用直线连接起来，任何缺失的值都被无缝地插入。这种绘图方法允许用户灵活地将时间序列绘制为图像，直观地适合视觉转换器的处理效率。该实践反映了使用语言模型时的提示工程，用户可以理解和调整自然语言提示以增强模型性能。

在我们的实践中，我们使用标记符号“∗”来表示折线图中观察到的数据点。由于不同变量的尺度可能差异很大，我们将每个变量的观测值绘制成单独的线形图，如图1所示。在不同时间序列Si中，各折线图gi、d的尺度保持一致。我们对每个线形图使用不同的颜色进行微分。我们最初的实验表明，刻度标签和其他图形组件是多余的，因为观察的位置固有地表明其相对时间和值的大小。我们在4.3节中研究了时间序列到图像变换的不同选择的影响。

Image Creation 给定时间序列Si的一组时间序列线形图 $\mathcal{G}_{i}=\mathrm{g}_{1},\mathrm{g}_{2},\cdots,\mathrm{g}_{D}$ ，我们使用预定义的网格布局将它们排列在单个图像xi中。我们默认采用方形网格，遵循[10]。具体来说，如果 $l\times(l-1)<D\leq l\times l$ ，我们将D个时间序列线形图排列在一个大小为l x l 的网格中，如果 $l\times l<D\leq l\times(l+1)$ ，我们将其排列在一个大小为l × (l + 1)的网格中。例如，P19、P12和PAM数据集分别包含34、36和17个变量，对应的默认网格布局分别为6 × 6、6 × 6和4 × 5。任何未被线形图占用的网格空间保持为空。图6展示了结果图像的示例。对于变量的顺序，我们根据不规则采样时间序列的缺失率进行排序。我们在4.3节中探讨了不同网格布局和可变顺序的影响。

3.2用于时间序列建模的视觉变压器

给定从时间序列Si转换而来的图像xi，我们利用图像分类器来感知图像并执行分类任务。线形图图像中的时间序列模式涉及局部(即线形图中单个变量的时间动态)和全局(不同线形图中变量之间的相关性)上下文。为了更好地捕捉这些模式，我们选择了最近开发的视觉转换器。与主流的cnn不同，视觉变换被证明在保持空间信息方面表现出色，并且具有更强的捕获局部和全局依赖关系的能力[9,22]。

Vision Transformer (ViT)[9]最初改编自NLP。输入图像被分割成固定大小的小块，每个小块被线性嵌入，并用位置嵌入增强。然后将得到的向量序列输入到由多头注意模块(MSA)和MLP堆栈组成的标准Transformer编码器中，以获得patch表示。将额外的分类令牌添加到序列中以执行分类或其他任务。ViT模拟所有对补丁之间的全局单元间相互作用，这对于高分辨率图像来说可能是计算昂贵的。另一方面，Swin Transformer采用具有多级特征映射的分层体系结构，并在不重叠的窗口内局部执行自关注，在提高性能的同时降低了计算复杂度。除非另有说明，否则我们使用Swin Transformer作为默认的主干视觉模型，但是任何其他视觉模型也可以在这个框架中使用。

Swin Transformer通过从较早层中的小块开始构建分层表示，并逐渐合并较深层中的邻近块，从而捕获局部和全局信息。具体而言，在W-MSA块中，在每个非重叠窗口内计算自我注意力，允许捕获局部变量内相互作用和变量d的单线图的时间动态。然后，移位窗口块SW-MSA可以在不同窗口之间建立连接，这些窗口跨越不同的线形图。捕捉全局交互。图2说明了这一过程。数学上，连续的Swin Transformer块计算为:
在这里插入图片描述
式中， $\hat{\mathbf{z}}^{l}$ 和 ${\mathbf{z}}^{l}$ 分别表示块1的(S)W-MSA模块和MLP模块的输出特征;LN表示层归一化[1]。经过多个阶段的块，可以捕获来自所有线形图的补丁之间的全局相互作用，从而实现不同变量之间的相关性建模。我们还探索了其他位置嵌入的使用，包括局部位置嵌入来指示每个补丁在相应线图中的位置，以及全局位置嵌入来表示整个图像中相关线图的索引。然而，我们没有观察到在已经高度竞争的性能上的持续改进，这可能表明原始的预训练位置嵌入已经能够捕获有关局部和全局补丁位置的信息。
在这里插入图片描述
图2:Swin Transformer中移位窗口方法的说明。自我关注在每个窗口(灰框)内计算。当窗口包含在单线图中时，它捕获本地交互。移动后，窗口包括来自不同线形图的补丁，允许对全局交叉变量相互作用进行建模。

我们采用与图像分类相同的方法，使用视觉变换来预测时间序列的标签。Swin Transformer模块在最后阶段的输出用作patch表示，在其上应用具有线性头部的扁平层以获得预测 $\hat{y}_{i}$ 。

四、实验

4.1实验设置

在这里插入图片描述
数据集和指标。我们使用三个广泛使用的医疗保健和人类活动数据集进行了实验，如表1所示。P19数据集[29]包含来自38,803名患者的信息，有34个传感器变量和一个指示败血症的二元标签。P12数据集[12]包含来自11988名患者的数据，包括36个传感器变量和一个表示住院期间生存的二元标签。最后，PAM数据集[28]包括来自8种不同人类活动的5,333个样本，每个样本提供17个传感器变量。我们使用了Raindrop[49]提供的处理过的数据。为了确保一致性，我们在所有比较基线上采用相同的数据分割，并使用标准指标(如ROC曲线下面积(AUROC)和Precision-Recall曲线下面积(AUPRC))对不平衡的P12和P19数据集进行性能评估。对于更平衡的PAM数据集，我们报告了Accuracy、Precision、Recall和F1分数。

实现。我们使用Matplotlib包绘制线形图并将其保存为标准RGB图像。对于P19、P12和PAM数据集，我们分别实现了6 × 6、6 × 6和4 × 5的网格布局。为了进行公平的比较，我们为每个网格单元(线形图)分配了64 × 64的固定大小，从而得到的图像大小分别为384×384、384×384和256×320。重要的是要注意，图像大小也可以直接设置为任何大小，而不考虑网格单元的尺寸。我们根据训练集上的值尺度绘制图像。我们使用在ImageNet-21K数据集上预训练的Swin Transformer检查点2。默认的补丁大小为4，窗口大小为7。
在这里插入图片描述

训练。鉴于P12和P19数据集的高度不平衡性质，我们采用少数类的上采样来匹配多数类的大小。我们分别在上采样的P19和P12数据集上对Swin Transformer进行了2和4个epoch的微调，在PAM数据集上对Swin Transformer进行了20个epoch的微调。用于训练的批大小为P19和P12为48批，PAM为72批，学习率设为25 -5。模型使用A6000 gpu和48G内存进行训练。

结合静态特性。在现实世界的应用程序中，特别是在医疗保健领域，不规则的时间序列数据通常伴随着额外的信息，如分类或文本特征。在P12和P19数据集中，提供了每位患者的人口统计信息，包括体重、身高和ICU类型。这种静态信息随着时间的推移保持不变，并且可以使用自然语言来表达。为了将这些信息合并到我们的框架中，我们使用模板将其转换为自然语言句子，然后使用基于roberta的[21]文本编码器对结果文本进行编码。将得到的文本嵌入与视觉变换得到的图像嵌入相连接进行分类。静态特征也应用于所有比较基线。

4.2主要结果

与最先进的相比。我们将我们的方法与专门为不规则采样时间序列设计的几种最先进的方法进行了比较，包括Transformer[38]、Trans-mean(具有用变量的平均观测值替换缺失值的插入方法的Transformer)、GRU-D[3]、SeFT[16]、mTAND[34]、IP-Net[33]、和雨点b[49]。此外，我们还将我们的方法与最初为预测任务设计的两种方法DGM2-O[42]和MTGNN[43]进行了比较。这些基线的实现和超参数设置与Raindrop[49]中使用的保持一致。具体来说，我们采用了128个批次，所有比较的模型都训练了20个epoch。为了确保评估的公平性，我们将每种方法的性能平均为5个数据片段，这些数据片段在所有比较方法中保持一致。

如表2所示，我们提出的方法在所有三个数据集上都展示了与最先进的专业算法相比的强大性能。具体而言，在P19和P12数据集上，ViTST的绝对AUROC点分别比最先进的结果提高了2.2%和0.7%，绝对AUPRC点分别提高了1.3%和2.9%。对于PAM数据集，改进更为显著，准确度提高了7.3%，精度提高了6.3%，召回率提高了6.2%，F1绝对得分提高了6.7%。

保留传感器设置。我们进行了额外的评估，以评估我们的模型在更具挑战性的场景下的性能，在这些场景中，传感器(变量)子集的观察结果在测试期间被掩盖。此设置模拟了某些传感器发生故障或无法访问时的真实场景。按照[49]中采用的方法，我们使用PAM数据集试验了两种设置:(1)leave-fixed-sensors-out，它在所有样本和比较方法中丢弃一组固定的传感器，以及(2)leave-random-sensors-out，它随机丢弃传感器。重要的是要注意，只有验证集和测试集中的观察值被丢弃，而训练集保持不变。为了确保公平的比较，我们在leave-fixed-sensors-out设置中删除了与[49]中相同的一组传感器。

结果如图3所示，从中我们观察到，我们的方法始终达到最佳性能，并且在很大程度上优于所有专业基线。在缺失率从10%增加到50%的情况下，我们的方法保持了强劲的表现，保持在80%以上。相比之下，比较基线显示出明显的下降。与比较基线相比，ViTST的优势变得越来越显著。即使删除了一半的变量，我们的方法仍然能够获得超过80的可接受性能，在准确度上超过最佳基准Raindrop 33.1%，在精度上超过40.9%，在召回率上超过39.4%，在离开固定传感器设置的F1分数上超过42.8%(都是绝对点数)。我们还注意到，与基线相比，我们结果的差异明显较低。这些结果表明，我们的方法对时间序列中不同程度的缺失观测值具有很高的鲁棒性。在这里插入图片描述

4.3附加分析

在这里插入图片描述
这种表现从何而来?我们的方法将时间序列转换为线形图像，允许使用视觉转换器进行时间序列建模。我们假设视觉转换器可以利用其从自然图像(如ImageNet[30])的大规模预训练中获得的通用图像识别能力来捕获线形图图像中的信息模式。为了验证这一点，我们比较了预训练的Swin Transformer与从头训练的Swin Transformer的性能，如图4所示。没有预训练的性能显著下降证明Swin变压器可以将从自然图像预训练中获得的知识转移到我们的合成时间序列线形图图像中，取得令人印象深刻的性能。但其潜在的机制还需要在今后的研究中进一步探索和探讨。

在这里插入图片描述
不同的视觉模型表现如何?我们在框架中对几个骨干视觉模型进行了基准测试。具体来说，我们尝试了另一个流行的预训练视觉转换器ViT3和一个预训练的基于cnn的模型ResNet4。结果如图4所示。基于预训练变压器的ViT和Swin Transformer表现出相当的性能，都优于之前最先进的方法Raindrop。相比之下，预训练的基于cnn的ResNet远远落后于视觉转换模型。这种性能差距与ImageNet等数据集上的图像分类任务的观察结果一致，与传统的CNN模型相比，视觉转换器在保留空间信息方面表现出色。这一优势使视觉转换器能够有效地捕获每个线形图子图像和整个图像中的斑块位置，并便于复杂动力学和变量之间关系的建模。

如何创建时间序列线形图图像?使用线形图可视化时间序列为我们提供了一种直观的方式来解释数据并调整可视化策略以增强清晰度并潜在地提高性能。为了提供有效的时间序列到图像转换的见解，我们在这里分析了几个关键因素在实践中的影响:(1)默认的线性插值将部分观测到的数据点连接到线形图上;(2)表示观测数据点的标记;(3)用特定变量的颜色来区分代表不同变量的折线图;(4)在单幅图像中组织多个线形图时，由缺失率决定的顺序。

结果如表3所示。考虑到PAM数据集中的平衡缺失率，我们排除了没有排序顺序的结果。有趣的是，在P19和P12数据集上，只绘制观测数据点而不进行线性插值的结果更好。这可能归因于插值引入的潜在不准确性，模糊了观察点和插值点之间的区别。此外，省略标记会使模型从插入的数据点中识别观察数据点的任务变得复杂，从而降低其性能。缺乏独特的颜色导致了最显著的性能下降，强调了为单个线形图使用不同色调的必要性，以帮助模型区分它们。虽然特定的排序顺序可能不能确保所有数据集的最佳结果，但它确实在多个数据集和评估指标上提供了相对稳定的结果。对于PAM数据集，这些细微差别似乎影响很小，这表明我们的方法在某些场景中对这些变化具有健壮性。

网格布局和图像大小的影响。我们探讨了网格布局和图像尺寸对我们方法有效性的影响。为了在网格布局之间进行公平的比较，我们将每个网格单元的大小固定为64 × 64，并更改网格布局。如图5所示。我们观察到我们的方法对网格布局变化的鲁棒性，方形布局在不同的数据集和指标中始终产生良好的结果，这对于P12数据集尤其明显。在图像大小方面，当我们在保持网格布局的同时降低整体图像尺寸时，在P12和PAM数据集上观察到明显的性能下降，这符合我们的直觉。在这里插入图片描述
对不同标绘参数的鲁棒性。为了衡量我们的方法对不同绘图参数的稳健性，我们评估了包括线条样式/宽度和标记样式/大小在内的方面，主要使用P19数据集。如表4所示，我们的方法展示了对这些参数变化的鲁棒性，在不同的绘图配置中保持了强大的性能。

ViTST捕获什么?为了深入了解ViTST在时间序列线图图像中捕获的模式，我们分析了以ViTST为主干的ViTST模型的平均注意力图，如图6所示。注意图显示模型始终关注信息部分，即图像内的线形图轮廓。此外，我们观察到该模型适当地关注观察到的数据点和直线斜率变化的区域。相反，缺乏动态模式的扁平线形图似乎受到的关注较少。这表明ViTST可能能够区分线形图图像中的信息和非信息特征，使其能够提取有意义的模式。
在这里插入图片描述

4.4正则时间序列分类

我们的方法的一个优点是它能够模拟不同形状和尺度的时间序列，无论它们是规则的还是不规则的。为了评估我们的方法在常规时间序列数据上的性能，我们对来自UEA时间序列分类档案[2]的十个代表性多元时间序列数据集进行了实验。这些数据集表现出不同的特征，如表5所示。值得注意的是，在我们的评估中，PS数据集包含了非常多的变量(963)，而EW数据集有非常长的时间序列(17984)。我们特别选择了这两个数据集来评估我们的方法在处理大量变量和长时间序列方面的有效性。我们遵循[47]来使用这些基线进行比较:DTWD代表维度依赖的DTW结合膨胀- cnn [11]， LSTM [13]， XGBoost [5]， Rocket[7]，以及基于变压器的TST[47]，它运行在完全观察到的数值时间序列上。

在这里插入图片描述
我们的方法在常规时间序列数据集上的性能一直很强，如表5所示。我们的方法具有第二好的平均精度，并与表现最好的基准方法TST密切相关，展示了其竞争能力。值得注意的是，它在具有大量变量和观测长度的挑战性数据集PS和EW上表现出色。这些结果是在与其他数据集相同的图像分辨率(384 × 384)下获得的，表明了我们的方法的有效性和效率。我们的方法处理不规则和规则时间序列数据的能力进一步强调了它的通用性和广泛的适用性。

五、结论

本文提出了一种新的非规则采样时间序列建模方法。通过将时间序列数据转换为线形图像，我们可以有效地利用预训练的视觉转换器的优势。这种方法简单而有效，用途广泛，可以对不同特征的时间序列进行建模，而不考虑不规则性、不同结构和尺度。通过大量的实验，我们证明了我们的方法超越了为不规则时间序列设计的最先进的方法，并对不同程度的缺失观测保持了很强的鲁棒性。此外，我们的方法在常规时间序列数据上取得了令人满意的结果。我们设想它作为各种时间序列任务的通用框架的潜力。我们的研究结果强调了将快速发展的计算机视觉技术应用于时间序列建模的潜力。我们期待这将激发进一步的探索，促进这一跨学科领域更深入的理解和扩展。

六、限制和未来的工作

在这项工作中，我们使用了一种简单的方法，通过使用matplotlib将多变量时间序列转换为线形图像，然后将其保存为RGB图像。虽然我们的结果是有希望的，并且在时间序列到图像的转换过程中表现出对变化的鲁棒性，但可能有其他方法来可视化数据。这包括潜在的更可控和更精确的绘图方法或不同的图像表示，而不是线形图。我们的研究结果还强调了预训练视觉转换器对时间序列分类的有效性，表明这些模型可能利用从自然图像的预训练中获得的知识。然而，他们取得显著成功的根本原因还需要更深入的探索和研究。本研究是该领域的一个有希望的起点，提出了各种潜在的方向。我们把这些进一步的探索和调查留给未来的工作。