[论文分享]TSPTM-survey：时间序列预训练模型研究综述

为了减轻深度学习模型对大型数据集的依赖，通常使用基于数据增强和半监督学习的方法。
- 时间序列数据增强需要考虑时间序列中的时间依赖性和多尺度依赖性等属性，同时通常依赖于专家知识。
- 半监督方法采用大量未标记数据来提高模型性能。然而，在许多情况下，未标记的时间序列样本也很难收集。
另一种缓解训练数据不足问题的有效方法是迁移学习。首先，通过监督学习、无监督学习或自监督学习对时间序列模型进行预训练，得到合适的表示。然后在目标域中对TS-PTM进行微调，以提高下游TSM任务的性能。
- 有监督的TS-PTMs通常通过分类或预测任务进行预训练，但是难以获得用于预训练的大量标记时间序列数据集。
- 无监督TS-PTMs利用未标记数据进行预训练，进一步解决了标记数据不足的局限性。
- 近年来，基于对比学习的自监督PTM在CV中显示出很大的潜力。因此，开始探索基于一致性的任务和伪标记技术来挖掘时间序列的固有属性。

我们首先介绍TSM中使用的各种TSM任务和深度学习模型。然后，我们提出了对TS-PTM任务的分类。根据TS-PTM的核心预训练任务对其进行分类：

监督预训练技术（基于分类和基于预测的PTM）
无监督预训练技术（基于重建的PTM）
自监督预训练技术（基于一致性和基于伪标签的PTM）

1.1 贡献点

对现有的基于预训练技术的TS-PTMs进行了分类和全面的综述。
进行了大量的实验来分析TS-PTMs的优缺点。
- 对于时间序列分类，我们发现基于迁移学习的TS-PTMs在UCR时间序列数据集(包含许多小数据集)上表现不佳，但在其他公开可用的大型时间序列数据集上表现优异。
- 对于时间序列预测和异常检测，我们发现设计一种合适的基于变压器的预训练技术应该是TS-PTMs未来研究的重点。
分析了现有TS-PTMs的局限性，并在(i)数据集、(ii)变压器、(iii)固有属性、(iv)对抗性攻击和(v)噪声标签下提出了潜在的未来方向。

2 背景

2.1 时序挖掘(TSM)任务

时间序列分类

使用标记的时间序列数据集来训练分类器，然后使用分类器对未见过的样本进行分类。可以是单变量时间序列，也可以是多变量时间序列。
时间序列预测(TSF)

旨在分析历史时间数据之间的动态和相关性，以预测未来行为。通常需要考虑时间序列的趋势和季节变化，以及历史观测值之间的相关性。
时间序列聚类(TSC)

旨在将时间序列数据集划分为一个分区多个簇，使得同一聚类样本之间的相似性和不同聚类样本之间的差异性都得到最大化。由于存在时间和多尺度依赖性，时间序列数据的聚类更加困难。
时间序列异常检测(TSAD)

旨在识别时间序列中明显偏离其他观测值的观测值。它必须从时间序列中学习信息表示，然后得出异常分数，以确定点或子序列是否是异常的。
时间序列插值 (TSI)

目的是将时间序列中的缺失值替换为预测值，以便于后续的TSM任务。TSI是一种条件生成模型。

2.2 时间序列的深度学习模型

RNN

递归神经网络(RNN)通常由一个输入层、一个或多个递归隐藏层和一个输出层组成。在过去的十年中，rnn及其变体(如长短期记忆(LSTM)网络和门控循环单元(gru))在TSM中取得了显著的成功。
CNN

卷积神经网络(cnn)在每个时间步长接收值的嵌入，然后使用卷积从附近的时间步长聚合局部信息。

与普通的cnn不同，时间卷积网络(tcn)使用全卷积网络，因此所有层的长度相同，并且使用因果卷积，没有从未来到过去的信息“泄漏”。与循环网络相比，tcn最近在一系列序列建模任务中表现得更准确、更简单、更高效。
transformer

Transformers通过动态计算具有自关注的表示之间的关联来整合时间序列中数据点的信息，它们具有对远程依赖关系进行建模的强大能力。

2.3 预训练模型优势

由于数据采集和标注成本高昂，有限的标记时间序列数据往往阻碍了深度学习模型的充分训练。

预训练策略可以缓解这种数据稀疏性问题。预训练模型(Pre-Trained Models, PTMs)对于TSM的优势可以概括如下:

PTM为下游TSM任务提供了更好的模型初始化，这通常会带来更好的泛化性能。
PTM可以通过对源数据集的预训练自动获得适当的时间序列表示，从而避免过度依赖专家知识。

3 TS-PTMS 概述

3.1 监督预训练

在UCR时间序列数据集上的实验表明，迁移学习可以提高或降低下游任务的性能，这取决于源数据集和目标数据集是否相似。

3.1.1 基于分类的预训练

现有的基于分类的PTM可分为三类:(i)通用编码器，(ii)模型重编程和(iii)对齐编码器

3.1.1.1 通用编码器

对于TS-PTMs，一个关键问题是如何学习通用的时间序列表示，这有利于各种下游TSM任务。设计一个通用编码器可以快速适应新的任务，无论是否进行微调。通用编码器首先使用源数据集对模型进行预训练，然后使用目标数据集对模型进行微调。

Serra等提出了一种将CNN与注意机制相结合的通用编码器，并使用监督分类任务对编码器进行预训练。编码器在多个时间序列数据集上进行联合预训练。使用多头输出，每个数据集都有一个额外的全连接层用于分类。这样，编码器作为一个载体，从多个相关的源领域转移知识，以增强目标领域的学习。
Fawaz等从shapelet的角度考虑了时间序列数据的迁移学习。Shapelets是时间序列中的判别子序列，可以作为一种有效的时间序列表示。Fawaz等假设学习到的shapelets可以通过迁移学习推广到未知的数据集。对于UCR存档中的每个数据集，他们训练了一个全卷积网络，然后在所有其他数据集上对其进行微调。他们发现，预训练可以降低(负迁移)或提高(正迁移)编码器在目标数据集上的性能，并且当源数据集与目标数据集相似时，正迁移的可能性更大。
由于隐私和注释问题，可能很难获得与目标数据集非常相似的源数据集。为了缓解这一问题，Meiseles等利用潜在编码空间类别之间的聚类属性作为选择最佳源数据集的指标。Li等人提出了一种可用于多变量时间序列迁移学习的通用架构。
上述工作采用CNN作为时间序列迁移学习的骨干。然而，传统的cnn在捕获时间序列中的多尺度信息和长期依赖关系方面存在困难，使用不同的时间尺度或将LSTM与cnn结合使用可以进一步提高分类性能。例如，Kashiparekh等人提出了一种新的预训练深CNN，其中使用多个长度的一维卷积滤波器来捕获不同时间尺度的特征。Mutegeki等使用CNN-LSTM作为基网络，探索迁移学习如何在标记时间序列样本较少的情况下提高时间序列分类的性能。

3.1.1.2 对齐编码器

通用编码器通常不会考虑源数据分布和目标数据分布之间的差异。为了解决这个问题，最近的一些研究首先将源数据集和目标数据集映射到共享的特征表示空间，然后在预训练期间提示模型学习域不变表示。

对齐编码器的预训练策略是域自适应的核心，对于时间序列数据，由于时间戳之间的分布变化和变量之间的关联结构，难以提取域不变表示。为此，现有的时间序列对齐编码器预训练技术要么基于最大平均差异(MMD)，要么基于对抗学习。

MMD是一种关于分布的标准度量，已被用来衡量两个分布在域适应中的不相似性。基于MMD的方法通过最小化分类训练中源域和目标域之间的MMD来学习域不变表示。

Khan等使用CNN分别从源域和目标域数据中提取特征。通过最小化网络各层的KL散度来减小源域和目标域的散度。
Wang等人提出了分层迁移学习来提高跨域活动识别的准确性。
此外，考虑到时间滞后或偏移会影响域不变特征的提取，Cai等设计了一种稀疏关联结构对齐模型，该模型假设因果结构跨域稳定。Li等考虑了变量间紧密的因果机制和变量间的关联强度，采用格兰杰因果关系对齐模型来发现数据的因果结构。
Ragab等人提出了一种自回归域鉴别器来明确地解决表征学习和域对齐过程中的时间依赖性。
Liu等最小化了时间序列分布中混合谱核网络嵌入的增强MMD度量上的域散度。

尽管取得了这些进步，但由于潜在的复杂动态，在时间序列数据上使用基于MMD的方法仍然具有挑战性。

另一种常见的方法是通过对抗性学习学习源域和目标域之间的域不变表示。

Wilson等人提出了**时间序列数据的卷积深度域自适应模型(CoDATS)**，该模型由特征提取器、梯度反转层(GRL)、任务分类器和域分类器组成。对抗步骤由放置在网络中特征提取器和域分类器之间的GRL执行。CoDATS首先更新特征提取器和任务分类器，对标记的源数据进行分类。然后更新域分类器以区分每个样本来自哪个域。同时，对特征提取器进行对抗性更新，使域分类器更难以区分每个样本来自哪个域。
Li等认为应考虑时间因果机制，并提出了一个时间序列因果机制传递网络，以获得域不变表示。

然而，在对抗性训练中，对时间序列固有属性(如多尺度和频率属性)的利用仍需进一步探索。

3.1.1.3 模型重编程

Voice2Series基于模型重编程。它使用在大量人类语音数据集上预训练的大型声学模型，为了使声学模型适用于一般的时间序列数据，Voice2Series通过输入变换学习和输出标签映射对模型进行了重新编程。源标签和目标标签之间的随机(但不重叠)多对一映射被用作输出标签映射。需要注意的是，模型重编程不仅在预训练过程中使用了更多的标记训练样本，而且还考虑通过构建源和目标领域数据之间的关系来使PTM适应目标任务。

3.1.1.4 总结

通用编码器首先在标记的源数据集上预训练基网络，然后将基网络转移到目标域。这通常需要大量标记的源样本进行预训练，并且很难在时间序列域中获得。当源数据集和目标数据集相似（不相似）时，通常会发生正（负）迁移。以往的研究探讨了如何在潜在表示空间中基于数据集间相似性或时间序列表示来选择源。

此外，基于域自适应的对齐编码器考虑了源数据和目标数据分布的差异。

Voice2Serie为基于分类的PTM提供了一种新的方法。一些特定领域的时间序列数据(如语音数据)用于预训练基础网络，然后通过模型重编程将其应用于一般时间序列。然而，如何构建适合于TS-PTMs的大规模标记良好的时间序列数据集尚未得到探索。

3.1.2 基于预测的预训练

时间序列预测(TSF)的目的是利用当前和过去时间步长的观测值来估计未来时间步的值。与使用人工标签作为监督信息的分类任务不同，TSF使用未来的观测值作为监督信息进行训练。此外，TSF任务通常采用平均绝对误差或均方误差作为损失函数。

时间序列数据的一个独特属性是存在时间依赖性。预测可以利用过去和现在的时间序列来估计未来的值，并且它自然地被用作时间序列预训练任务来建模时间依赖性。

3.1.2.1 自回归

一种直观的产生预测值的方法是递归策略，它可以通过自回归来实现。一般来说，PTM首先在源数据集上预训练基于预测的模型。然后根据目标数据集对基本模型的权重进行微调。时间序列的动态性和固有的时间依赖性使预测能够帮助深度学习模型获得TSM的鲁棒表示。

Du等提出了自适应rnn (AdaRNN)来解决时间分布随时间序列的统计性质而变化的时间协变量移位问题。AdaRNN模型由时间分布表征(TDC)和时间分布匹配(TDM)两个模块组成。TDC将训练时间序列划分为最少相似的K个不同子序列，充分表征了时间序列在每个时间段的分布信息。然后使用K个不同的子序列作为源数据，使用预测任务预训练广义RNN模型。
TDM模块还可以与Transformer架构一起使用，进一步提高TSF性能。最近的一些研究将TSF的自回归预测策略与对比学习相结合，以获得有利于下游任务的时间序列表示。Oord等人提出了对比预测编码，采用模型预测的时间步作为正样本，随机采样的时间步作为负样本。Eldele等使用自回归模型的预测值作为正样本对进行对比学习，从而使模型能够捕捉时间序列的时间依赖性。特别是，他们向编码器提供了强和弱增强样本，因此使用交叉视图TSF任务作为PTM目标。

3.1.2.2 自适应编码器

与关注模型当前学习能力的迁移学习不同，元学习关注模型未来的学习潜力，通过任务自适应预训练范式获得自适应编码器。自适应编码器的目的是获得更好的初始化模型参数，使模型能够仅使用少量样本就能快速推广到新的任务。

Oreshkin等人提出了一种基于全连接网络深度堆叠的元学习框架，用于零间隔时间序列预测。元学习过程由元初始化函数、元更新函数和元学习器组成。元初始化函数定义给定任务的初始预测器参数。然后，更新函数根据预测器参数的前一个值和给定的任务迭代更新预测器参数。最终的预测参数是通过对整个参数序列进行贝叶斯集成(或加权和)得到的。元学习者通过对不同任务的训练来学习跨任务的共享知识，从而为新任务提供合适的初始预测参数。
Brinkmeyer和Rego开发了一种跨异构通道任务的多变量时间序列预测模型。实验结果表明，该方法对目标数据集有很好的泛化效果。此外，Autoformer和FEDformer表明频域信息和Transformer架构可以提高时间序列预测性能。

3.1.2.3 总结

基于TSF的PTM可以利用时间序列中的复杂动态，并使用它来指导模型捕获时间依赖性。

基于自回归的模型利用子序列之间的依赖关系和同一时间序列未来预测值的一致性，从而使用TSF对时间序列数据进行预训练。与使用手动标签进行预训练的基于分类的PTM不同，避免子序列之间的抽样偏差对于基于TSF任务的预训练仍然具有挑战性。

同时，基于元学习的自适应编码器允许目标数据集中具有小时间序列样本的场景。此外，基于回归的一步预测模型由于累积误差可能导致性能不佳。相反，一些研究采用基于transformer的模型在一次正向操作中生成所有预测。

设计高效的TSF编码器是研究基于TSF的PTM的基础。

3.2 无监督预训练

与有监督TS-PTMs相比，无监督TS-PTMs由于不需要标记时间序列样本而应用更广泛。

3.2.1 基于重建的预训练

无监督的TS-PTM通常通过重建技术进行预训练，通常由编码器-解码器架构实现。编码器将原始时间序列映射到表示的潜在空间，然后由解码器使用它来重建输入时间序列。均方误差常被用作重建损失。例如，Castellani等人使用重构来学习鲁棒表示，用于检测时间序列中的噪声标签。

3.2.1.1 自编码器

对于可变长度的序列，首先将它们转换为固定维向量。

Malhotra等人提出了时间序列模型Timenet，该模型通过Seq2Seq框架将单变量时间序列编码为固定维向量。它由一个编码器和一个解码器组成。编码器将输入序列转换为固定维向量表示，解码器将其重构为另一个序列作为输出。通过将预训练好的编码器与分类器相结合，Timenet在时间序列分类上表现出了良好的性能。然而，将基于自动编码器的PTM用于其他TSM任务(如预测和异常检测)的探索却很少。

3.2.1.2 去噪自编码器

去噪自动编码器(Denoising AutoEncoder, DAE)通过添加噪声或随机掩蔽，破坏输入时间序列，然后训练DAE来重建原始输入。DAE增强了时间序列表示的鲁棒性。

给定可变长度的音频片段，Audio Word2Vec获得固定维向量，然后将其用于按例查询的口语术语检测(STD)等应用。为了学习鲁棒表示，Audio Word2Vec包括两个阶段:离线和在线。在离线阶段，使用所有音频片段获得预训练模型，然后将其用于将在线语言序列编码为固定维向量。
受Audio Word2Vec的启发，Hu等采用DAE对模型进行预训练，用于短期风速时间序列预报。基于DAE的模型在老农场的大量数据上进行预训练，然后在新建农场的数据上进行微调。
Ma等提出了一种用于不完全时间序列表示学习的联合imputation和聚类DAE模型，使用了DAE的“mask and predict”机制。

3.2.1.3 变压器编码器

基于“mask and predict”训练范式的变压器可以被视为基于重构的模型，Transformer由于能够捕获输入数据的上下文(未来-过去)依赖关系而受到了广泛关注，这使得它们成为建模序列数据的一个很好的选择。

Zerveas等提出了一种多变量时间序列无监督表示学习模型time-series Transformer (TST)，使用原始的变压器编码器，通过设计的掩蔽策略来学习多变量时间序列表示。
Shi等进一步提出了一种基于Transformer自注意机制的无监督预训练方法。特别是，作者利用去噪借口任务，通过重建损坏的时间序列来捕获时间序列中的局部依赖关系和变化趋势。
Zhang等提出了一种通过跨域下降重建任务预训练的交叉重建变压器，从而对时间序列的时谱关系进行建模。
Hou等人提出了一种基于令牌的交通流时间序列PTM，设计了一个随机掩码令牌策略，然后对变压器编码器进行预训练以预测这些令牌。
Zhao等人设计了一个双向Transformer编码器来学习不同尺度上两个时间间隔之间的关系，从而对交通流时间序列中的时间依赖性进行建模。
对于表格时间序列数据，Padhi等提出分层表格BERT作为主干，通过预测屏蔽令牌进行预训练。Shankaranarayana等也采用了以变压器为骨干的一维卷积模型，采用“mask and predict”机制对其进行预训练。
对于语音序列数据，Liu等提出了一种基于多层变压器编码器的无监督语音表示学习方法，通过恢复随机15%的零掩码输入帧进行预训练。与上面提到的PTM不同，Liu等人提出了一种新的PTM，称为来自改变的变压器编码器表示(TERA)，采用基于变压器编码器的三种自监督训练方案(时间改变、频率改变和幅度改变)，通过重构改变后的对等语音数据进行预训练。

3.2.1.4 总结

基于DAE的TS-PTMs在原始时间序列上添加噪声或掩膜进行预训练，与基于自编码器的PTMs相比，最近受到了越来越多的关注。然而，设计适用于时间序列的基于DAE的PTM仍处于探索阶段。

现有的基于transformer的TS-PTMs主要集中在时间序列分类任务上，对其在其他下游任务上的性能还没有充分的探索。同时，不同领域的时间序列可能差异较大，导致模型在不同领域数据集之间的可移植性较差。

因此，如何设计适用于不同时间序列域的基于重构的无监督学习机制(即掩模和预测)是研究TS-PTMs的一个挑战。

3.3 自监督预训练

与无监督学习(如重构)相比，自监督学习在训练过程中使用了自提供的监督信息(如伪标签)。

3.3.1 基于一致性的预训练

基于一致性的PTM使来自同一样本(正对)的不同视图表示的距离彼此接近，而使来自不同样本的视图表示(负对)的距离彼此远离，对比学习通常被用作PTM的训练损失。基于一致性的PTM需要考虑如何构造正样本和负样本，以使模型能够有效地利用时间序列数据的复杂动态特性。

值得注意的是，没有统一的大规模标记良好的时间序列数据集用于预训练。大多数现有的基于一致性的PTM首先使用目标数据集通过自监督表示学习对编码器进行预训练，然后使用来自目标数据集的监督信息对预训练的编码器进行微调，或者直接使用下游任务的表示。

3.3.1.1 子序列一致性

从同一时间序列样本中抽取属于包含关系的两个子序列作为正对，称为子序列一致性。

Franceschi等人首先以Word2Vec为类比，在时间序列样本中选取足够长的非平稳子序列作为上下文。然后，从**上下文中选择的子序列对应于一个单词(正子序列)，而从另一个时间序列样本中不同上下文收集的子序列代表一个随机单词(负子序列)**，采用了三重损失。
Fan等通过探索时间序列的样本间和时间内关系，提出了一种自监督时间序列表示学习框架SelfTime。在样本间关系方面，采用了交叉熵损失来指导不同层次实体关系的推理。对于时间内关系，通过推理从同一时间序列中采样的子序列之间的多级关系来捕获时间模式，从而获得下游分类任务的表示。

3.3.1.2 时间一致性

选取同一时间序列样本中相邻的两个子序列作为正对，称为时间一致性。

Tonekaboni等基于时间一致性的假设，提出了一种表征学习框架，称为时间邻域编码(temporal Neighborhood Coding, TNC)。TNC通过确保编码空间中相邻信号的分布与非相邻信号的分布区分开来来学习时间序列表示。
Woo等人提出了一种用于长序列时间序列预测的对比学习预训练方法，称为CoST，CoST利用时域的时间一致性来学习序列的判别趋势，同时将数据转换到频域来发现序列的季节性表征。
Deldari等提出了一种基于对比预测编码的自监督时间序列变化点检测方法，利用时间序列中的局部相关性来驱动跨连续时间间隔的共享信息的最大化，同时最小化跨时间间隔的共享信息。
Luo等人将对比学习的目标应用于局部子序列和全局实例级别，从而获得有利于下游时间序列预测和分类任务的特征表示。

3.3.1.3 变换一致性

选取同一时间序列经过不同变换的两个增宽序列作为正对，称为变换一致性。

Eldele等提出了一种通过时间与上下文对比(Temporal and Contextual contrast, TSTCC)的时间序列表示学习框架。TS-TCC首先通过两种不同的方式对原始时间序列数据进行变换，分别得到弱增强(抖动缩放)和强增强(置换和抖动)变体。然后，在TS-TCC中设计了时间对比学习模块和语境对比学习模块来学习判别表征。
Hyvarinen等通过对不同时间窗的子序列进行非线性混合变换来分析时间序列的非平稳性，以确保同一子序列是一致的，开发了一种基于逻辑回归估计模型的方法，通过区分原始时间序列的子序列与随机变换的时间点之间的差异来学习时间维度的依赖关系。
Zhang等人利用基于时间的增强库(抖动、缩放、时移和邻域段)和基于频率的增强方法(添加或去除频率成分)，通过时频一致性进行时间序列自监督对比预训练

3.3.1.4 上下文一致性

选取同一时间序列内具有相同时间戳的两个增广上下文作为正对，称为上下文一致性。

Yue等通过设计时间戳屏蔽和随机裁剪策略来获得增广上下文，提出了一种学习时间序列表示的通用框架TS2Vec。TS2Vec从时间维度和实例级别分层地区分正样本和负样本。在时间一致性方面，在同一时间序列中具有相同时间戳的增强上下文被视为正对，而在不同时间戳中的增强上下文被视为负对。与时间一致性不同，实例级一致性将批处理中其他实例的扩充上下文视为负对。
Yang等人提出了一种新的时间序列表征学习框架，即双线性时间谱融合(Bilinear Temporal-Spectral Fusion, BTSF)，利用实例级增强，通过简单地应用dropout策略获取正/负样本进行无监督对比学习，从而保留全局背景并捕获时间序列的长期依赖关系。此外，在BTSF中设计了迭代双线性时频融合模块，通过对大量时频对的亲和性进行编码，迭代改进时间序列的表示。

3.3.1.5 总结

尽管子序列和时间一致性策略在分类任务上取得了良好的性能，但子序列之间的抽样偏差(例如异常值和模式移位)往往会引入假阳性对。

同时，变换一致性策略依赖于有效的实例级数据增强技术。然而，为来自不同领域的时间序列数据集设计统一的时间序列数据增强技术仍然是一个挑战。一种替代方法是利用时间序列的专家特征代替常用的数据转换进行对比学习。

上下文一致性策略利用掩码(或dropout)机制通过捕获时间依赖性来获得对比对，这可以缓解子序列之间的抽样偏差问题，并在预测、分类和异常检测任务上取得优异的性能。然而，利用时间序列的多尺度特性设计基于一致性的策略尚未得到充分探索。

3.3.2 基于伪标签的预训练

3.3.2.1 伪标签

大量正确标记的信息是深度神经网络模型成功的基础。然而，标注时间序列数据通常需要人工专家知识的帮助，导致标注成本很高。一些研究采用自监督学习作为辅助任务，通过在主要任务的同时训练辅助任务来帮助主要任务更好地学习。在辅助任务中，当给定转换后的样本时，模型预测将哪个转换应用于输入(即，预测伪标签)。

Fan等从同一时间序列中随机选择两个长度为l的子序列，并根据它们的时间距离分配伪标签，然后通过预测子序列对的伪标签对所提出的模型进行预训练。
Zhang等人结合专家特征为时间序列自监督对比表征学习创建伪标签。

尽管取得了这些进展，但预测伪标签不可避免地会包含不正确的标签。如何减轻不正确标签的负面影响将是PTM研究的重点。

4 实验结果与分析

首先使用UCR和UEA数据集分析了TS-PTM在分类任务上的性能。选择了四个时间序列场景数据集进行迁移学习PTM分析。
使用ETT和Electricity数据集比较TS-PTM和相关基线在预测任务上的表现。
使用Yahoo和KPI数据集分析了TS-PTMs和相关基线在异常检测任务上的性能。

ptm的训练通常分为两个阶段。首先，采用有监督、无监督或自监督技术在源数据集上对基本模型进行预训练。然后，使用目标数据集的训练集对基本模型进行微调。最后，在目标测试集上对基模型进行评估，得到测试结果。

4.1 PTM在时间序列分类中的性能

对于UCR和UEA数据集：合并每个数据集的训练集和测试集，采用五重交叉验证策略，将训练集、验证集和测试集按60%-20%-20%的比例进行划分。

对于四个独立的时间序列情景数据集：使用处理过的数据集进行实验分析。最后，我们使用测试集上的平均精度作为评价指标。

4.1.1 基于监督分类和无监督重构的迁移学习ptm比较

从128个UCR数据集中，选取样本数量最多的15个数据集作为源数据集。从剩下的113个UCR数据集中，选择了45个时间序列数据集作为下游分类任务微调的目标数据集。其中15个样本数量最少，15个样本数量最多，15个样本数量中等。

FCN编码器使用有监督分类任务或无监督重建任务结合解码器(对称FCN解码器或非对称RNN解码器)进行预训练。

对于源数据集，使用所有样本对FCN编码器进行预训练。使用五重交叉验证策略，每个目标数据集包含五个不同的训练集，因此我们执行了五次微调以进行分析。对于每种迁移策略，对于每个目标数据集样本量(最小、中、最大)，得到15 × 15 = 225组迁移结果(15个源数据集，15个目标数据集)。

有监督分类迁移策略在最小、中等和最大目标数据集上的平均Acc和正向迁移结果数量最好。有监督分类迁移策略比无监督迁移策略更适合于时间序列预训练。

在最小的目标数据集上，有监督分类迁移策略和利用对称FCN解码器的无监督重构策略的总体性能不显著。利用对称FCN解码器的无监督重构策略优于有监督分类传输策略。对称的FCN解码器比非对称的RNN解码器更适合于时间序列分类任务中的迁移学习。

总体而言，在目标数据集上获得的正迁移分类结果数量并不理想，这可能与UCR源数据集的样本数量较少有关。

此外，选择了四个独立的时间序列数据集进行迁移学习ptm分析。每个源数据集的样本数量较大。与未经预训练的监督学习方法(FCN)相比，基于监督分类的迁移学习策略在神经阶段检测和机械设备诊断场景下取得了显著的正迁移性能。此外，基于无监督RNN解码器的迁移学习策略在活动识别场景下取得了明显的正向迁移性能。然而，在身体状态监测场景下，三种迁移学习策略均导致负迁移，这可能与肌电图样本数量少有关。与使用UCR时间序列数据集相比，迁移学习在具有大型源数据集的独立时间序列数据集上具有更好的预训练效果。

4.1.2 基于Transformer和一致性的PTMs比较

选择了5个ts - ptm进行下游分类任务的性能比较。TST是一种基于transformer的PTM。T-loss、Selftime、TS-TCC和TS2Vec是基于一致性的ptm。具体来说，上述方法的编码器首先使用无监督/自监督预学习策略在目标数据集上进行预训练。然后利用目标数据集的标签信息对预训练编码器进行微调，或者利用预训练编码器获得的低维表示执行下游分类任务，选择结合线性分类器的FCN作为基线。

由于Selftime在多元时间序列UEA数据集上的训练过于耗时，只报告了它在单变量UCR数据集上的表现。

TS2Vec在128个UCR数据集上的分类性能是最好的。并对TS2Vec与其他方法的分类结果进行了P-value计算。基于一致性的TS2Vec可以有效地学习稳健表征，有利于时间序列分类任务。

然而，在30个UEA数据集上，使用FCN进行直接分类的模型在分类性能和训练时间方面是最好的，而TS2Vec在平均准确率和排名方面是次等的。此外，在显著性检验的p值上，TS2Vec与TS-TCC和TST相比不显著。

UEA存档是多变量时间序列分类的基准，而TS2Vec没有专门为时间序列变量设计的合适的预训练策略。此外，基于Transformer的TST模型在UCR和UEA档案上的分类结果都比Supervised (FCN)差，表明Transformer架构在时间序列分类任务的预训练中仍然是一个挑战。

4.1.3 可视化

使用类激活图(Class Activation Map, CAM)和热图对时间序列分类模型进行可视化。CAM是一种可视化cnn的方法，并分析基于cnn的模型关注输入数据的哪个区域。热力图在中用于分析特征变量中方差最大的16维变量的热分布，从而有助于分析时间序列的趋势。因此，模型捕捉时间序列分布变化的能力可以根据热量分布来测量。我们使用来自五重交叉验证策略的验证集来为所有比较设置选择模型。在五个分析模型中，我们选择可视化差异最显著的模型来突出可视化。

直接分类和正传递得到的16维方差最大的变量的热量分布更接近于原始时间序列的趋势，而负传递则很难呈现出与原始时间序列趋势相匹配的热量分布。热图可视化表明，负迁移可能使模型难以捕捉原始时间序列的动态变化信息，导致分类性能下降。

4.2 PTM在时间序列预测中的性能

方法：TS2Vec和CoST，基于Transformer的模型:LogTrans、Informer、Autoformer和Temporal Convolutional Network (TCN)。TS2Vec和CoST在同一数据集上对下游预测任务进行预训练，而其他基线则直接在数据集上进行训练，不进行预训练。

TS2Vec和CoST通常优于TCN、LogTrans和Informer。Autoformer取得了显著的改进，具有更好的长期稳健性。对于ETTm1和Electricity数据集的某些设置，CoST实现了与Autoformer相当的性能。我们将其归功于趋势特征和季节特征的建模，这在Autoformer的分解体系结构中也被证明是有效的。现有的研究大多是端到端监督方法，而很少使用预训练和下游微调范式进行时间序列预测。实证结果表明，这是一种很有前景的范式。

尽管最近的时间序列预测技术，如FiLM[11]、Scaleformer和MICN已经展示了令人印象深刻的性能，但重要的是要注意，这些方法包含了各种时间序列特征(如频域和多尺度属性)，这些特征不同于TS2Vec和CoST的基于单一属性的方法。因此，我们不采用上述方法作为基准。此外，挖掘时间序列的季节性和趋势特征，并利用基于变压器的TS-PTMs来发现时间依赖性是提高预测性能的潜力。

4.3 PTM在时间序列异常检测中的性能

采用TS2Vec[68]和基准方法SPOT、DSPOT、LSTM-VAE、DONUT、Spectral Residual (SR)和Anomaly Transformer (AT)作为比较方法。与分类和预测任务一样，TS2Vec在同一数据集上执行预训练和下游异常检测任务，而其他基线则不进行预训练。

TS2Vec在Yahoo和KPI数据集上的F1-Score均优于其他比较方法，说明基于对比学习的预训练策略可以有效提高时间序列异常检测任务的性能。然而，在Yahoo数据集上，AT在Precision指标上明显优于TS2Vec, F1-Score也非常接近TS2Vec，说明基于Transformer架构的AT模型在时间序列异常检测方面具有一定的优势。此外，AT的性能表明Transformer在研究时间序列异常检测方面具有良好的潜力。

5 未来发展方向

5.1 大规模时间序列数据集

在时间序列领域还没有公开可用的大规模数据集，大多数现有的ts - PTM都是在来自UCR和UEA等档案的时间序列数据集上进行预训练的，其中大多数样本容量很小(只有几千甚至几百个样本)。尽管这些时间序列基准数据集对时间序列社区的发展做出了重大贡献，但由于样本量和通用性的限制，利用它们来预训练深度学习模型是具有挑战性的。

最近，Yang等人提出了一种名为Voice2Series的TS-PTM，它使用来自语音域的大规模序列数据集预训练深度学习模型。然后，通过模型重编程和标签映射将预训练模型转移到通用时间序列数据集(UCR时间序列存档)。实验结果表明，在语音域使用大规模序列数据集进行预训练可以达到时间序列分类任务的最先进水平。

因此，如何将大尺度序列数据应用于相关领域是TS-PTMs值得研究的方向。此外，像ImageNet这样的大规模通用时间序列数据集的构建是一个至关重要的重点，这将极大地促进TS-PTMs的进一步研究。

5.2 时间序列的固有性质

现有的研究已经探索了用于表示学习的时间序列的固有属性，例如使用cnn捕获多尺度依赖关系，使用rnn建模时间依赖关系，以及使用transformer建模长期时间依赖关系。此外，在最近的对比学习研究中，时间序列的上下文依赖性和频域(或季节趋势)信息也得到了探讨。尽管挖掘时间序列的固有属性可以学习到有利于下游TSM任务的表示，但来自不同领域的时间序列的可移植性仍然很弱。

由于时间序列的固有属性(即频域信息)，应用于图像数据的预训练技术很难直接转移到时间序列中。与自然语言处理相比，由于缺乏大规模统一的语义序列数据集，ts - PTM在学习通用时间序列表示方面具有挑战性。例如，文本序列数据集中的每个单词在不同的句子中具有高概率的相似语义。因此，模型学习到的词嵌入可以跨不同的文本序列数据场景进行知识转移。然而，时间序列数据集很难获得跨场景具有一致语义的子序列(对应于文本序列中的单词)，这使得模型很难转移所学到的知识。

因此，利用时间序列的固有属性来挖掘时间序列数据中的可转移片段是未来TS-PTMs研究的一个挑战。

5.3 时间序列中的transformer

Transformer使用多头注意机制来捕获输入数据中的长期依赖项，用于时间序列预测的Informer、Autoformer和FEDformer以及用于时间序列异常检测的Anomaly Transformer都非常适合于分析时间序列。然而，对于时间序列分类任务而言，具有竞争优势的现有Transformer模型相对较少，这可能是因为时间序列分类任务更侧重于捕获时间序列的判别子序列(例如shapelets)或多尺度特征，而现有的基于cnn的模型可能更具优势。

虽然已经有一些工作将变压器应用于TSM任务，但对于时间序列的PTM的研究很少。我们认为，目前对时间序列的预训练Transformer模型的挑战是双重的。首先，预训练变形器通常需要大量数据进行预训练以学习通用表示。然而，目前在时间序列领域缺乏大规模的数据集。其次，如何结合时间序列的固有特性设计有效的预训练变压器模型还有待进一步探索。

因此，探索时间序列的预训练变压器模型是一个令人兴奋的研究方向。

5.4 时间序列的对抗性攻击

由于对抗性示例攻击具有重大的安全风险，近年来受到了各个领域的广泛关注。自然，时间序列领域的学者也开始考虑对抗性样本攻击对时间序列模型的影响。例如，Karim等人利用蒸馏模型作为代理来模拟被攻击的时间序列分类模型的行为。然后，对提取的模型应用对抗变换网络生成时间序列对抗样例。在42个UCR数据集上的实验表明，它们容易受到对抗性示例的影响。

对抗性示例是通过在原始示例中添加扰动来跨越分类器的分类边界来生成的。一般来说，添加随机扰动很难生成对抗性示例。此外，当每个聚类都远离分类边界时，不容易生成对抗示例。最近，Hendrycks等发现，自监督学习可以有效地提高深度学习模型对对抗示例的鲁棒性。

因此，利用TS-PTMs提高时间序列模型对对抗实例的鲁棒性是一个值得探索的方向。

5.5 时间序列噪声标签的预训练模型

大规模标记数据集的获取成本非常昂贵。因此，提供了各种低成本的代理策略来自动收集标签。例如，在搜索引擎和爬行算法的帮助下，可以收集许多弱标记图像。在时间序列域，Castellani等采用传感器读数生成时间序列标签。虽然这些策略可以获得大规模的标记数据，但它们也不可避免地导致标签噪声。由于深度学习模型具有很高的拟合噪声标签的能力，因此使用噪声标签有效地训练深度学习模型是具有挑战性的。为此，出现了许多关于标签噪声学习的研究。

作为一种有效的表示学习方法，PTM可以有效地用于解决有噪声标签的问题，这在CV中已经得到了研究。然而，目前对时间序列噪声标记的研究较少，对时间序列噪声标记的PTM尚未进行研究。

6 总结

在这篇综述中，我们对TS-PTMs的发展进行了系统的回顾和分析。在早期研究中关于TS-PTMs，相关研究主要基于CNN以及用于PTMs迁移学习的RNN模型。近年来，基于transformer的模型和基于一致性的模型在时间序列中取得了显著的成绩下游任务，并已用于时间序列训练。因此，我们对现有的TS-PTMs、迁移学习策略、基于transformer的时间序列方法等进行了大规模的实验分析时间序列分类、预测和异常检测三个主要任务的代表性方法。

实验结果表明，变压器为基础PTM在时间序列预测和异常检测任务中具有巨大的潜力，而为时间序列分类任务设计合适的基于transformer的模型仍然具有挑战性。同时，基于对比学习的预训练策略是未来TS-PTMs发展的一个潜在重点。