TimeDRL: Disentangled Representation Learning for Multivariate Time-Series

最新推荐文章于 2024-06-14 10:03:07 发布

萧宛亦

最新推荐文章于 2024-06-14 10:03:07 发布

阅读量229

点赞数

文章标签： transformer 机器学习

原文链接：https://arxiv.org/abs/2312.04142

版权

系列文章目录

多元时间序列的解纠缠表示学习

文章目录

系列文章目录
摘要
一、引言
二、相关工作
- A.自监督学习的基本概念:前时间序列视角
- B.时间序列数据的自监督学习
三、问题表述
四、 THE PROPOSED TIMEDRL
五、实验
六、结论

摘要

在许多现实世界的应用程序(例如，医疗保健和工业)中，多变量时间序列数据信息丰富，但由于缺乏标签和高维，具有挑战性。最近在自监督学习方面的研究已经显示了它们在不依赖标签的情况下学习丰富表征的潜力，但它们在学习解纠缠嵌入和解决归纳偏差问题(例如，变换不变性)方面存在不足。为了解决这些挑战，我们提出了TimeDRL，这是一个通用的多元时间序列表示学习框架，具有解纠缠的双层次嵌入。TimeDRL具有三个新特征:(i)使用[CLS]令牌策略从修补的时间序列数据中分离出时间戳级和实例级嵌入的派生;(ii)利用时间戳预测和实例对比任务进行解纠缠表示学习，前者优化带有预测损失的时间戳级嵌入，后者优化带有对比损失的实例级嵌入;(iii)避免使用增强方法来消除归纳偏差，例如从裁剪和屏蔽中获得的变换不变性。在6个时间序列预测数据集和5个时间序列分类数据集上的综合实验表明，TimeDRL持续优于现有的表征学习方法，预测的MSE平均提高58.02%，分类的准确率平均提高1.48%。此外，广泛的研究证实了TimeDRL体系结构中每个组件的相对贡献，半监督学习评估证明了它在现实场景中的有效性，即使有有限的标记数据。代码可在https://github.com/blacksnail789521/TimeDRL上获得。

提示：以下是本篇文章正文内容

一、引言

多元时间序列数据广泛应用于电力预测[1]，[2]，智能手表活动分类[3]，[4]，工业机器异常检测[5]，[6]。这些时间序列数据集包含丰富的信息，但是人类无法识别时间维内部和跨时间维的模式，因此需要大量带注释的标签。最近，研究人员越来越倾向于首先使用无监督表示学习从大量未标记数据中学习表示/嵌入，然后使用有限数量的标记数据对这些模型进行微调，以用于特定的下游任务。

自监督学习(Self-supervised learning, SSL)是无监督表示学习中的一种重要方法，它从带有借口任务的未标记数据中捕获可泛化表示。这对于从预训练模型的通用知识中提取有限标记记录的下游场景是有益的，这已经在自然语言处理(NLP)[7]，[8]和计算机视觉(CV)[9] -[11]中提取有价值的表示中得到了证明。然而，在时间序列域中直接应用SSL面临两个挑战。

时间序列数据的SSL的第一个挑战是学习解纠缠的双级表示。现有的方法侧重于派生时间戳级[12]、[13]或实例级嵌入[14]-[16]，但不能同时派生两者。然而，这两种类型的嵌入服务于不同的目的:时间戳级嵌入适用于预测和异常检测，而实例级嵌入适用于分类和聚类任务[17]。虽然理论上我们可以通过使用池化方法(如图1(a)所示)从时间戳级嵌入中提取实例级嵌入来避免显式地导出实例级嵌入，但这种方法通常会导致各向异性问题[18]-[20]，其中嵌入被限制在嵌入空间中的一个狭窄的锥形区域。从而限制了他们的表现力。据我们所知，如何在时间序列域中将实例级嵌入与时间戳级嵌入分离开来仍然是一个未探索的问题。

在这里插入图片描述
图1。时间序列域的两类表示学习。顶部部分(a)表示纠缠表示学习，其中首先导出时间戳级嵌入，然后应用池化方法提取实例级嵌入。底部部分(b)说明了解纠缠表示学习，它涉及以解纠缠的方式派生时间戳级和实例级嵌入。我们提出的TimeDRL采用时间戳级和实例级嵌入的解纠缠派生。

第二个挑战在于归纳偏差。归纳偏倚是指在学习过程[12]中采用数据增强方法来增强模型对未知数据的泛化能力的假设和先验知识。直接将其他领域的数据增强方法(例如，CV中的图像着色[21]和旋转[22]，NLP中的屏蔽[7]和同义词替换[23])应用到时间序列领域是不实际的。这些方法引入的归纳偏差不适用于时间序列数据。例如，旋转是一种常见的图像增强技术。然而，它不适合时间序列数据，因为它会破坏时间顺序

在这里插入图片描述
图2。两类自我监督学习。左部分(a)和©表示预测学习，利用单一表示来预测固有数据特征。右侧部分(b)和(d)说明了对比学习，强调了数据样本之间细微差异的区分。我们提出的TimeDRL避免在这两个类别中使用任何增强方法来实现鲁棒学习并防止归纳偏差(©和(d))。

为了解决上述问题，我们提出了TimeDRL，这是一个通用的多元时间序列框架，具有用于双层次嵌入的解纠缠表示学习。通过分离时间戳级和实例级嵌入(如图1(b)所示)，TimeDRL适用于各种时间序列下游任务。这种方法包括聚合相邻的时间步骤以形成修补的时间序列数据，然后在开始处附加一个[CLS]令牌以表示实例级表示。值得注意的是，使用补丁时间序列数据，而不是点级数据，允许我们在不显著增加训练成本的情况下扩展视野，确保[CLS]令牌捕获更全面的语义信息。为了优化编码器网络，TimeDRL使用了两个借口任务:用于优化时间戳级嵌入的时间戳预测任务和用于优化实例级嵌入的实例对比任务。具体而言，两个借口任务以解纠缠的方式设计，每个借口任务都是专门定制的，以优化其各自的嵌入水平，确保一种嵌入类型的优化不会干扰另一种嵌入类型。为了减轻变换不变性的归纳偏差，我们避免在预测和对比学习任务中直接对数据应用任何增值，如图2的©和(d)所示。在时间戳预测任务中，我们选择在修补的时间序列数据上使用重建误差，特别是没有屏蔽任何输入数据。对于实例对比任务，我们使用dropout层来引入变化。通过利用dropout层固有的随机性，我们可以在不依赖任何外部增强方法的情况下，从相同的输入生成不同的嵌入视图。

综上所述，本文的主要贡献如下:

•解纠缠双级嵌入的普遍适用性:我们引入了TimeDRL，这是一个多变量时间序列表示学习框架，用于解纠缠双级嵌入。这种设计可以广泛适用于各种时间序列下游任务。TimeDRL利用专用的[CLS]令牌与修补过的时间序列数据相结合，允许实例级嵌入通过扩展时间序列范围来捕获更全面的语义信息。
•两个借口任务:TimeDRL使用时间戳预测任务来优化时间戳级嵌入，使用实例对比任务来优化实例级嵌入，确保在两个级别上有效学习。
•减轻归纳偏倚:为了避免归纳偏倚，TimeDRL在时间戳预测任务中使用了一种没有屏蔽的重建误差方法，并在实例对比任务中利用了dropout层的随机性，确保了无偏数据表示。
•在11个真实世界基准测试中的有效性能:TimeDRL在时间序列预测和分类基准测试中始终优于最先进的性能，证明了所提出的方法在真实世界应用中的通用性。

二、相关工作

A.自监督学习的基本概念:前时间序列视角

SSL方法已经证明了通过设计借口任务来学习通用表征的有效性，这可以分为两类:预测学习和对比学习[25]。如图2所示，预测学习利用单一表示来预测数据中固有的特征。相比之下，对比学习强调通过计算表征对上的损失来区分数据样本之间的细微差异。Siamese网络[26]是一种权重共享神经网络，通常用于对比学习，以同时处理成对的输入。

预测和对比学习的概念最早出现在NLP和CV领域。在NLP中，BERT[7]引入了带有屏蔽语言建模和下一个句子预测的预测任务来学习语义丰富的表示，而GPT[8]使用自回归预测任务来展示其少量学习能力。SimCSE[27]应用对比任务来改进来自[CLS]令牌的句子级嵌入。它利用dropout层来引入变化，而不依赖于任何外部增强方法。在CV中，SimCLR[9]使用对比学习来学习详细表示，方法是将同一实例的增强视图视为正对，而将minibatch中的所有其他实例视为负对。另一方面，BYOL[10]和SimSiam[11]通过停止梯度策略促进了额外的预测头，以避免负样本并消除对大批量的需求。

近年来，SSL技术已扩展到表格数据和图神经网络(gnn)等新领域。在表格数据领域，VIME[28]引入了一个预测任务，涉及到带有自动编码器架构的掩码向量估计，而SCARF[29]采用对比学习进行详细表示学习。在gnn中，GraphCL[30]和BGRL[31]对gnn采用了对比学习，并在图分类和边缘预测等任务中显示出良好的效果。然而，跨域采用SSL技术通常会带来归纳偏差。数据增强方法，如CV中的图像着色[21]和旋转[22]，或NLP中的屏蔽[7]和同义词替换[23]，可能会引入不适合目标域的偏差。为了解决这个问题，各种工作都提出了特定领域的解决方案。例如，表格数据中的MTR[32]提出了一种针对表格格式定制的增强方法。在gnn中，SimGRACE[33]完全避免了数据增强的使用。根据这一见解，TimeDRL避免在所有借口任务中使用数据增强方法，以消除任何潜在的归纳偏差。

B.时间序列数据的自监督学习

近年来，用于时间序列数据表示的自监督学习越来越受到关注。T-Loss[15]使用基于时间的负采样三重损失来学习时间序列数据的表示。TNC[14]使用增强的Dickey-Fuller (ADF)统计检验来确定时间邻域，并使用Positive-Unlabeled (PU)学习来减少抽样偏差的影响。TS-TCC[24]首先通过强弱增强创建两个视图，然后通过跨视图时间和上下文对比学习表征。TS2Vec[12]专注于区分实例和时间戳级别的多尺度上下文信息，使其成为第一个适用于各种时间序列任务的通用框架。TF-C[34]提出了一种利用时频一致性对基于时频的邻域进行编码的方法。MHCCL[16]利用多变量时间序列中多个潜在分区的分层结构的语义信息，通过分层聚类增强，获得更多信息的正、负配对。SimTS[13]提供了一种简化的方法，通过学习在潜在空间中从过去预测未来，而不依赖于负对或关于时间序列特征的特定假设，从而增强时间序列预测。对时间序列数据采用自监督学习(SSL)的一些努力主要集中在通过使用池化方法[12]从时间戳级嵌入中提取实例级嵌入来派生实例级嵌入。然而，这种方法往往会导致各向异性问题，即嵌入被限制在嵌入空间中的一个狭窄区域，限制了它们的表达性[18]-[20]。TimeDRL通过分离时间戳级和实例级嵌入来解决这个问题。

三、问题表述

给定一个未标记的N个多元时间序列样本集 $D_{u}=\{\mathbf{x}^{(n)}\}_{n=1}^{N},$ ，目标是开发一个编码器网络 $f_θ$ ，能够将每个样本 $\mathbf{x}^{(n)}$ 映射到其相应的表示 $\mathbf{z}^{(n)}$ 。为简单起见，在后面的描述中省略了表示样本索引的上标(n)。编码器网络 $f_θ$ 设计用于根据任务要求产生时间戳级或实例级嵌入:

1)时间戳级嵌入:将每个输入的时间序列样本 $\mathbf{x}\in\mathbb{R}^{T\times C}$ 编码为 $\mathbf{z}_t\in\mathbb{R}^{T\times D_t},$ ，其中T表示序列长度，C表示特征个数， $D_{t}$ 表示时间戳级嵌入的维数。 $\mathbf{z}_{t}$ 的每个时间戳表示对应于x的每个时间戳的特定特征和信息，从而可以详细和细粒度地了解每个时间戳的时间序列数据。

2)实例级嵌入:将每个输入样本 $\textbf{x}\in\mathbb{R}^{T\times C}$ 编码为一个实例级嵌入 $\mathbf{z}_i\in\mathbb{R}^{D_i}$ , $D_{i}$ 为实例级嵌入的维数。这里，T和C分别保留其作为序列长度和特征数量的含义。嵌入的 $z_i$ 表示整个系列x的总体信息，可以全面查看数据。

四、 THE PROPOSED TIMEDRL

图3给出了TimeDRL框架的总体架构。我们详细介绍了从输入时间序列样本x获得时间戳级嵌入 $\mathbf{z}_{t}$ 和实例级嵌入 $\mathbf{z}_{i}$ 的方法，使用Transformer编码器 $f_θ$ 作为我们的主干编码器(第IV-A节)。

在这里插入图片描述
图3。TimeDRL框架。该框架分为两部分说明:(a)预训练阶段和(b)微调阶段。在预训练阶段(a)，我们采用Siamese网络架构，使用Transformer编码器作为编码器fθ，从相同的输入生成两个不同的嵌入视图。这是通过利用编码器内dropout层的固有随机性来实现的，从而消除了对数据增强的需要。微调阶段(b)展示了这些嵌入在下游任务中的应用，展示了TimeDRL预训练嵌入对时间序列预测和分类的适应性。

之后，我们介绍两个基本的借口任务。我们首先探索使用时间戳预测任务优化时间戳级嵌入 $\mathbf{z}_{t}$ 的策略，特别是在不实现任何数据增强的情况下(第IV-B节)。随后，我们讨论了通过实例对比任务优化实例级嵌入 $\mathbf{z}_{i}$ 的方法，强调了对增强和负样本对的避免(第IV-C节)。

A.解缠双能级嵌入

transformer在下游时间序列任务[35]-[38]中取得了显著的成功，但在时间序列的自监督学习领域，基于cnn的[12]、[24]和基于rnn的[14]模型通常优于transformer。这表明变形金刚在时间序列表示学习中的全部潜力尚未得到充分利用。此外，BERT[7]和RoBERTa[39]等模型已被证明在生成高质量的句子嵌入方面取得了成功，这使得Transformer编码器成为我们框架的合适选择。通过BERT中从标记级嵌入中提取句子级嵌入和从时间序列数据中的时间戳级嵌入中提取实例级嵌入之间的相似性，进一步验证了这一决定。考虑到这些因素，我们采用Transformer编码器作为TimeDRL的主要架构，如图3右下角所示。此外，我们采用PatchTST[36]中的补丁概念，将相邻的时间步长聚合到一个基于补丁的令牌中。该技术大大减少了transformer所需的上下文窗口大小，显著降低了培训成本，并大大增强了培训过程的稳定性。

在BERT和RoBERTa中，[CLS]令牌用于捕获句子级嵌入，这促使我们采用它来提取时间序列域中的实例级嵌入。虽然理论上可以通过池化方法(例如，全局平均池化)从时间戳级嵌入中获得实例级嵌入[12]，但这种方法可能导致各向异性问题[18]-[20]。当时间戳级嵌入被限制在嵌入空间中的一个狭窄区域时，就会出现这个问题，从而降低了它们有效捕获各种信息的能力。在NLP[27]，[40]中的研究表明，与传统池化方法相比，通过对比学习优化[CLS]令牌可以获得更好的结果。这一发现与我们的实验结果一致，详见表七。

给定一个输入时间序列样本 $\mathbf{x}\in\mathbb{R}^{T\times C}$ ，我们首先应用实例归一化(IN)[41]和补丁[36]得到一系列补丁 $\mathbf{x}_{patched}\in\mathbb{R}^{T_{p}\times{C}\cdot P}:$

在这里插入图片描述
修补过程将输入样本的时间维度从T减小到 $T_{p}$ ，其中 $T_{p}$ 表示补丁的数量，同时将特征维度从C扩展到C·P，其中P表示补丁的长度。之后，在这些patch的开头添加一个[CLS] $\text{token}\in\mathbb{R}^{C\cdot P}$ ，从而得到编码器fθ在 ${\mathbf{x}_{enc_in}}\in\mathbb{R}^{({1}+T_{p})\times C\cdot P}$ 中的最终输入 $x_enc$ :
在这里插入图片描述
接收到编码器输入 $\mathbf{x}_{enc_in}$ 后，将其传入编码器 $f_{\theta}$ ，编码器 $f_{\theta}$ 由一个线性token编码层 $W_{token}\in\mathbb{R}^{D\times C\cdot P}$ ，一个可学习的线性位置编码层 $PE\in\mathbb{R}^{(1+T_{p})\times D}$ ，以及一系列Transformer块tb(共L块)组成。这个过程产生最终的嵌入 $\mathbf{z}\in\mathbb{R}^{(1+T_{p})\times D}$ :

在这里插入图片描述
值得注意的是，在Transformer编码器fθ(包括其编码层)中，其输入 $\mathbf{x}_{enc_ in}$ 和输出z的维度仅在特征维度上有所不同，从C·P过渡到D，其中D表示Transformer潜在空间的维度。

在使用编码器 $f_θ$ 从输入x中获得时间序列嵌入z后，我们的下一步是提取时间戳级嵌入 $\mathbf{z}_t\in\mathbb{R}^{T_p\times D}$ 和实例级嵌入 $\mathbf{z}_i\in\mathbb{R}^D$ 。提取过程很简单:第一个令牌([CLS]令牌)对应的嵌入被指定为实例级嵌入 $\mathbf{z}_i\in\mathbb{R}^D$ ，随后的嵌入被认为是时间戳级嵌入 $\mathbf{z}_{t}$ :

在这里插入图片描述

B. Timestamp-Predictive Task in TimeDRL

为了捕获时间戳之间的关系，我们开发了一个时间戳预测任务，通过预测损失派生时间戳级嵌入。如第1节所讨论的，时间戳预测任务的目的是在不引入归纳偏差的情况下推导时间戳嵌入。在NLP[7]、[39]或时间序列域[36]中，大多数现有方法都利用掩码语言建模(MLM)来学习令牌嵌入的语义，其中掩码是一种导致归纳偏差的增强策略。数据增强的基本假设是，尽管进行了输入转换，编码器仍应保持一致的嵌入。然而，考虑到不同时间序列数据集之间特征的巨大差异，我们将TimeDRL设计为一个通用框架，避免了任何转换不变性的考虑。因此，我们在TimeDRL中引入了非增宽时间戳预测任务，重点研究了在没有增宽方法的情况下对经过修补的时间序列数据进行重建。

给定时间戳级嵌入 $z_t$ ，首先通过时间戳预测头 $p_θ$ (没有激活函数的线性层)进行处理以生成预测。为了确保该预测准确地重建原始补丁数据，我们使用均方误差(Mean Squared Error, MSE)作为损失函数。预测损失 $L_P$ 计算为 $\mathbf{x}_{patched}$ 与预测输出之间的MSE:
在这里插入图片描述

值得注意的是，实例级嵌入 $z_i$ 不会从MSE损失中更新。

虽然我们最初讨论了单个时间戳级嵌入 $\mathbf{z}_{t}$ 的预测损失LP，但重要的是要注意，我们的框架生成了表示 $\mathbf{z}^1$ 和 $\mathbf{z}^2$ 的两个视图，因为输入数据x通过编码器 $f_θ$ 处理了两次(在第IV-C节中讨论)。这使我们能够将预测学习应用于时间戳级嵌入 $\mathbf{z}_t^{\hat{1}}$ 和 $\mathbf{z}_t^{\hat{2}}$ 。因此，每种表示的预测损失计算如下:

在这里插入图片描述
总预测损失LP取 $\mathcal{L}_{P^{1}}$ 和 $\mathcal{L}_{P^{2}}$ 的平均值:

C. Instance-Contrastive Task in TimeDRL

为了捕获整个序列的整体信息，我们开发了一个实例对比任务，通过对比损失来派生实例级嵌入。在对比学习中，需要两个不同的嵌入视图来计算损失。为了与我们避免数据扩增的承诺保持一致，我们在主干编码器中使用dropout层来在嵌入[27]的输出上引入随机性。通过两次将数据通过编码器，从相同的输入生成两个不同的嵌入视图: 在这里插入图片描述

然后，对于每个嵌入，我们提取第一个位置作为我们的实例级嵌入。

在这里插入图片描述

该策略确保不使用外部数据增强方法，从而避免引入归纳偏置。

此外，天真地使用这种技术无法解决对比学习中的抽样偏差。当随机选择的负样本与正样本相似时，就会发生抽样偏差，这是由于周期模式的存在而在时间序列域中常见的情况。为此，我们只关注正样本，而不使用负样本来解决抽样偏差的挑战。该方法结合了一个额外的预测头，并集成了一个停止梯度操作，以防止模型崩溃[11]，[42]。此外，对比学习中的这种无负方法消除了对大批量的需求，而大批量通常是收集足够的负样本以进行稳定训练所必需的。

在通过dropout层的随机性从相同的输入中获得两个实例级嵌入 $\mathbf{z}_i^1$ 和 $\mathbf{z}_i^2$ 后，通过实例对比头 $c_{\theta}$ (中间有BatchNorm和ReLU的两层瓶颈MLP)对每个嵌入进行处理，生成 $\hat{\mathbf{z}}_i^1$ 和 $\hat{\mathbf{z}}_i^2$ :
在这里插入图片描述
表1 7个时间序列预测数据集的统计概况。

在这里插入图片描述
在计算对比损耗时，我们的目标是使 $\hat{\mathbf{z}}_i^1$ 与 $\mathbf{z}_i^2$ 对齐。这种将 $\mathbf{z}_i^2$ 作为对比损耗中的常数的处理确保了模型更新仅基于预测的 $\hat{\mathbf{z}}_i^1$ ，而不接收来自 $\mathbf{z}_i^2$ 的梯度。使用负余弦相似度计算损失如下:

在这里插入图片描述
其中，停止梯度表示停止梯度操作。同样，为了对称优化网络，我们还计算了 $\hat{\mathbf{z}}_i^2$ 和 ${\mathbf{z}}_i^1$ 之间的损失，对 ${\mathbf{z}}_i^1$ 进行停止梯度运算:

在这里插入图片描述
总对比损耗LC为LC1和LC2的平均值:

在这里插入图片描述

最后，联合训练时间戳预测任务和实例对比任务，并使用λ在两种损失之间进行调整:

在这里插入图片描述

五、实验

为了确保可重复性，我们使用来自信誉良好来源的时间序列数据集进行评估。我们的TimeDRL框架在两个关键领域进行评估:预测和分类，前者测试时间戳级嵌入的有效性，后者侧重于实例级嵌入的效用。对于时间序列预测，我们针对6个不同数据集的6个基线模型对TimeDRL进行基准测试。同样，在时间序列分类领域，将模型与5个数据集上的6条基线进行比较。

我们从线性评估开始，以评估TimeDRL学习的时间戳级和实例级嵌入的有效性。结果表明，在这些嵌入上训练线性层超越了以前最先进的方法。然后，我们展示了该模型在半监督学习场景中的性能，突出了它在处理有限的标记数据和大量未标记数据时的有效性。最后，进行了一系列消融研究，以突出每个组件在TimeDRL框架中的重要性。

1)数据集:

在这里插入图片描述
a)时间序列预测的数据集:为了进行时间序列预测分析，我们在6个真实世界的公开基准数据集上进行了实验。表1详细列出了预测实验中使用的每个数据集的特征概述。这包括特征的数量、数据集的总长度和采样频率。

et[1]捕获长期电力部署数据。这些数据集包括两个小时采样数据集(ETTh1, ETTh2)和两个15分钟采样数据集(ETTm1, ETTm2)，跨度超过两年，来自中国不同省份。ETT数据集包括一个油温特征以及6个功率负载特征。所有特征都用于多变量预测，而单变量预测仅使用油温特征。外汇[43]包含了8个国家从1990年到2016年的每日汇率。这些国家包括澳大利亚、英国、加拿大、瑞士、中国、日本、新西兰和新加坡。对于多变量预测，我们使用来自所有这些国家的数据，而对于单变量预测，我们特别关注新加坡。Weather1提供近1600个美国地区4年来的当地气候数据。每条记录包括11个天气变量以及目标功能“web bulb”。“对于多变量预测，我们会考虑所有特征，而对于单变量预测，我们会特别关注‘网络灯泡’特征。”

b)用于时间序列分类的数据集:对于我们的时间序列分类分析，我们在5个真实的、可公开访问的基准数据集上进行了实验。表1概述了每个数据集的特征，包括时间序列样本的数量、特征的数量、类的数量和每个样本的长度。

HAR[44]包括来自30名受试者执行6项活动的传感器数据。数据是用三星Galaxy S2设备收集的，目的是根据加速度计和陀螺仪的测量来预测活动。WISDM[4]包括来自智能手机和智能手表中的加速度计和陀螺仪的时间序列数据。这些数据是在51名测试对象进行18种不同的活动时收集的，每种活动持续3分钟。癫痫病[45]包含500个人的脑电图记录，使用单通道脑电图传感器以174赫兹的频率记录。这些数据包括每个受试者23.6秒的大脑活动记录，分为癫痫患者和非癫痫患者。PenDigits[46]解决了一个手写数字分类任务，其中44位作者绘制了数字0到9，并记录了x和y坐标。以500x500像素的分辨率记录数据，然后重新采样到8个空间点。FingerMovements[47]是一个数据集，记录了受试者在计算机键盘上进行自定节奏的按键输入。这项任务包括在同一天进行的三次6分钟的会话，中间有休息时间，打字的平均速度为每秒一个键。

2)评价指标:

a)时间序列预测的评价指标:在时间序列预测中，我们主要使用均方误差(MSE)和平均绝对误差(MAE)作为我们的评价指标。均方误差(MSE)定义为:

在这里插入图片描述
式中， $\mathbf{y}^{(n)}$ 表示输入 $\mathbf{x}^{(n)}$ 对应的实际未来序列值， $\hat{\mathbf{y}}^{(n)}$ 为相同输入的预测值，n为样本总数。平均绝对误差(MAE)定义为:

b)时间序列分类的评价指标:在时间序列分类中，我们使用准确率(ACC)，宏观平均f1分数(MF1)和科恩Kappa系数(κ)作为所有实验的评价指标。精确度定义为在这里插入图片描述
其中TP、TN、FP、FN分别代表真阳性、真阴性、假阳性、假阴性。宏观平均f1分计算公式为:
其中 $P_e$ 是偶然性一致的假设概率，用

在这里插入图片描述
其中N为样本总数。系数的取值范围为- 1(完全不同意)到1(完全同意)，0表示完全不同意。Cohen’s Kappa (κ)对于评估不平衡数据集上的分类器至关重要，因为它会根据机会一致性进行调整。这揭示了分类器的性能何时类似于随机机会(κ接近0)，或者当κ为负时，表明性能比随机更差，为处理类不平衡提供了关键的见解。

3)基线:

a)时间序列预测的基线:SimTS[13]通过学习从潜在空间中的过去数据预测未来结果来简化时间序列预测，而不依赖于负对或关于时间序列特征的特定假设。TS2Vec[12]是时间序列表示学习的第一个通用框架，专注于在实例和时间戳级别区分多尺度上下文信息，证明在一系列时间序列任务中是有效的。TNC[14]采用增强的DickeyFuller测试来识别时间邻域，并采用Positive-Unlabeled学习来减轻抽样偏差。CoST[48]集成了时域和频域的对比损失，能够分别学习不同的趋势和季节表征。除了无监督表示学习方法，我们还结合了两种端到端学习方法。在这些模型中，表示学习和预测组件以端到端方式同时集成和训练。Informer[1]引入了ProbSparse自关注和提取操作，解决了标准Transformer中的二次时间复杂度和内存使用挑战。TCN[49]将扩张和残差连接与因果卷积合并，这对自回归预测至关重要。

b)时间序列分类的基线:MHCCL[16]利用多变量时间序列中层次结构的语义数据，使用层次聚类来改进正负样本配对。CCL[50]采用基于聚类的方法进行表示学习，利用来自聚类和约束的标签来开发判别特征。SimCLR[9]采用对比学习，将同一实例的增强视图视为正对，将小批量中的不同实例视为负对。BYOL[10]使用两个相互作用的网络，在线网络和目标网络，从图像的增强视图中学习，在线网络预测不同增强下目标的表示，目标网络是在线网络的缓慢移动平均值。TS2Vec[12]被认为是时间序列表示学习的通用框架，也包括在我们的时间序列分类分析中。TS-TCC[24]通过强增强和弱增强生成两个视图，然后通过在时间和上下文上对比这些视图来学习表示。T-Loss[15]通过基于时间的负采样的三重态损失来训练表征。

4)实现细节:我们将数据集划分为三个部分:60%用于训练，20%用于验证，20%用于测试，除非存在预定义的训练-测试分割。我们采用了带权重衰减的AdamW[51]优化器。实验在NVIDIA GeForce RTX 3070 GPU上进行。我们使用变压器编码器作为编码器的架构fθ。我们使用线性层设计了时间戳预测头pθ，使用中间有BatchNorm和ReLU的两层瓶颈MLP设计了实例对比头pθ。在时间序列预测任务中，我们结合了通道独立性和补丁，这也是PatchTST[36]引入的概念。该方法将多变量时间序列视为多个单变量序列，由单个模型进行综合处理。尽管信道混合模型直接利用跨信道数据，但信道独立通过共享权重间接捕获跨信道交互。我们观察到频道独立性显著提高了时间序列预测的性能，从而在我们的实验中整合了它。然而，对于时间序列分类，我们发现忽略信道无关性会产生更好的结果。

表三。多元时间序列预测的线性评价。我们对ETTh1、ETTh2、Exchange和Weather使用预测长度T∈{24,48,168,336,720};对于ETTm1和ETTm2, T∈{24,48,96,228,672}。最好的结果用粗体表示，次好的结果用下划线表示。在这里插入图片描述

A.时间序列预测的线性评价

为了评估TimeDRL时间戳级嵌入的有效性，我们对时间序列预测进行了线性评估。这包括使用借口任务对编码器进行预训练，然后冻结编码器权重，并在下游预测任务上附加线性层进行训练。根据SimTS[13]中使用的实验设置，我们为ETTh1、ETTh2、Exchange和Weather等数据集设置了各种预测长度T∈{24,48,168,336,720};对于ETTm1和ETTm2, T∈{24,48,96,228,672}。表III总结了TimeDRL在多变量预测中的表现，其中显示与最先进的方法相比，MSE平均提高了58.02%。值得注意的是，TimeDRL超越了所有基线的性能，包括SimTS，尽管它的对比学习目标是专门为预测任务设计的。虽然SimTS在从历史数据预测未来数据的潜在表示方面是有效的，但它的性能受到不考虑数据随机性的限制。相比之下，TimeDRL结合了随机性，使其能够更有效地捕获时间动态并提高预测精度。SimTS中随机性的缺失导致了一般化程度的降低，因为它无法解释现实世界场景中固有的可变性和不可预测性。对于较长的预测长度，这一点尤为明显。例如，在预测长度为720的ETTh2数据集上，TimeDRL的MSE比SimTS提高了78.96%，这表明其在长期预测精度方面取得了显著进步。此外，为了评估模型对单变量时间序列数据的能力，我们进行了单变量预测实验。结果如表4所示，MSE平均提高了29.09%，进一步验证了TimeDRL的通用性。
表四单变量时间序列预测的线性评价。我们对ETTh1、ETTh2、Exchange和Weather使用预测长度T∈{24,48,168,336,720};对于ETTm1和ETTm2, T∈{24,48,96,228,672}。最好的结果用粗体表示，次好的结果用下划线表示。
在这里插入图片描述

TimeDRL的执行时间，以及表现最好的基线SimTS和TS2Vec，如图4所示，使用NVIDIA GeForce RTX 3070 GPU进行评估。为了公平地比较所有方法，我们将批大小设置为32,epoch数设置为10，序列长度T设置为512。SimTS和TS2Vec使用快速的基于卷积的编码器，而TimeDRL使用Transformer编码器，以其捕获时间依赖性的卓越能力而闻名，但执行时间较长。为了提高效率，TimeDRL集成了一个补丁机制，将输入序列长度从L减小到⌊(L−P)/S⌋+ 2，从而二次降低了对计算和内存的需求。尽管TimeDRL的执行时间比基于卷积的同类要长，但它的修补机制显著缩小了效率差距，增强了它在不影响性能的情况下捕获复杂时间依赖性的能力。

在这里插入图片描述

图5。半监督学习。为了模拟具有有限可用标记数据的真实场景，我们在数据集中对标签的不同部分进行了实验。顶部部分(a-c)表示时间序列预测，而底部部分(d-f)对应于时间序列分类。’ TimeDRL (FT) '表示我们在下游任务期间微调编码器。

B.时间序列分类的线性评价

为了评估TimeDRL实例级嵌入的有效性，我们使用线性评估方法进行时间序列分类。采用与预测评估类似的方法，我们首先使用自监督学习训练编码器，冻结其权重，然后附加一个线性层用于分类任务的训练。TimeDRL在时间序列分类中的性能如表5所示，它比最先进的方法平均准确率提高了1.48%。对于基线模型已经达到大约90%准确度或更高的数据集，TimeDRL始终保持可比较的结果。值得注意的是，在具有挑战性的手指运动数据集上，基线模型通常表现不佳，TimeDRL的准确率提高了22.86%，科恩Kappa系数提高了58.13%。此外，TimeDRL处理单变量数据的能力在Epilepsy数据集中很明显，其准确度仅比最佳基线方法低0.07%。

C.半监督学习

自监督学习在现实场景中最实际的应用是半监督学习，其中标记的数据是有限的，但存在大量未标记的数据。传统的监督学习方法只关注有限的标记数据，而忽略了未标记数据的未开发潜力。在这种情况下，自我监督学习通过使用大量未标记数据进行强大的表示学习而大放异彩。我们首先在大型未标记数据集上训练编码器以学习丰富的表示，然后在下游任务头部使用有限的标记数据进行微调。与前面章节中编码器权重被冻结的线性计算不同，在这个真实的应用程序场景中，编码器权重在微调期间被调整。为了模拟有限标签数据可用性的情况，我们在数据集中随机保留一部分标签。仅使用标记数据(监督学习)与结合未标记和标记数据(带微调的TimeDRL)的比较结果如图5所示。结果表明，将未标记数据与TimeDRL结合可以显著提高预测(具有MSE)和分类(具有准确性)的性能，特别是当可用标记数据的比例减少时。这一趋势突出了TimeDRL在利用未标记数据提高性能方面的效率，因为标记数据的可用性降低了。值得注意的是，TimeDRL的预训练阶段的好处是显而易见的，即使100%的标签是可用的。

在这里插入图片描述

D.消融研究

1)借口任务:在TimeDRL中，我们策略性地使用两个借口任务来优化时间戳级和实例级嵌入。时间戳预测任务侧重于将损失专门应用于时间戳级嵌入，而实例对比任务则针对实例级嵌入。我们的实验对式(19)中的lambda参数进行敏感性分析，以评估其对表示学习有效性的影响。从图6的结果可以看出，结合两个借口任务在预测和分类任务中都能产生最佳的性能，突出了每个任务在增强双层次嵌入方面的价值。值得注意的是，尽管实例对比任务主要是优化实例级嵌入，但它显著提高了依赖于时间戳级嵌入的时间序列预测任务的性能。在实例对比任务对总体损失的贡献最小的情况下(λ = 0.001)，与两种损失同等利用的情况(λ = 1)相比，MSE经历了大幅增加。在时间序列分类任务中也观察到类似的效果。忽略时间戳预测任务而选择实例对比任务(λ = 1000)会导致精度显著降低。这些发现强调了这两个借口任务在不同时间序列应用中的TimeDRL总体功效的重要性。

2)数据增强:TimeDRL的基本原则是避免任何数据增强，以防止引入归纳偏差。因此，我们设计的时间戳预测任务和实例对比任务都不涉及任何增强方法。在我们的实验中，我们的目标是证明忽略归纳偏置问题的潜在缺点。在表六中，我们实验了6种特定于时间序列的数据增强方法[12]，[52]。抖动通过加性高斯噪声模拟传感器噪声。缩放通过将数据与随机标量相乘来调整数据的大小。旋转通过排列特征的顺序和可能翻转特征值的符号来修改数据集。排列将数据分割成段，然后随机排列这些段以创建新的时间序列实例。屏蔽将时间序列数据中的值随机设置为零。裁剪将删除时间序列实例的左右区域，并用零填充空白以保持相同的序列长度。
在这里插入图片描述
在表VI详细的实验中，任何增强方法的应用都会导致性能下降，ETTh1数据集的MSE平均提高27.77%，Exchange数据集的MSE平均提高57.37%。在旋转增强时观察到最显著的退化，其中ETTh1数据集的MSE增加了68.15%，Exchange数据集的MSE增加了174.46%。TS2Vec[12]解决了归纳偏置问题，但仍然采用掩蔽和裁剪增强。我们的研究结果表明，与其他方法相比，这两种方法的危害相对较小，但它们仍然会导致性能下降。该实验支持了我们最初的假设，即完全避免增强方法对于消除归纳偏置至关重要，从而确保TimeDRL的最佳性能。

3)池化方法:在TimeDRL中，我们采用专用的[CLS]令牌策略直接从修补的时间序列数据中派生实例级嵌入。尽管采用这种方法，但我们认识到使用池化方法从时间戳级嵌入中提取实例级嵌入的理论可能性。为了探讨这一点，我们对实例级嵌入的其他3种不同池化策略进行了实验，详见表6。Last利用最后一个时间戳级嵌入作为实例级表示。GAP使用全局平均池，在时间轴上平均时间戳级嵌入，以聚合实例级嵌入。All平坦化所有时间戳级嵌入，以创建单个实例级表示。表7中的结果显示，使用TimeDRL使用的[CLS]令牌策略以外的策略导致FingerMovements数据集的准确率平均下降11.11%，Epilepsy数据集的准确率平均下降16.75%，突出了[CLS]令牌方法的优越性能。最不有效的池化方法是GAP，通常用于时间序列域[12]。由于各向异性问题，这种方法的性能下降最为显著。这些结果证明了分离时间戳级和实例级嵌入的重要性，这是TimeDRL与其他基准方法相比性能优越的一个关键因素。
在这里插入图片描述
4)编码器架构:变压器以其在下游时间序列任务[35]，[36]中的成功而闻名，但对于时间序列中的自监督学习，通常选择基于cnn的[12]，[24]和基于rnn的[14]模型而不是变压器。TimeDRL的设计是为了充分利用Transformer在时间序列数据的自监督学习方面的优势，旨在展示Transformer在该领域的强大能力。在TimeDRL中，Transformer编码器被用作核心编码器。为了将其性能与其他编码器架构进行比较，我们使用5种不同的模型进行了实验，详见表VIII。变压器解码器采用与变压器编码器类似的架构，其关键区别是使用屏蔽自注意。这确保了每个时间戳的嵌入只关注前面的时间戳，而不是后面的时间戳。ResNet采用了计算机视觉的著名架构ResNet18，用适合于时间序列数据的一维卷积进行修改。TCN b[49]结合了扩张和残差连接与因果卷积，专门为时间序列的自回归预测量身定制。LSTM使用长短期内存单元来捕获顺序数据中的依赖项。使用单向LSTM，关注过去和现在的数据，以防止未来的数据泄漏。Bi-LSTM遵循LSTM结构，但包含双向处理，允许模型集成来自过去和未来时间戳的信息。

表八中的发现表明，不使用Transformer编码器，结合我们的两个借口任务，会导致更差的模型性能。具体来说，与使用Transformer编码器相比，这导致ETTh1数据集的MSE平均提高了17.30%，Exchange数据集的MSE平均提高了6.60%，强调了它比其他架构的效率。相比之下，与Transformer编码器相比，Transformer解码器的性能有所下降，ETTh1数据集的MSE增加了11.26%，Exchange数据集的MSE增加了8.28%。这种差异突出了双向自我注意在实现对整个序列的全面理解中的关键作用。同样，当比较LSTM和Bi-LSTM时，后者表现出更高的性能，因为它能够访问过去和未来的信息。这些发现强调了对每个时间戳具有完全时间访问的重要性，并证实了Transformer编码器获得有效时间序列表示的强大能力。

5)停止梯度:为了解决抽样偏差，我们的方法包括一个额外的预测头和一个停止梯度操作。这种不对称设计，一条路径带有额外的预测头，另一条路径带有停止梯度，在防止模型崩溃方面被证明是有效的，[11]，[42]等研究都证明了这一点。表9中的结果显示，消除停止梯度操作导致FingerMovements数据集的准确率显著下降11.11%，Epilepsy数据集的准确率显著下降16.75%，这凸显了停止梯度元素在这种不对称架构中的关键作用。

六、结论

本文介绍了一种新的多元时间序列表示学习框架TimeDRL。我们的框架分离了时间戳级和实例级嵌入，使其适用于各种时间序列任务，如预测和分类。TimeDRL的核心是利用[CLS]令牌策略从修补的时间序列数据中提取上下文化的实例级嵌入。引入两个借口任务来优化表征:时间戳-预测任务侧重于优化具有预测损失的时间戳级嵌入，而实例-对比任务侧重于优化具有对比损失的实例级嵌入。为了解决归纳偏差的挑战，TimeDRL避免在两个借口任务中直接应用任何数据增强。在时间戳预测任务中，TimeDRL依赖于修补时间序列数据的重构误差，故意避免任何输入屏蔽。对于实例对比任务，TimeDRL利用退出层的随机性，从单个数据输入创建两个不同的嵌入视图。在6个预测数据集和5个分类数据集上的综合实验证明了TimeDRL的优越性能，预测MSE平均提高58.02%，分类准确率平均提高1.48%。TimeDRL还支持半监督学习场景中使用有限标记数据的有效能力。此外，广泛的消融研究和详细的分析进一步验证了TimeDRL体系结构中每个组件的相对贡献。在未来的工作中，我们将对用于时间序列分类的TimeDRL进行改进，使其成为一个更全面的基础模型。此外，将与基于大语言模型(LLM)的方法进行比较，以研究LLM在时间序列域的影响。