LEARNING TO EMBED TIME SERIES PATCHES INDEPENDENTLY-CSDN博客

系列文章目录

学习独立嵌入时间序列补丁 ICLR2024

文章目录

系列文章目录
摘要
一、引言
二、相关工作
三、方法
四、实验
五、分析
六、结论

摘要

提示：这里可以添加本文要记录的大概内容：

掩膜时间序列建模作为一种时间序列的自监督表示学习策略，近年来受到了广泛的关注。受计算机视觉中掩模图像建模的启发，最近的研究首先对时间序列进行拼接和部分掩模，然后通过从未掩模的斑块中预测掩模的斑块来训练变形金刚捕捉斑块之间的依赖关系。然而，我们认为捕获这种补丁依赖关系可能不是时间序列表示学习的最佳策略;相反，学习独立嵌入补丁会产生更好的时间序列表示。具体来说，我们建议使用1)简单的补丁重建任务，它在不查看其他补丁的情况下自动编码每个补丁，以及2)简单的补丁智能MLP，它独立嵌入每个补丁。此外，我们还引入了互补对比学习，以有效地分层捕获相邻时间序列信息。与最先进的基于变压器的模型相比，我们提出的方法提高了时间序列预测和分类性能，同时在参数数量和训练/推理时间方面更有效。代码可在此存储库中获得:https://github.com/seunghan96/pits。

提示：以下是本篇文章正文内容

一、引言

时间序列(TS)数据在一系列下游任务中得到应用，包括预测、分类和异常检测。深度学习在TS分析中表现出了卓越的性能，在TS分析中，学习良好的表征对于深度学习的成功至关重要，而自监督学习已经成为有效利用未标记数据的一种有前途的策略。值得注意的是，对比学习(CL)和掩模建模(MM)在TS分析以及自然语言处理等其他领域表现出令人印象深刻的性能(Devlin等人，2018;Brown et al.， 2020)和计算机视觉(Chen et al.， 2020;Dosovitskiy等人，2021)。

屏蔽时间序列建模(MTM)任务部分屏蔽掉TS，并使用编码器捕获补丁之间的依赖关系，如Transformers (Zerveas et al.， 2021;Nie et al.， 2023)。然而，我们认为学习补丁之间的依赖关系，例如，基于被掩盖的部分预测未被掩盖的部分，并利用捕获补丁之间依赖关系的架构，可能不是表征学习所必需的。

为此，我们引入了补丁独立性的概念，该概念在嵌入TS补丁时不考虑它们之间的相互作用。这个概念是通过两个关键方面来实现的:1)预训练任务和2)模型架构。首先，我们提出了一个补丁重建任务，重建未被掩盖的补丁，而不像传统的MM预测被掩盖的补丁。我们将这些任务分别称为补丁独立(patch-independent, PI)任务和补丁依赖(patch-dependent, PD)任务，因为前者不需要其他补丁的信息来重建每个补丁，而后者需要。图1展示了TS预测的一个简单示例。虽然在PD任务上预训练的Transformer (Nie et al.， 2023)无法预测分布移位下的测试数据，但在PI任务上预训练的Transformer对其具有鲁棒性。其次，我们采用简单的PI架构(例如，MLP)，表现出比传统的PD架构(例如，Transformer)更好的效率和性能。

本文提出了时间序列的补丁独立性(Patch Independence for Time Series, pit)方法，该方法利用未掩码的补丁重构作为PI预训练任务，利用MLP作为PI架构。最重要的是，我们引入了互补CL来有效地捕获相邻的时间序列信息，其中CL是使用原始样本的两个增强视图来执行的，这些视图以互补的方式被掩盖。

在这里插入图片描述

在这里插入图片描述
*T-Loss (NeurIPS 2019)、Self-Time (arXiv 2020)、TS-SD (IJCNN 2021)、TS-TCC (IJCAI 2021)、TNC (ICLR 2021)、mixup (PR Letters 2022)、TF-C (NeurIPS 2022)、TimeCLR (KBS 2022)、CA-TCC (TPAMI 2023)。
表1:TS中SOTA方法比较表。

我们对各种任务进行了广泛的实验，证明我们提出的方法在标准和迁移学习设置下的预测和分类任务中都优于最先进的(SOTA)性能。主要贡献总结如下:

•我们认为，就性能和效率而言，独立学习嵌入时间序列补丁优于依赖学习TS表示学习。为了实现补丁独立性，我们提出了pit，它包含了对MTM的两个主要修改:1)使任务与patch无关，重构未被遮挡的patch，而不是预测被遮挡的patch; 2)使编码器与patch无关，消除注意机制，同时保留MLP，在编码过程中忽略patch之间的相关性。

•我们引入互补对比学习，以有效地分层捕获相邻的TS信息，其中正对是通过互补随机掩蔽形成的。

•我们对低级预测和高级分类进行了广泛的实验，证明我们的方法提高了SOTA在各种下游任务上的性能。此外，我们发现PI任务在管理分布转移方面优于PD任务，并且PI架构与PD架构相比更具可解释性和对补丁大小的鲁棒性。

二、相关工作

自我监督学习。近年来，自监督学习(self-supervised learning, SSL)因从各个领域的未标记数据中学习强大的表示而受到关注。SSL的成功来自于对借口任务的积极研究，这些任务可以在没有监督的情况下预测数据的某个方面。下一个令牌预测(Brown et al.， 2020)和掩码令牌预测(Devlin et al.， 2018)常用于自然语言处理，拼图游戏(Noroozi & Favaro, 2016)和旋转预测(Gidaris & Komodakis, 2018)常用于计算机视觉。

最近，对比学习(Hadsell et al.， 2006)作为一种有效的借口任务出现。CL的关键原则是最大化正对之间的相似性，同时最小化负对之间的相似性(Gao et al.， 2021;Chen et al.， 2020;Yue et al.， 2022)。另一种很有前途的技术是掩模建模(MM)，它训练模型在未掩模部分的基础上重建掩模块。例如，在自然语言处理中，模型预测句子中的屏蔽词(Devlin等人，2018)，而在计算机视觉中，模型预测图像中的屏蔽块(Baevski等人，2022;He et al.， 2022;Xie et al.， 2022)。

屏蔽时间序列建模。除了CL之外，MM作为TS中SSL的一个借口任务也受到了关注，该任务包括屏蔽一部分TS并预测缺失值，称为屏蔽时间序列建模(MTM)。虽然CL在高级分类任务中表现出色，但MM在低级预测任务中表现出色(Yue et al.， 2022;Nie et al.， 2023)。TST (Zerveas et al.， 2021)将MM范式应用于TS，旨在重建被屏蔽的时间戳。PatchTST (Nie et al.， 2023)专注于预测掩码子序列级补丁，以捕获局部语义信息并减少内存使用。SimMTM (Dong et al.， 2023)从多个被屏蔽的TS重构原始TS, TimeMAE (Cheng et al.， 2023)使用两个借口任务——被屏蔽码字分类和被屏蔽表示回归训练基于变压器的编码器。表1从预训练方法和下游任务两个标准对包括我们在内的TS中的各种方法进行了比较，其中pretraining method中的No (Sup.)表示不采用预训练的监督学习方法。

与最近的MTM工作不同，我们提出通过自动编码来重建未被掩盖的补丁。自动编码的一个主要关注点是恒等映射的平凡解决方案，这样隐藏层的维度应该小于输入。为了缓解这一问题，我们在中间全连接(FC)层之后引入了dropout，这与堆叠去噪自编码器的情况类似(Liang & Liu, 2015)，其中的烧蚀研究可以在图4中找到。

在这里插入图片描述图2:与补丁无关的PITS策略。(a)说明了PI和PD方面的预训练任务和编码器架构。(b)演示了拟议的PI，它利用PI任务和PI架构。将TS分割成小块，并用互补掩蔽进行增强。来自MLP的第一层和第二层的表示分别用于CL和重建。

CL和MM的结合。最近有人将CL和MM结合起来进行表征学习(Jiang等人，2023;Yi et al.， 2023;黄等人，2022;Gong et al.， 2023;Dong et al.， 2023)。在这些工作中，SimMTM (Dong et al.， 2023)以对比损失的形式在其目标函数中使用正则器来解决MM任务。然而，它与我们的工作不同之处在于，它侧重于TS之间的CL，而我们建议的CL在单个TS内使用补丁进行操作。

互补掩蔽。SdAE (Chen et al.， 2022)使用学生分支进行信息重构，使用教师分支生成掩码令牌的潜在表示，利用互补的多重掩码策略来保持分支之间的相关互信息。TSCAE (Ye et al.， 2023)通过为师生网络引入互补掩码，解决了基于MM的预训练模型中上下游不匹配之间的差距，CFM (Liao et al.， 2022)引入了一种可训练的互补掩码策略用于特征选择。我们提出的互补掩蔽策略的不同之处在于，它不是为蒸馏模型设计的，我们的掩蔽是不可学习的，而是随机生成的。

时间序列预测的线性模型。Transformer (Vaswani et al.， 2017)是一种流行的序列建模架构，它促使基于Transformer的时间序列分析解决方案激增(Wen et al.， 2022)。变形金刚的主要优势来自多头自注意机制，擅长于在广泛的序列中提取语义相关性。然而，Zeng等人(2023)最近的工作表明，简单的线性模型仍然可以提取基于transformer的方法捕获的此类信息。受此工作的启发，我们建议使用一种简单的MLP架构，该架构不编码时间序列补丁之间的交互。

三、方法

我们解决了学习嵌入函数 $f_\theta:\boldsymbol{x}_p^{(i,c,n)}\to\boldsymbol{z}^{(i,c,n)}$ 的任务，其中 $\boldsymbol{x}_p=\left\{\boldsymbol{x}_p^{(i,c,n)}\right\},\boldsymbol{z}=\left\{\boldsymbol{z}^{(i,c,n)}\right\},\mathrm{~and~}i=1,\ldots,B,c=1,\ldots,C,n=1,\ldots,N$ ;其中，B、C、N分别为TS的个数、单个TS的通道数和单个TS的单通道补丁数，输入维度为补丁大小，输出维度为补丁嵌入维度，分别记为P和D，即: $\boldsymbol{x}_p^{(i,c,n)}\in\mathbb{R}^P\mathrm{~and~}\boldsymbol{z}^{(i,c,n)}\in\mathbb{R}^D$ 。我们的目标是学习 $f_θ$ 提取在各种下游任务上表现良好的表示。

通道独立性和补丁独立性。我们在我们的方法中使用通道独立架构，其中所有通道共享相同的模型权重并独立嵌入，即 $f_{\theta}$ 独立于c。与通道依赖方法相比，这已经显示出对分布转移的稳健预测(Han等人，2023)。此外，我们建议使用PI架构，其中所有补丁共享相同的模型权重并独立嵌入，即 $f_{\theta}$ 独立于n。我们在图2(a)中说明了四种不同的PI/PD架构，其中我们使用MLP作为我们提出的pit，由于其效率和性能，分别如表13和表7所示。

3.1补丁独立任务:补丁重建

与传统的MM任务(即PD任务)使用未掩码的补丁来预测掩码补丁不同，我们提出了补丁重建任务(即PI任务)，它对每个补丁进行自动编码，而无需查看其他补丁，如图2(a)所示。因此，虽然原始的PD任务需要捕获补丁依赖项，但我们建议的任务不需要。一个补丁化的单变量TS可以通过两种不同的方式重建:1)通过处理补丁表示的拼接的FC层一次重建: $\mathrm{concat}\left(\widehat{\boldsymbol{x}}_p^{(i,c,:)}\right)=W_1\mathrm{concat}\left(\boldsymbol{z}^{(i,c,:)}\right)$ ，其中 $W_1\in\mathbb{R}^{N\cdot P\times N\cdot D},$ , 2)通过FC层处理每个补丁表示的逐补丁重建: $\widehat{\boldsymbol{x}}_p^{(i,c,n)}=W\boldsymbol{z}^{(i,c,n)}$ 其中 $W\in\mathbb{R}^{P\times D}$ 。与Nie等人(2023)类似，我们采用了基于补丁的重建方法，从而在实验中产生更好的性能。

3.2补丁无关架构:MLP

虽然MTM通常与transformer一起研究以捕获补丁之间的依赖关系，但我们认为学习独立嵌入补丁会更好。按照这个想法，我们建议使用简单的PI架构，这样编码器只专注于提取补丁表示。图2(a)显示了PI/PD预训练任务和编码器架构的示例。对于PI架构，Linear由单个FC层模型组成，MLP由带有ReLU的两层MLP组成。对于PD架构，MLP-Mixer2 (Tolstikhin等人，2021;Chen et al.， 2023)由用于时间混合(N-dim)的单个FC层和用于补片混合(D-dim)的双层MLP组成，Transformer由自关注层和用于补片混合(D-dim)的双层MLP组成，然后是Nie et al.(2023)。表13给出了MLP和Transformer在参数数量和训练/推理时间方面的效率比较。

3.3互补对比学习

为了进一步提高学习表征的性能，我们提出了互补CL来分层捕获相邻的TS信息。CL需要两个视图来生成正对，我们通过互补掩蔽策略来实现这一点:对于具有相同长度的TS x和掩码m，我们将 $\boldsymbol{m}\odot\boldsymbol{x}\mathrm{~and~}(1-\boldsymbol{m})\odot\boldsymbol{x}$ 视为两个视图，其中⊙是元素的乘法，我们使用50%的掩蔽比进行实验。注意，屏蔽的目的是为CL生成两个视图;它不会影响提议的PI任务，并且在使用提议的PI架构时不需要额外的前向传递，因此额外的计算成本可以忽略不计。

图3展示了一个互补CL的例子，其中我们通过沿着时间轴对补丁表示进行最大池化，分层执行CL (Yue等人，2022)，并计算和汇总每个级别计算的损失。然后，通过对比另一个视图与其他视图的相似度，学习查找一个视图中缺失的补丁信息，从而分层捕获相邻的TS信息。

在这里插入图片描述
图3:互补对比学习。

3.4目标函数

如图2(b)所示，根据表9的消融研究，我们在第一层进行CL，并在第二层顶部通过额外的投影头进行重建。为了区分它们，我们将从MLP中的两层获得的表示分别表示为 $\boldsymbol{z}_{1}$ 和 $\boldsymbol{z}_{2}$ 。

重建损失。如3.1节所述，我们将z2输入到逐块线性投影头中，以得到重建结果: $\widehat{\boldsymbol{x}}_p=W\boldsymbol{z}_2$ 。则重构损失可表示为:
在这里插入图片描述
如果第一个视图 $\boldsymbol{x}_p^{(i,c,n)}$ 被屏蔽，则 $\boldsymbol{m}^{(i,c,n)}=0$ ，否则为1。由式1推导出，重构任务不受互补掩蔽的影响，即重构两个视图中未被遮挡的patch与重构没有互补掩蔽的patch是一样的。

为简洁起见，省略了偏见。虽然TSMixer是MLP-Mixer的一个变体，用于与我们的工作并行的TS，但我们发现TSMixer在SSL上表现不佳，因此我们在这里使用了我们自己的MLP-Mixer变体。

对比损失。受Lee等人(2021)的对比损失的类似交叉熵损失公式的启发，我们在计算时间对比损失时，为所有考虑的相似性之间的相对相似性建立了一个softmax概率。为简洁起见，设 $\boldsymbol{z}_{1}^{(i,c,n)}=\boldsymbol{z}_{1}^{(i,c,n+2N)}$ 和 $\boldsymbol{z}_1^{(i,c,n+N)}$ 为嵌入 $\boldsymbol{x}^{(i,c,n)}$ 的patch的两个视图。则对patch指数 $\begin{aligned}(n,n')\end{aligned}$ 的softmax概率定义为:
在这里插入图片描述
我们使用点积作为相似度度量 $\text{o}$ 。则总对比损耗为:

其中，我们通过max-pooling $\boldsymbol{z}^{(i,c,n)}$ 沿着维度n反复计算分层损失，直到n = 1:

在这里插入图片描述
最终的PITS损失为重建损失与分层对比损失之和:

在这里插入图片描述实例规范化。为了缓解训练数据和测试数据之间的分布偏移问题，我们用零均值和单位标准差对每个TS进行归一化(Kim et al.， 2021)。具体来说，我们在修补之前对每个TS进行归一化，并将平均值和偏差添加回预测输出。

四、实验

4.1实验设置

任务和评估指标。我们在两个下游任务:时间序列预测(TSF)和分类(TSC)任务上证明了所提出的pit的有效性。对于评估，我们主要遵循标准的SSL框架，该框架在相同的数据集上预训练和微调模型，但我们也在一些实验中考虑域内和跨域迁移学习设置。作为评价指标，我们使用TSF的均方误差(MSE)和平均绝对误差(MAE)，以及TSC的准确率、精密度、召回率和F1分数。

4.2时间序列预测

数据集和基线方法。对于预测任务，我们实验了七个数据集，包括四个ETT数据集(ETTh1, ETTh2, ETTm1, ETTm2)，天气，交通和电力(Wu et al.， 2021)，预测视界H∈{96,192,336,720}。对于基线方法，我们考虑基于变压器的模型，包括PatchTST (Nie等人，2023)、SimMTM (Dong等人，2023)、FEDformer (Zhou等人，2022)和Autoformer (Wu等人，2021)，以及线性/MLP模型，包括DLinear (Zeng等人，2023)和TSMixer (Chen等人，2023)。我们还比较了没有自我监督预训练3的pit和PatchTST，这基本上只比较了PI和PD架构。我们遵循PatchTST, SimMTM和TSMixer的实验设置和基线结果。对于所有超参数调优，我们使用一个单独的验证数据集，遵循将所有数据集按时间顺序分成训练、验证和测试集的标准协议，ETT数据集的比例为6:2:2，其他数据集的比例为7:1:2 (Wu et al.， 2021)。

标准设定。表2显示了多元TSF任务的综合结果，表明我们提出的PITS在两种情况下都与基于SOTA变压器的PatchTST方法具有竞争力，而PITS比PatchTST更有效。SimMTM是一个并行工作，在SSL方面表现与我们相似，但在监督学习方面明显更差。表3比较了三种不同情况下的PITS和PatchTST:微调(FT)、线性探测(LP)和无自我监督预训练的监督学习(Sup)，其中我们给出了四个层面的平均MSE。如表3所示，平均而言，在所有场景下，PITS的性能都优于PatchTST。
在这里插入图片描述
表2:多变量TSF结果。我们比较了监督和自监督版本的PatchTST和我们的方法。最好的结果用粗体表示，第二好的结果用下划线表示。

在这里插入图片描述
迁移学习。在域内传输中，我们对源数据集和目标数据集使用相同频率的数据集进行实验，而在跨域传输中，我们对源数据集和目标数据集使用不同频率的数据集进行实验。表4显示了四个视界的平均MSE结果，这表明我们提出的PITS在大多数情况下优于SOTA方法。

4.3时间序列分类

数据集和基线方法。对于分类任务，我们使用了五个数据集，分别是睡眠睡眠(Kemp等人，2000)、癫痫(Andrzejak等人，2001)、FD-B (Lessmeier等人，2016)、手势(Liu等人，2009)和肌电图(Goldberger等人，2000)。对于基线方法，我们采用了TS-SD (Shi等人，2021)、TS2Vec (Yue等人，2022)、CoST (Woo等人，2022)、LaST (Wang等人，2022)、mix - up (wickstr约m等人，2022)、TS-TCC (Eldele等人，2021)、TF-C (Zhang等人，2022)、TST (Zerveas等人，2021)、TimeMAE (Cheng等人，2023)和SimMTM (Dong等人，2023)。

标准设定。表5表明，我们提出的PITS在sleeppeeg数据集的所有指标上都优于所有SOTA方法。这与之前的研究结果形成了对比，即CL在分类任务上优于MTM (Yue et al.， 2022):虽然之前的MTM方法(如TST和TimeMAE)与CL方法(如TS2Vec和TF-C4)相比表现相对较低，但所提出的PITS即使没有补充CL，也优于CL方法。

迁移学习。对于迁移学习，我们在域内和跨域迁移设置下进行了实验，使用sleeppeeg作为这两种设置的源数据集。对于域内迁移，我们使用与源数据集相同域的目标数据集作为EEG数据集的特征，而对于跨域迁移，我们使用来自不同域的目标数据集。表6展示了我们的PITS在所有场景中都优于SOTA方法。特别是，在具有挑战性的跨领域迁移学习设置中，性能增益是显著的，这意味着在领域转移的实际应用中，PITS将更加实用。

在这里插入图片描述

在这里插入图片描述
表7:PI策略的有效性。在所有架构中，使用PI任务进行预训练始终优于PD任务。结果报告为四个视界的平均值。

4.4消融研究

PI/PD任务/架构的影响。为了评估我们提出的PI预训练任务和PI编码器架构的效果，我们在表7中使用公共输入水平为512和补丁大小为12进行了烧蚀研究。回想一下，PD任务使用非掩码补丁来预测掩码补丁，而PI任务则对补丁进行自动编码，并且PD架构包括使用全连接层(MLP- mixer)或自关注模块(Transformer)的补丁之间的交互，而PI架构(Linear, MLP)则没有。如表7所示，无论选择何种架构，PI预训练的TSF性能都优于PD预训练。此外，与PD体系结构相比，PI体系结构表现出具有竞争力的性能，而PI体系结构更加轻量级和高效，如表13所示。其中，MLP在保持效率的同时表现出最好的性能，因此我们在所有实验中都使用MLP作为pit的架构。

隐藏维度和退出。PI任务可能会引起对平凡解的关注:当隐藏维数D大于输入维数P时，恒等映射完美地重构了输入。这可以通过引入dropout来解决，我们在线性投影头之前添加一个dropout层。图4显示了在通用输入水平为512、无dropout或dropout率为0.2的情况下，MLP中不同隐藏维度D下四个ETT数据集在四个水平上的平均MSE。注意，在本实验中，输入维数(patch size)为12，当D≥12时可以得到一个平凡的解。结果证实，使用dropout来学习高维表示是必要的，从而获得更好的性能。基于此结果，我们在整个实验中对D∈{32,64,128}进行了调优，性能与范围内的D值一致。在附录K中可以找到不同退出率的消融研究。
在这里插入图片描述
图4:D和dropout的MSE。

各种预训练任务的表现。除了1)重建被遮挡的patch ( $X_{m}$ )的PD任务和2)对未被遮挡的patch ( $X_{u}$ )进行自动编码的PI任务外，我们还使用了另外两个基本任务进行比较:3)从零填充的patch(0)预测 $X_{u}$ 和4)对0进行自动编码。表8显示了四个ETT数据集在四个视界上的平均MSE，公共输入视界为512，突出显示用PD任务预训练的模型比输入为0的两个基本任务表现得更差。这强调了PD任务的无效和提议的PI任务的有效性。
在这里插入图片描述下游任务使用哪种表示?在SSL中，编码器和特定于任务的投影头的边界通常不明确。为了确定提取下游任务表示的位置，我们使用MLP中中间层的表示进行实验:1)来自第一层的z1, 2)来自第二层的z2，以及3)来自附加在第二层之上的附加投影层的z * 2。表10显示了ETTh1的四个层的MSE，表明第二层z2的效果最好。

互补CL的位置。为了评估互补CL和PI重建的效果，我们对借口任务的选择及其在MLP编码器中的位置进行了消融研究:对比和/或重建损失在第一层或第二层计算，或两者都计算。表9显示了4个ETT数据集在4个层面上的平均MSE。我们观察到PI重建任务是必不可少的，当在第一层考虑CL时，它是有效的。

互补CL的分层设计。所提出的互补CL是分层结构的，以捕获时间序列中的粗粒度和细粒度信息。为了评估这种分层设计的效果，我们考虑了三种不同的选择:1)不使用CL, 2)使用非分层CL, 3)使用分层CL。表11给出了四个层面上四个ETT数据集的平均MSE，突出了分层设计的性能增益。

与PatchTST的比较。通过改变预训练任务和编码器结构，pit可以从PatchTST衍生出来。表12显示了每种修改对ETTh1数据集性能改进的贡献。请注意，我们对PatchTST应用50%的掩码比率，这不会影响性能(标记为*)。

五、分析

PI任务对分布偏移的鲁棒性优于PD任务。为了评估预训练任务对分布转移的鲁棒性，分布转移在现实世界的数据集中很常见(Han等人，2023)，我们生成了98个玩具示例，展示了不同程度的分布转移，如图5的左面板所示。位移的程度由斜率和振幅的变化来表征。图5的右面板显示了使用PD和PI任务训练的模型之间的性能差距，其中水平和垂直轴分别对应于训练阶段和测试阶段之间的斜率和振幅差异。结果表明，使用PI任务训练的模型对分布移位表现出更好的鲁棒性，因为所有区域的MSE差都是非负的，并且随着移位变得更严重，特别是当斜率翻转或幅度增加时，间隙增加。

MLP对补丁大小比Transformer更健壮。为了评估编码器架构对补丁大小的鲁棒性，我们比较了使用不同补丁大小的ETTh1的MLP和Transformer。图6展示了结果，表明MLP对于PI和PD任务都更健壮，从而在不同的补丁大小中始终具有更好的预测性能。在这里插入图片描述

MLP比Transformer更具可解释性。PI架构独立处理每个补丁，而PD架构共享所有补丁的信息，导致补丁之间的信息泄漏。这使得MLP比Transformer更具可解释性，因为为下游任务额外引入和学习的线性层的权重矩阵的可视化显示了每个补丁对预测的贡献。图7说明了两种架构的ETTm1的季节性以及在ETTm1上训练的下游权重矩阵。Transformer上面的线性层的权重矩阵基本是一致的，而MLP的权重矩阵揭示了季节性模式并强调了最近的信息，突出表明MLP比Transformer更好地捕捉了季节性。

效率分析。为了证明PI架构的效率，我们比较了PatchTST和PITS在ETTm2上的参数数量和训练/推理时间。如表13所示，PITS以更少的参数和更快的训练和推理优于PatchTST，其中我们预训练了100个epoch并对整个测试数据集执行推理。自监督和监督设置的效率比较见附录J。

t-SNE可视化。为了评估从PI和PD任务中获得的表示的质量，我们利用t-SNE (Van der Maaten & Hinton, 2008)进行可视化。对于这个分析，我们创建了带有10类自己的趋势和季节性模式的玩具示例，如图8所示。结果表明，从PI任务中学习到的表示可以更好地区分类别。

在这里插入图片描述

六、结论

本文回顾了时间序列分析中的掩模建模，重点关注两个关键方面:1)预训练任务和2)模型架构。与之前主要强调TS补丁之间的依赖关系的工作相反，我们在两个方面提倡一种与补丁无关的方法:1)通过引入补丁重建任务和2)采用补丁智能MLP。我们的研究结果表明，与PD方法相比，所提出的PI方法对分布位移和补丁大小具有更强的鲁棒性，在预测和分类任务中都具有更高的效率。我们希望我们的工作能够通过简单的预训练任务和各种领域的模型架构来揭示自监督学习的有效性，并为未来的时间序列分析工作提供一个强有力的基线。

所提出的自监督学习算法，在预训练任务和模型架构方面采用补丁独立策略，在时间序列的表示学习领域具有重大影响的潜力，特别是在注释稀缺或不可用的情况下。该算法可以有效地应用于各种现实环境中，包括预测和分类任务，即使在分布变化严重的情况下也是如此。此外，我们预见到，利用轻量级架构的概念将成为未来跨领域努力的灵感来源，在这些领域中，大量的计算资源是不容易获得的。然而，与任何算法的情况一样，伦理方面的考虑是最重要的。一个值得注意的伦理问题是，该算法可能会使预训练数据集中固有的偏见永久化。在实际应用中部署算法之前，有必要评估和减轻预训练数据集中的潜在偏差。为了确保对算法的负责任的使用，我们致力于提供源代码，这将提高透明度和可重复性，使研究人员能够审查和纠正潜在的偏见，防止任何误用。