Transformers in Time Series: A Survey

最新推荐文章于 2025-03-27 16:10:24 发布

小明指示说

最新推荐文章于 2025-03-27 16:10:24 发布

阅读量1.1k

点赞数 19

分类专栏：论文阅读文章标签： Transformer综述时间序列深度学习时间序列应用分类

本文链接：https://blog.csdn.net/weixin_45385429/article/details/136801036

版权

论文阅读专栏收录该内容

1 篇文章

订阅专栏

本篇文章是2023年在ARXIV上的一篇关于Transformer在时间序列中的应用调查，作者是阿里巴巴集团达摩研究院。
Transformer在自然语言处理和计算机视觉的许多任务中都取得了优异的表现，这也引起了时间序列界的极大兴趣。在transformer的众多优点中，捕获远程依赖关系和交互的能力对时间序列建模特别有吸引力，从而在各种时间序列应用程序中取得了令人兴奋的进展。在本文中，我们通过强调它们的优点和局限性，系统地回顾了用于时间序列建模的Transformer方案。

特别地，我们从两个角度考察了时间序列Transformer的发展。从网络结构的角度，我们总结了Transformer为适应时间序列分析的挑战所做的调整和修改。从应用的角度来看，我们基于常见的任务对时间序列Transformer进行分类，包括预测、异常检测和分类。在经验上，我们进行了稳健分析、模型大小分析和季节趋势分解分析，以研究Transformer在时间序列中的表现。最后，对未来的研究方向进行了讨论和建议，以期为今后的研究提供有益的指导。在GitHub存储库中可以找到不断更新的相应资源（https://github.com/qingsongedu/time-series-transformers-review）。
1、介绍
transformer已经显示出对序列数据中的远程依赖关系和交互的强大建模能力，因此对时间序列建模很有吸引力。已经提出了Transformer的许多变体来解决时间序列建模中的特殊挑战，并已成功应用于各种时间序列任务，例如预测、分类、异常检测等。具体来说，季节性或周期性是时间序列的重要特征。如何有效地模拟长期和短期时间依赖性并同时捕获季节性仍然是一个挑战。我们注意到存在一些与时间序列的深度学习相关的调查，包括预测，分类，异常检测等，但没有对Transformer进行时间序列的全面调查。由于时间序列的Transformer是深度学习领域的新兴课题，系统、全面地研究时间序列Transformer将对时间序列学界大有裨益。
在本文中，我们旨在通过总结时间序列Transformer的主要发展来填补这一空白。对于网络修改，我们讨论了transformer的低级(即模块)和高级(即架构)改进，目的是优化时间序列建模的性能。对于应用，我们分析和总结Transformer流行的时间序列任务，包括预测，异常检测和分类。对于每个时间序列Transformer，我们分析其见解、优势和局限性。为了提供关于如何有效地使用transformer进行时间序列建模的实用指南，我们进行了广泛的实证研究，检查了时间序列建模的多个方面，包括鲁棒性分析、模型大小分析和季节趋势分解分析。我们通过讨论时间序列Transformer可能的未来方向来总结这项工作，包括时间序列Transformer的归纳偏差，时间序列Transformer和GNN，时间序列的预训练Transformer，具有架构电平变体的Transofrmer，以及用于时间序列的具有NAS的Transformer。据我们所知，这是第一个全面和系统地回顾Transofrmer建模时间序列数据的关键发展的工作。我们希望这一调查将点燃对时间序列Transofrmer的进一步研究兴趣。
2、时间序列中Transofrmer的分类
为了总结现有的时间序列Transofrmer，我们从网络修改和应用领域的角度提出了一种分类方法，如图1所示。在分类的基础上，对现有的时间序列Transofrmer进行了系统的综述。从网络修改的角度来看，我们总结了Transformer在模块级别和体系结构级别上所做的更改，以适应时间序列建模中的特殊挑战。从应用的角度来看，我们根据时间序列Transofrmer的应用任务对其进行分类，包括预测、异常检测和分类。在接下来的两个部分中，我们将从这两个角度深入研究现有的时间序列Transofrmer。
在这里插入图片描述
3、时间序列的网络修正
3.1 位置编码模块
由于时间序列的顺序很重要，因此将输入时间序列的位置编码到Transformer中是非常重要的。一种常见的设计是首先将位置信息编码为向量，然后将它们与输入时间序列一起作为附加输入注入模型。在用Transofrmer建模时间序列时，如何获得这些向量可以分为三大类。
**Vanilla Positional Encoding.**一些作品简单地介绍了论文中使用的普通位置编码，然后将其添加到输入时间序列嵌入中并馈送到Transformer。虽然这种方法可以从时间序列中提取出一些位置信息，但不能充分利用时间序列数据的重要特征。
**Learnable Positional Encoding.**由于普通的位置编码是手工制作的，表现力和适应性较差，一些研究发现，从时间序列数据中学习适当的位置嵌入可以更有效。与固定的位置编码相比，学习嵌入更灵活，可以适应特定的任务。有相关论文在Transformer中引入了一个嵌入层，该嵌入层与其他模型参数一起学习每个位置指标的嵌入向量。还有就是使用LSTM网络对位置嵌入进行编码，可以更好地利用时间序列中的顺序排序信息。
**Timestamp Encoding.**在真实场景中建模时间序列时，时间戳信息通常是可访问的，包括日历时间戳(例如，秒、分、小时、周、月和年)和特殊时间戳(例如，假日和事件)。这些时间戳在实际应用程序中提供了相当多的信息，但在普通的transformer中几乎没有得到利用。为了缓解这个问题，Informer论文中提出使用可学习的嵌入层将时间戳编码为额外的位置编码。在Autoformer模型和FEDformer模型中使用了类似的时间戳编码方案。
3.2注意力模块
Transformer的核心是自关注模块。它可以看作是一个完全连接的层，其权重是根据输入模式的两两相似度动态生成的。因此，它与完全连接的层共享相同的最大路径长度，但参数数量要少得多，这使得它适合建模长期依赖关系。
正如我们在前一节中所展示的那样，vanilla Transformer中的自关注模块的时间和内存复杂度为O(N2) (N是输入时间序列长度)，这在处理长序列时成为计算瓶颈。提出了许多有效的Transformer来降低二次复杂度，可分为两大类:(1)明确地在注意机制中引入稀疏性偏差，如LogTrans 和Pyraformer;(2)探索自关注矩阵的低秩性，加快计算速度，如Informer和FEDformer。表1显示了应用于时间序列建模的流行transformer的时间和内存复杂性。
在这里插入图片描述
3.3 基于架构的注意力创新
为了适应Transformer中的单个模块建模时间序列，许多作品试图在架构层面对transformer进行改造。最近的工作将层次结构引入Transformer，以考虑时间序列的多分辨率方面。Informer 在注意块之间插入步幅为2的最大池化层，将样本序列降至其半切片。Pyraformer设计了一种基于C-ary树的注意力机制，其中最细尺度的节点对应于原始时间序列，而较粗尺度的节点代表较低分辨率的序列。Pyraformer开发了尺度内和尺度间的关注，以便更好地捕获不同分辨率下的时间依赖性。除了能够在不同的多分辨率下集成信息外，层次结构还享有高效计算的好处，特别是对于长时间序列。
4、时间序列Transformer的应用
在本节中，我们将回顾Transformer在重要时间序列任务中的应用，包括预测、异常检测和分类。
4.1 预测中的Transformer
在这里，我们研究了三种常见的预测任务，即时间序列预测、时空预测和事件预测。

时间序列预测
如下图所示
时空预测
在时空预测中，时间序列变换同时考虑了时间依赖性和时空依赖性，以实现准确的预测。

Traffic Transformer设计了一种编码器-解码器结构，使用自关注模块捕获时空依赖关系，使用图神经网络模块捕获空间依赖关系。时空转换器(Spatial-temporal Transformer)在交通流预测上更进一步。除了引入时间Transformer块来捕获时间依赖关系外，还设计了空间Transformer块，并结合图卷积网络来更好地捕获空间依赖关系。

时空图转换器设计了一种基于注意的图卷积机制，该机制能够学习复杂的时空注意模式，以改善行人轨迹预测。Earthformer 提出了一种用于高效时空建模的长方体注意方法，该方法将数据分解成长方体，并并行应用长方体级别的自注意。结果表明，Earthformer在天气和气候预报方面取得了优异的成绩。最近，AirFormer设计了一个自注意模块和一个因果时间自注意模块，分别有效地捕获空间相关性和时间依赖性。此外，它还增强了具有潜在变量的Transformer，以捕获数据的不确定性，提高空气质量预测。

事件预测
具有不规则和异步时间戳的事件序列数据在许多实际应用程序中自然会被观察到，这与具有等采样间隔的常规时间序列数据形成对比。事件预测或预测的目的是根据过去事件的历史预测未来事件的时间和标志，通常通过时间点过程(TPP)建模。

近年来，为了提高事件预测的性能，一些神经跨链模型加入了Transformer。自关注Hawkes过程(self - attention Hawkes process, SAHP)和Transformer Hawkes过程(THP)采用Transformer编码器架构来总结历史事件的影响，并计算强度函数进行事件预测。它们通过将时间间隔转换为正弦函数来修改位置编码，以便可以利用事件之间的间隔。后来，提出了一种更灵活的时间关注神经数据表(ANDTT) ，通过将所有可能的事件和时间也嵌入到关注中来扩展SAHP/THP方案。实验表明，该方法比现有方法能更好地捕获复杂的事件依赖关系。

4.2 在异常检测中的 Transformer
基于Transformer的架构还有利于时间序列异常检测任务，能够对时间依赖性进行建模，从而带来高检测质量。此外，在TranAD、MT-RVAE、TransAnomaly等多项研究中，研究人员提出Transformer与VAEs 、gan等神经生成模型相结合，以提高异常检测的性能。我们将在接下来的部分详细阐述这些模型。

TranAD 提出了一种对抗性训练程序来放大重建误差，因为简单的基于Transformer的网络往往会错过异常的小偏差。采用两个Transformer编码器和两个Transformer解码器设计GAN式对抗训练程序以获得稳定性。烧蚀研究表明，如果替换基于Transformer的编码器-解码器，F1分数下降近11%，表明Transformer架构对时间序列异常检测的影响。

MT-RVAE和TransAnomaly 将VAE与Transformer相结合，但目的不同。TransAnomaly将VAE与Transformer结合起来，允许更多的并行化，并将培训成本降低近80%。在MT-RVAE中，设计了一个多尺度Transformer来提取和集成不同尺度的时间序列信息。它克服了传统Transformer仅提取局部信息进行序列分析的缺点。

GTA将Transformer与基于图的学习架构相结合，用于多变量时间序列异常检测。请注意，MT-RVAE也适用于多变量时间序列，但在维数较少或序列之间关系不够密切的情况下，图神经网络模型不能很好地工作。为了应对这一挑战，MT-RVAE对位置编码模块进行了修改，并引入了特征学习模块。相反，GTA包含一个图卷积结构来模拟影响传播过程。与MT-RVAE类似，GTA也考虑“全局”信息，但通过用多分支注意机制取代香草多头注意，即全局学习注意、香草多头注意和邻域卷积的组合。

AnomalyTrans结合了Transformer和高斯先验关联，使异常更容易区分。与TranAD有着相似的动机，AnomalyTrans以不同的方式实现了目标。与正态相比，异常很难与整个序列建立强关联，而与相邻时间点建立强关联则更容易。在AnomalyTrans中，先验关联和序列关联同时建模。除重构损失外，采用极大极小策略对异常模型进行优化，约束先验关联和序列关联，使关联差异更加明显。

4.3 Transformer用于分类
由于Transformer在捕获长期依赖关系方面的突出能力，在各种时间序列分类任务中被证明是有效的。GTN 使用双塔Transformer，每塔分别工作于时间阶跃注意力和通道明智注意力。

为了合并两座塔的特征，使用了可学习的加权串联。提出的Transformer扩展在13个多变量时间序列分类上实现了最先进的结果。最近，TARNet设计了transformer来学习任务感知的数据重建，从而提高了分类性能，该方法利用注意力分数对重要的时间标记进行屏蔽和重建，带来了卓越的性能。

在分类任务中也研究了预训练的Transformer。[Yuan and Lin, 2020]论文中研究了用于原始光学卫星图像时间序列分类的Transformer。由于标签数据有限，作者使用了自监督预训练模式。[Zerveas，2021]该论文中引入了一种无监督预训练框架，该模型使用比例屏蔽数据进行预训练。然后在下游任务(如分类)中对预训练的模型进行微调。

[Yang等，2021]这篇论文中提出将大规模预训练语音处理模型用于下游时间序列分类问题，并在30个流行的时间序列分类数据集上生成19个竞争结果。
5、实验评价与讨论
我们对典型的具有挑战性的基准数据集ETTm2进行了初步的实证研究，以分析Transformer如何在时间序列数据上工作。由于经典的统计ARIMA/ETS 模型和基本的RNN/CNN模型在该数据集中表现不如Transformers，我们在实验中重点研究了不同配置的流行时间序列Transformer。
鲁棒性分析
我们上面描述的许多作品都精心设计了注意力模块，以降低二次计算和内存复杂度，尽管他们在报告的实验中实际上使用了短的固定大小的输入来获得最佳结果。这让我们质疑这种高效设计的实际用途。我们进行了一个延长输入序列长度的鲁棒实验，以验证它们在处理长期输入序列时的预测能力和鲁棒性，见表2。
在这里插入图片描述

如表2所示，当我们将延长输入长度的预测结果进行比较时，各种基于transformer的模型都会迅速恶化。这种现象使得许多精心设计的Transformer在长期预测任务中不切实际，因为它们不能有效地利用长输入信息。为了充分利用长序列输入以获得更好的性能，需要进行更多的工作和设计研究。
模型尺寸分析
在被引入时间序列预测领域之前，Transformer在NLP和CV社区中表现出了优势性能。Transformer在这些领域的主要优势之一是能够通过增加模型大小来提高预测能力。通常，模型容量由Transformer的层数控制，通常设置在12到128之间。但从表3的实验中可以看出，当我们比较不同层数的Transformer模型的预测结果时，3层到6层的Transformer往往效果更好。它提出了一个问题，即如何设计一个具有更深层的适当的Transformer体系结构，以增加模型的容量并获得更好的预测性能。
季节趋势分解分析
在最近的研究中，研究人员开始意识到季节趋势分解是Transformer在时间序列预测中性能的关键部分。实验如表4所示，我们采用[Wu et al .， 2021]中提出的简单移动平均季节趋势分解架构来测试各种关注模块。可以看出，简单的季节趋势分解模型可以显著提高模型的性能50% ~ 80%。这是一个独特的块，通过分解提高性能似乎是Transformer应用时间序列预测中一致的现象，值得进一步研究更先进和精心设计的时间序列分解方案。
在这里插入图片描述
6、未来的研究机会
6.1 时间序列Transformer的归纳偏置
Vanilla Transformer不对数据模式和特征做任何假设。尽管它是一个用于远程依赖关系建模的通用网络，但它也有代价，即需要大量数据来训练Transformer以改进泛化并避免数据过拟合。时间序列数据的关键特征之一是其季节性/周期性和趋势模式。最近的一些研究表明，在时间序列Transformer中加入序列周期性或频率处理可以显著提高性能。此外，有趣的是，一些研究采用了看似相反的归纳偏倚，但都取得了很好的数值改进.通过利用信道无关的注意模块消除了跨通道依赖，而一个有趣的工作通过利用两阶段注意机制的跨维度依赖来提高实验性能。显然，在这样的跨通道学习范式中，我们有噪声和信号，但仍然需要一种巧妙的方法来利用这种归纳偏置来抑制噪声并提取信号。因此，未来的一个方向是基于对时间序列数据和特定任务特征的理解，考虑更有效的方法来诱导归纳偏差到transformer中。
6.2 时间序列的Transformer和GNN
多变量和时空时间序列在应用程序中变得越来越普遍，需要更多的技术来处理高维，特别是捕获维度之间潜在关系的能力。引入图神经网络(gnn)是一种自然的方法来模拟空间依赖或维度之间的关系。最近，一些研究表明，GNN和Transformer/注意力的结合不仅可以带来显著的性能改进，如交通预测和多模态预测，还可以更好地理解时空动态和潜在因果关系。将Transformer和gnn相结合，在时间序列上进行有效的时空建模是未来的一个重要方向。
6.3 时间序列的预训练Transformer
大规模预训练的Transformer模型显著提高了NLP中各种任务的性能和CV。然而，针对时间序列的预训练Transformer的研究有限，现有的研究主要集中在时间序列分类方面。因此，如何为时间序列中的不同任务开发适当的预训练Transformer模型仍有待于未来的研究。
6.4 具有架构级别变体的Transformer
大多数已开发的用于时间序列的Transformer模型都维护了vanilla Transformer的体系结构，主要在注意力模块中进行了修改。我们可以借鉴NLP和CV中的Transformer变体的想法，它们也具有架构级模型设计以适应不同的目的，例如轻量级，跨块连通性，自适应计算时间。因此，未来的一个方向是考虑针对时间序列数据和任务进行优化的transformer的更多架构级设计。
6.5 Transformer与NAS时间序列
超参数，如嵌入维数和头/层数，可以在很大程度上影响Transformer的性能。手动配置这些超参数非常耗时，并且通常会导致性能次优。AutoML技术，如神经架构搜索(NAS) 一直是发现有效深度神经架构的流行技术，在最近的研究中可以找到使用NLP和CV中的NAS自动化Transformer设计。对于高维长工业规模的时间序列数据，自动发现存储效率高和计算效率高的Transformer架构具有重要的现实意义，是未来时间序列Transformer的一个重要方向。