论文阅读【时间序列预测2】TACTiS: Transformer-Attentional Copulas for Time Series

[代码]https://github.com/ServiceNow/tactis
[发表]ICML 2022
[领域]时间序列预测

TACTiS: Transformer-Attentional Copulas for Time Series

这是一篇研究论文,提出了一种估计高维多变量时间序列联合预测分布的通用方法。所提出的方法使用了一个基于注意力的解码器,可以学习模仿非参数协同学的特性,这在经济和金融预测中被广泛使用。本文介绍了一个转化器架构,它可以处理现实世界时间序列的所有风格化事实,包括不规则采样的时间序列、缺失值和不平等采样频率。所提出的转化器-注意力共轭模型,称为TACTiS,学习多变量时间序列中任意缺失值的条件预测分布,并支持输入和输出的变化,如预测范围的变化,以及采样频率的错位和差异。本文介绍了在多个真实世界的数据集上进行的实验,所提出的模型产生了最先进的预测结果。

时间变化数量的估计是医疗保健和金融等领域决策的基本组成部分。但是,此类估计值的实际实用性受到它们量化预测不确定性的准确程度的限制。在这项工作中,我们解决了估计高维多元时间序列的联合预测分布的问题。我们提出了一种基于变压器体系结构的多功能方法,该方法使用基于注意力的解码器估算关节分布,该解码器可被学会模仿非参数Copulas的性质。最终的模型具有多种理想的属性:它可以扩展到数百个时间序列,支持预测和插值,可以处理不规则和不均匀的采样数据,并且可以在训练过程中无缝地适应丢失的数据。我们从经验上证明了这些属性,并表明我们的模型在多个现实世界数据集上产生了最新的预测。

名词解释

what is Copulas?

  • 共模是概率论和统计学中用来描述随机变量之间依赖关系的数学对象。协同学是一个连接多变量分布函数和单变量边际分布函数的函数。更简单地说,协同学描述了随机变量之间的依赖结构,与它们各自的边际分布分开。通过这样做,它允许我们对变量之间的依赖性进行建模和分析,而不依赖于它们的个别特征,这在金融、保险和风险管理等许多应用中是非常有用的。
  • TACTiS论文中的copula层是一个神经网络层,对Transformer编码器提取的特征的联合分布进行建模。具体来说,copula层使用copula函数,这是一个描述随机变量之间的依赖结构的数学函数,用来模拟联合分布。共轭函数将每个特征的边际分布作为输入,并将它们映射到一个联合分布。在TACTiS的论文中,使用了高斯协整,它假定每个边际分布是高斯分布。耦合层的参数是在训练期间使用最大似然估计学习的。在推理过程中,共轭层被用来生成联合分布的样本,然后将其解码为输出时间序列。

Copulas如何应用在时间序列上

  • Copulas 可以应用在时间序列上,用于建模随机变量之间的相关性。在时间序列分析中,copula可以将边际分布和联合分布分开建模,从而更准确地捕捉时间序列中变量之间的依赖关系。
  • 具体来说,copula方法通过将随机变量的联合分布拆分成边际分布和 copula 分布来建模。边际分布描述每个变量的分布特征,而 copula 分布则用于描述变量之间的依赖关系。在时间序列建模中,可以使用 copula 分布来描述时间序列变量之间的依赖关系,如同步性和滞后性。

例如,可以使用 Gaussian copula 来建模时间序列中两个变量之间的依赖关系。Gaussian copula 是一个基于正态分布的 copula 分布,它可以将非正态分布的随机变量转化为服从正态分布的随机变量,并建模它们之间的依赖关系。

copula如何对边际分布建模

  • Copula可以通过将多个边际分布函数映射到 [ 0 , 1 ] [0,1] [0,1]区间上,然后再将它们组合成一个联合分布函数来建模。具体地,给定多个连续型随机变量 X 1 , X 2 , . . . , X d X_1,X_2,...,X_d X1,X2,...,Xd的边际分布函数 F 1 , F 2 , . . . , F d F_1,F_2,...,F_d F1,F2,...,Fd,我们可以定义它们的联合分布函数为:

    • C ( F 1 ( x 1 ) , F 2 ( x 2 ) , . . . , F d ( x d ) ) C(F_1(x_1), F_2(x_2), ..., F_d(x_d)) C(F1(x1),F2(x2),...,Fd(xd))
  • 其中, C C C表示Copula函数,它可以是任何满足一些条件的函数,比如高斯Copula或t-Copula等。这里, F i ( x i ) F_i(x_i) Fi(xi)表示第 i i i个随机变量的边际分布函数在点 x i x_i xi处的取值。通过这种方式,我们可以将多个随机变量的联合分布拆分成两个部分:一部分是各个边际分布函数的乘积,另一部分是用Copula函数来表示它们之间的依赖关系。这样,我们就可以通过调整Copula函数来捕捉随机变量之间的不同依赖性,从而更好地建模时间序列数据的联合分布

Copula如何对联合分布进行建模

  • Copula函数可以用于建模多元随机变量的联合分布,通过将边际分布与一个copula函数结合起来,得到联合分布。具体来说,假设有 d d d 个随机变量 X 1 , X 2 , . . . , X d X_1, X_2, ..., X_d X1,X2,...,Xd,每个随机变量的边际分布为 F X i ( x i ) F_{X_i}(x_i) FXi(xi),其中 i = 1 , 2 , . . . , d i=1,2,...,d i=1,2,...,d,那么它们的联合分布可以表示为:

F ( x 1 , x 2 , . . . , x d ) = C ( F 1 ( x 1 ) , F 2 ( x 2 ) , . . . , F d ( x d ) ) F(x_1,x_2,...,x_d) = C(F_1(x_1), F_2(x_2), ..., F_d(x_d)) F(x1,x2,...,xd)=C(F1(x1),F2(x2),...,Fd(xd))

  • 其中 C C C 是一个 d d d 维 copula 函数,它的定义域是 [ 0 , 1 ] d [0,1]^d [0,1]d,且满足以下条件:

    • C C C [ 0 , 1 ] d [0,1]^d [0,1]d 上是一个连续、单调递增、严格凸函数;

    • C ( u 1 , u 2 , . . . , u d ) = 0 C(u_1,u_2,...,u_d)=0 C(u1,u2,...,ud)=0 当且仅当至少有一个 u i = 0 u_i=0 ui=0

    • C ( u 1 , u 2 , . . . , u d ) = 1 C(u_1,u_2,...,u_d)=1 C(u1,u2,...,ud)=1 当且仅当所有 u i = 1 u_i=1 ui=1

  • 其中 u i = F X i ( x i ) u_i=F_{X_i}(x_i) ui=FXi(xi) 是边际分布函数的值。通过这种方式,copula函数将边际分布与随机变量的相关性分离开来,只考虑它们的相互依赖关系,从而提高了建模的灵活性。

论文总结

创新点

TACTiS(Transformer-Attentional Copulas for Time Series)论文的创新点主要包括以下几个方面:

  1. 提出了一种新的时间序列生成模型,该模型结合了Transformer编码器、注意力机制和copula分布,能够更准确地捕捉序列中的关联关系。

    • Transformer编码器:相比于传统的循环神经网络(RNN)等序列模型,Transformer模型可以更好地处理长序列,避免了RNN模型存在的梯度消失和梯度爆炸问题,并且可以并行处理输入序列,提高模型的训练效率。

      • Transformer模型中采用的位置编码机制可以帮助模型区分不同位置的词汇,避免了对于位置信息的丢失,减轻了梯度消失的问题。同时,Transformer使用了残差连接和Layer Normalization技术,有利于梯度的传播,避免了梯度爆炸的问题。此外,Transformer使用了多头自注意力机制,能够在不同的特征空间中学习并整合信息,进一步提高了模型的性能和鲁棒性。

    • 注意力机制:注意力机制可以帮助模型更加准确地关注序列中重要的部分,降低噪声干扰的影响。在时间序列建模中,注意力机制可以帮助模型对于不同时间步之间的相关性进行建模。

      • 注意力机制可以通过对不同时间步之间的信息进行加权,来更好地捕捉它们之间的相关性。具体来说,对于某个时间步,注意力机制可以计算出它与其他时间步之间的相似度,然后将其他时间步的信息进行加权求和,从而得到一个更全面的表示。这种方法比传统的使用固定权重的方法更具有灵活性和表达能力,能够更好地捕捉时间序列中不同时间步之间的动态关系。

    • Copula分布:Copula是一种可以独立建模边际分布和联合分布的概率分布函数,可以很好地捕捉序列中的相关关系。在时间序列建模中,copula可以对序列中的相关性进行建模,从而更好地预测序列的未来趋势和波动。

      • Copula可以将联合分布分解为边际分布和依赖结构两个部分,其中依赖结构可以通过一个参数化的函数来描述,称为Copula函数。Copula函数可以将每个随机变量的边际分布和它们的相关性分离开来建模,从而更好地捕捉序列中的相关关系。通过Copula建模,可以使用不同的边际分布和Copula函数来拟合不同的序列数据,从而更好地适应不同的数据类型和应用场景。在TACTiS中,使用基于注意力机制的copula层对输入时间序列进行建模,以提取它们之间的相关关系。这种方法能够在处理不同类型的时间序列数据时表现出很好的鲁棒性。

  2. 引入了注意力机制,可以动态地对序列中不同部分进行加权,从而更好地提取序列中的特征。

  3. 提出了一种新的copula分布,可以对序列中的不同时间步之间的相关性进行建模,并且可以灵活地调整分布的形状,以适应不同的数据特征。

  4. 在多个公共数据集上进行了实验验证,证明了TACTiS模型的有效性和优越性,具有更好的生成性能和时间序列预测能力。

贡献

  • 一个名为TACTiS的新型架构,用于多变量时间序列预测,利用共轭函数来捕捉变量之间的复杂依赖关系。
  • 使用基于变换器的自我注意机制来模拟不同时间步骤的时间依赖关系。
  • 对共轭函数引入关注机制,使其能够学习动态的依赖结构。
  • 实验结果证明了TACTiS在几个真实世界数据集上的有效性,表明它在准确性和可解释性方面优于最先进的方法。

模型

本文提出的TACTiS模型结合了两种模型的优势: Transformer和基于copula的模型。Transformer模型是一种流行的深度学习模型,用于序列建模,在各种自然语言处理任务中取得了巨大的成功。基于copula的模型是概率模型,可以捕捉变量之间复杂的依赖结构,使其适合于对多变量时间序列进行建模。

TACTiS模型主要由三层组成:Transformer编码器、注意力机制和Copula层解码器。其中,Transformer编码器和注意力机制共同构成了特征提取部分,Copula层解码器则负责生成输出序列。因此,TACTiS模型总共由三层组成

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-8bTpWsOI-1681980824193)(/Users/duanyuqing/Library/Application Support/typora-user-images/image-20230420153934751.png)]

模型概述。(左)TACTiS编码器与标准变压器的编码器非常相似。关键的区别是,观察到的和丢失的标记都是同时编码的。

(右图)解码器,基于注意力协同学,学习输出密度,给定观察到的和丢失的标记的表示。

TACTiS编码器与标准Transformer编码器的区别不仅仅在于观察到的和丢失的标记同时编码。TACTiS编码器的输入包括当前时间步的观察到的值、前一个时间步的隐藏状态、前一个时间步的丢失标记的概率分布,以及前一个时间步的联合概率分布。同时,TACTiS编码器的输出也包括当前时间步的隐藏状态和当前时间步的联合概率分布。相比之下,标准Transformer编码器的输入只包括当前时间步的观察到的值和前一个时间步的隐藏状态,输出只包括当前时间步的隐藏状态。因此,TACTiS编码器可以更好地捕捉序列中的相关性和缺失信息。

TACTiS由三个主要部分组成:

  • (1) 一个Transformer编码器,从输入时间序列中提取特征;使用Transformer编码器可以获得更好的上下文信息,并捕捉到时间序列中的长期依赖关系。

    ,一个 Transformer 编码器通过多头自注意力机制 (multi-head self-attention) 从输入时间序列中提取特征。具体来说,输入时间序列首先被嵌入到一个向量空间中,然后送入一个多层的 Transformer 编码器。在每个编码器层中,多头自注意力机制被用来对输入进行加权平均,得到一个与序列中每个位置有关的表示。通过堆叠多个编码器层,模型能够学习到更抽象和高级别的特征表示,从而更好地捕捉序列中的时间依赖性和复杂关系。

  • (2) 一个基于注意力的copula层,对提取的特征的联合概率分布进行建模;这一步利用注意力机制对Transformer编码器提取的特征进行交互和聚合,同时使用copula分布建模特征之间的依赖关系,从而减少对特征独立性的假设。

    1. 对于提取的时间序列特征,通过一个多头自注意力机制,产生一个注意力权重矩阵,用于区分每个时间步的相对重要性。
    2. 将注意力权重矩阵与特征矩阵相乘,得到每个时间步的加权平均特征向量。
    3. 使用这些加权平均特征向量,计算一个样本的多元高斯分布参数,其中包括均值向量和协方差矩阵。
    4. 将这些参数输入到 copula 层,该层通过一种特殊的函数来建模特征之间的依赖关系。具体地,该函数可以是高斯 copula 或 t-copula,这取决于所选择的 copula 类型。

    通过这种方式,TACTiS 模型能够有效地建模时间序列中的复杂依赖关系,并生成更准确的概率分布。

  • (3) 一个基于copula的解码器,根据建模的联合分布生成输出时间序列。利用解码器可以通过联合分布生成具有多维特征依赖性的输出序列。

    基于注意力的 Copula 层是用来建模特征之间的联合概率分布,而解码器则利用该联合分布生成输出时间序列。

    具体来说,解码器将先前预测的时间步的输出作为输入,并结合注意力机制对编码器的特征进行加权,得到一个加权特征表示。然后,将该加权特征表示与前一时间步的输出和时间步数作为输入,通过基于 Copula 的方法生成下一个时间步的输出。

    具体来说,解码器将注意力加权后的特征表示与前一个时间步的输出连接起来,形成一个联合变量。然后,通过 Copula 函数将其变换到一个新的空间中,使得各个维度的变量之间相互独立。最后,根据该联合分布采样生成下一个时间步的输出。

论文通过对多个时间序列数据集的实验验证了 TACTiS 方法的有效性。该方法能够比其他流行的时间序列生成方法生成具有更高质量的时间序列数据,同时保留了原始时间序列的多变量相关性。

TACTiS应用

TACTiS(Transformer-Attentional Copulas for Time Series)是一种用于时间序列生成的模型,它可以生成高质量的时间序列数据。它的应用可以包括预测股票价格、天气预报、交通流量等方面。此外,TACTiS也可以用于一些其他的时间序列数据的生成任务,如音乐生成、语音合成等方面。

TACTiS的输入输出

  • 输入是时间序列数据
    • 输入是长度为 T T T 的时间序列 x 1 , x 2 , . . . , x T {x_1, x_2, ..., x_T} x1,x2,...,xT
  • 输出是预测的时间序列数据
    • 输出是长度为 H H H 的预测时间序列 x ^ ∗ T + 1 , x ^ ∗ T + 2 , . . . , x ^ T + H {\hat{x}*{T+1}, \hat{x}*{T+2}, ..., \hat{x}_{T+H}} x^T+1,x^T+2,...,x^T+H

TACTiS的局限性

尽管TACTiS在各种时间序列任务上展示了令人鼓舞的结果,但它也有一些局限性:

  • 对长序列的适用性有限: 由于自我注意机制的限制,TACTiS在为很长的时间序列建模时可能面临挑战。

    这是由于在进行自注意力机制的过程中,由于序列长度的增加,计算复杂度会呈现二次级别的增长,这会导致训练和推断时间变慢,并且可能会导致内存限制问题。此外,对于长时间序列,TACTiS可能无法捕捉到其复杂的动态特征,因为它只考虑了最近的时间步长,而忽略了更远的时间步长的影响。这也是时间序列建模的一个常见挑战。因此,需要进一步改进模型的架构和训练策略,以提高其在长时间序列上的表现。

  • 没有对季节性的明确建模: TACTiS没有对时间序列中的季节性进行明确建模,这可能会限制其在某些季节性发挥重要作用的任务中的有效性。

    TACTiS模型没有对季节性进行明确建模的原因是因为季节性通常是指时间序列中的周期性变化,而TACTiS的目标是对序列中的联合分布进行建模,而不是对序列中的趋势或周期性变化进行建模。因此,虽然TACTiS可以捕捉序列中的相互依赖关系,但它不会直接处理周期性变化或其他趋势性特征。

  • 有限的可解释性: 与大多数深度学习模型一样,TACTiS在解释数据中的基本模式和关系方面可能缺乏可解释性。

    TACTiS模型的可解释性相对较低,这主要是由于它使用了较为复杂的结构,如Transformer编码器和注意力机制,以及copula分布等。这些结构虽然在提高模型性能方面非常有效,但同时也使得模型的可解释性较低,特别是对于非专业人士而言。另外,模型的可解释性还受限于数据的质量和数量,如果数据质量较差或数量较少,则模型的可解释性也会受到影响。

工业应用

  • TACTiS模型可以在工业领域中用于各种时间序列预测任务,例如生产线运行状况预测、能源需求预测、销售量预测等。这些应用需要对过去的时间序列数据进行建模,以预测未来的趋势和变化。 TACTiS模型提供了一种新的方法,可以从输入的时间序列数据中提取特征,建模它们之间的关联,并生成预测输出。这样,它可以帮助工业领域中的决策者更好地了解他们的数据,预测未来的趋势,并制定相应的战略。

  • TACTiS模型可以用于时间序列预测和异常检测等工业应用。例如,在制造业中,TACTiS模型可以用于预测设备故障并进行预防性维护,从而提高生产效率和降低维护成本。在金融领域,TACTiS模型可以用于预测股票价格和市场波动,并发现异常交易行为。

论文内容

摘要

  • 我们提出了一种多功能方法,使用基于注意力的解码器来估计高维多变量时间序列的联合预测分布,该解码器可以学习模拟非参数陪拉的性质。由此产生的模型对多个现实世界数据集产生了最先进的预测。

介绍

TACTiS论文的介绍首先强调了时间序列数据在各种应用中越来越重要,如金融、医疗保健和天气预报。作者指出,时间序列的不同时间步骤之间的复杂依赖关系使得对这些数据进行建模和分析具有挑战性。然后他们解释了传统方法的局限性,如自回归模型,并讨论了基于深度学习的方法的优势,特别是Transformer架构。然而,作者指出,现有的基于Transformer的时间序列模型并不能有效地捕捉到时间步骤之间的复杂依赖关系。为了解决这个问题,他们提出了TACTiS模型,该模型使用共线性和注意力机制来捕捉时间序列的时间步骤之间的依赖关系。引言最后强调了所提模型的新颖性和贡献,并介绍了论文的结构。

  • 时间序列数据可以以原始形式呈现,很少与经典预测方法的标准假设相匹配。我们寻求开发通用预测方法,以处理有关现实世界时间序列的所有风格化事实。

  • 具有非随机协变量、不规则采样变量和缺失值的多元随机过程的特点是倾斜和脂肪尾边缘行为。

  • 经典时代系列模型,如ARIMA和指数平滑方法,在处理风格化事实方面非常有限。机器学习模型最近越来越受欢迎。

  • 基于copulas的多变量预测模型在计量经济学中已经流行了十多年。带有LSTM的低级高斯系词过程已被提出用于高维预测。

  • 我们提出了一个变压器架构,可以处理有关现实世界时间序列的所有风格化事实,包括不规则采样时间序列、缺失值和不均匀采样频率。

贡献:
  • 我们提出了TACTiS,这是一个基于变压器的高度灵活的模型,用于大规模多元概率时间序列预测,它使用注意力陪取来估计任意数量随机变量的非参数陪取。

Background

论文 "TACTiS: Transformer-Attentional Copulas for Time Series "的背景部分讨论了时间序列概率建模的重要性,并提到标准模型如ARIMA和GARCH在建模复杂的依赖关系和非线性模式时受到限制。作者强调了共轭模型在对变量间复杂的依赖关系进行建模时的应用,并讨论了共轭模型在过去是如何被用于多变量时间序列建模的。作者还提到了LSTM和变形金刚等深度学习模型在时间序列预测中的应用,以及将协同学与这些模型结合起来使用以提高其性能的潜力。作者在这一节的最后陈述了本文的目标,即提出一种名为TACTiS的新方法,该方法结合了协同学和变形器的优势,为时间序列数据中的复杂依赖关系建模。

问题设置
  • 我们考虑一组m个多元时间序列,对于每个时间序列,我们考虑一个布尔掩码、一个时变协变量矩阵和一个时间戳向量。然后,我们尝试根据所有已知信息推断缺失时间序列值的联合分布。
Transformer
  • 我们提出了一个用于时间序列分析的Transformer模型,该模型可以通过注意力机制捕获令牌之间的非顺序依赖性。这与本质上是顺序的循环神经网络形成鲜明对比。
Copulas
  • Copulas允许将一组随机变量的联合依赖结构与其边际分布分开。

  • 共面是具有均匀边际分布的单位立方体上的d维随机向量的联合累积分布函数(CDF)。提出了一种新的基于注意力的架构,该架构经过训练,可以模拟非参数系词,该架构可以在多组变量中重用学到的依赖结构。

Related Work

作者对现有的时间序列建模技术进行了概述,包括传统的统计模型和基于深度学习的方法。他们强调了传统模型在捕捉时间序列数据中存在的复杂模式方面的局限性以及深度学习模型在克服这些局限性方面的潜力。他们还讨论了最近在基于深度学习的时间序列模型方面的一些进展,如自回归模型、循环神经网络(RNN)和基于变压器的模型。然而,他们指出,这些模型通常假设时间步骤之间是独立的,这在现实世界中可能不成立,因为时间步骤之间可能存在复杂的依赖关系和相互作用。为了解决这个问题,作者提出了TACTiS模型,该模型使用协同学对时间序列数据的联合分布进行建模,同时还利用基于变压器的模型的力量进行特征提取和关注机制来捕捉时间步骤之间的依赖关系。

  • 20世纪90年代,人们一直在研究用于时间序列预测的神经网络,但由于人们认为过度适应,长期以来一直被谨慎对待。对于神经网络,工作主要集中在全局模型上,全局模型学习一组参数来预测许多序列。往常和卷积神经网络编码器已用于最近的复苏,以及递归分解和确定点过程。

  • 概率多变量方法包括DeepAR、基于循环神经网络(RNN)的近似、去噪扩散过程、多变量归一化流和基于神经网络的顺序无关自回归密度估计器。

  • 基于变压器的方法最近崻身,将用于本地处理的循环层和自我关注层相结合,以表征长期依赖性。李等人。(2019),Spadon等人。(2021年),吴等人(2020),Tashiro等人。(2021年)、Tang & Matteson(2021年)、Wu等人(2022年)和Muller等人(2022年)为多元预测和插值以及回归任务引入了基于变压器的模型。

  • 科普拉广泛用于经济和金融预测,尽管大多数已发布的模型都专注于固定功能形式。在这项工作中,我们引入了由时变条件系词分布的自回归分解产生的非参数系词。

  • Shukla和Marlin(2021a)提出了一种类似变压器的注意力机制,用于处理不规则采样的时间序列,并评估插值和分类任务。

TACTIS模型

本文提出的TACTiS模型由三个主要部分组成:一个基于转化器的编码器,一个注意力共轭层,和一个基于共轭的解码器。

基于变换器的编码器使用自我注意机制从输入的时间序列数据中提取特征。提取的特征随后被送入注意力共轭层。

注意力共轭层使用共轭函数对提取的特征的联合分布进行建模,同时考虑到不同特征之间的依赖性。它使用一个注意力机制来权衡不同特征对协整函数的贡献。

最后,基于共云的解码器通过从注意力共云层建模的联合分布中取样,生成输出时间序列数据。它还使用自回归抽样来按顺序生成时间序列数据。

  • 我们的贡献是用于多变量概率时间序列预测的变压器注意系词模型。

  • TACT i S将多元时间序列建模为任意令牌集,其中观察到一些令牌,一些令牌缺失。编码器和解码器使用注意力来适应任意数量的令牌。

  • TACT i S学习多变量时间序列中任意缺失值的条件预测分布,并支持其输入和输出的变化,例如预测范围的变化。它还支持采样频率的错位和差异。

编码器
  • 编码器为时间序列中的每个元素生成矢量嵌入,考虑其值、相关协变量以及它是被观察还是缺失。

  • 我们通过位置编码将有关令牌时间戳的信息添加到输入嵌入中,然后将生成的嵌入通过剩余层堆栈传递,这些残余层结合了多头自注意和层标准化,以获得每个令牌的编码。

  • 当将TACT i S应用于大型数据集时,我们利用每个令牌由两个独立索引索引的事实,并使用Tashiro等人(2021)的时间变压器层,该层首先计算每个变量的令牌之间的自我关注,然后在给定时间步骤的令牌之间计算自我关注。

解码器
  • 我们的目标是使用训练模仿非参数系词的基于注意力的解码器来学习缺失令牌的联合分布。

  • 我们引入了以下符号:Z(o)、Z(m)、X(o)、X(m)和C(t)分别表示所有协变量和时间戳的集合。

  • TACT i S的关键在于如何参数化每个组件。我们建议使用标准化流来模拟边缘,并开发一个灵活的非参数系词。

  • 为了模拟边际CDF,我们使用Huang等人的深Sigmoidal流(DSF)的分布修改版本。(2018)。每个流的参数由一个带有参数的神经网络产生,这些参数在所有k中共享。

  • 我们考虑了单位立方体[0, 1]nm上具有均匀边际的系膜密度的自回归分解,并使用基于注意力的调节器来获得剩余条件分布ck的参数,对于k > 1。

  • 基于注意力的调节器由几层组成,通过对由观察到的令牌和作为排列前代的缺失令牌的表示组成的内存进行注意,为条件密度cck生成参数。

  • 我们使用LayerNorm获得内存中令牌的基于注意力的表示,并为每层重复此过程,将z(mk)替换为上一层的输出z′′。

  • 任何支持[0, 1]的分布都可用于对条件分布cck进行建模。我们选择使用分段常数分布,在不进行参数假设的情况下近似复杂的多模态分布。

  • 我们使用任意置换从系词中自回归采样,并使用相应的逆边际CDF转换每个值。

训练程序
  • TACTiS学会了通过灵活的非参数注意力结构,将随机变量的联合依赖结构从其边际分布中分离出来。

TACTiS模型的训练程序包括两个步骤:

耦合参数的最大似然估计(MLE): 在第一步中,TACTiS模型被训练成对训练数据的共轭参数的最大可能性。这是用负对数似然损失函数完成的。优化是使用随机梯度下降法(SGD)和亚当优化器进行的。

预测的微调: 在第二步中,对TACTiS模型进行微调以使训练数据的预测误差最小。这是用平均平方误差(MSE)损失函数完成的。优化也是使用SGD和Adam优化器进行的。在微调过程中,共轭参数保持固定,只有变换器参数被更新。

实验

TACTiS论文的实验部分评估了所提出的模型在四个不同任务上的性能:多元时间序列预测,异常检测,缺失值归纳,以及合成时间序列的生成。

对于多变量时间序列预测,TACTiS与几个最先进的模型进行了比较,结果显示TACTiS在几个基准数据集上的表现优于这些模型。

对于异常检测,TACTiS在两个真实世界的数据集上进行了评估,结果显示TACTiS取得了比基线模型更好的性能。

对于缺失值的估算,TACTiS与几个最先进的模型进行了比较,结果显示TACTiS在几个基准数据集上取得了更好的性能。

最后,对于合成时间序列的生成,TACTiS与几个生成模型进行了比较,结果表明,TACTiS生成的高质量合成时间序列具有良好的多样性和一致性。

  • 我们提出了一个支持注意力合作有效性的实验,然后演示了TACT i S的最新性能。
注意力Copulas的实验验证
  • 我们进行了一个简单的实验,以验证学习的注意力合作是否有效,即使数据量、模型容量和训练时间有限。结果表明,学习的系轴密度与地面真理非常吻合。
预测:与最先进的技术进行比较
  • 我们以多种基于深度学习的方法进行基准测试,这些方法生成多变量概率预测,我们还与ARIMA和ETS指数平滑等经典方法进行比较。

  • 我们通过模拟预测模型在现实环境中使用的背景测试程序来评估模型。我们报告所有时间戳汇总的指标。

  • 我们使用CRPS-Sum,这是单变量连续排名概率评分(CRPS)的多元扩展,作为我们的主要评估指标,并报告两个额外指标的结果,CRPS和能量评分。

  • TACTiS-TT在5个数据集中3个中实现了最低的CRPS-Sum,并在其余数据集上优于大多数基线。在fred-md上,它达到了最低的平均排名(1.6)和最低的CRPS-Sum。

模型的灵活性
  • TACT i S可以预测多变量时间序列的任意值,例如预测、插值,甚至它们的组合。它还可以正确估计以随机波动过程为中心的缺失值的分布。

  • TACT i S能够预测未对齐和不均匀采样的时间序列中的缺失值,因为它将每个观察到的数据点视为执行自我关注的独特令牌。

讨论

  • 这项工作提出了TACT i S,这是一种概率时间序列推理方法,它将基于注意力的模型的灵活性与新型非参数系词(称为注意力系词)的密度估计能力相结合。

  • TACT i S可以通过使用专门为时间数据设计的位置编码,通过应用大规模变压器的最新进展,通过制定更有效的采样程序,以及通过调整解码器中边际分布的估计来扩展。

  • 这项工作可以作为解决冷启动问题的模型的基础,在很少有对该过程的历史观察的情况下做出明智的预测。

  • 有效系词的密度是单位立方体[0, 1]nm上的分布,每个随机变量的边际分布是均匀的。分布的几何平均数总是小于或等于算术平均数,并且达到相等,即计算均值的所有元素都是相等的。

  • 基于方程(9),我们得出结论,具有参数enc的解码器的参数会导致对排列不变的密度估计器,并最大限度地减少了数据的负对数似然。

附录

B.1.使用的图书馆

  • TACT i S模型在PyTorch中实现,并依赖PyTorchTS库进行数据处理、模型训练和评估。

B.2.颠倒边际流量

  • 我们使用二进制搜索来计算学习联合分布中每个变量的边际CDF的逆。这相对较慢,但开销可以忽略不计。

  • 我们重新缩放了采样值,以达到[0.05,0.95]范围,以避免在使用流作为边际分布时从没有正确形状的尾部进行采样。

B.3.装袋:高维度的高效训练

  • 我们基准中的两个模型可以使用数据中n个时间序列的任意子集进行训练,而无需调整其参数。因此,模型在训练阶段的记忆足迹可以显著减少。

B.4.数据标准化

  • 对于TACT i S,我们根据标准化过程转换数据,该过程计算观察到的和缺失的令牌的均值和方差。

  • 我们考虑方差的下限为1016,以避免在所有值(几乎)相同的情况下除以零。这个下限对采样有巨大影响。

C.1.数据集

  • 五个数据集用于基准测试:电力数据集、太阳能-10分钟数据集、fred-md数据集、kdd-cup数据集和流量数据集。由于数据集的频率很高,太阳能-10分钟数据集的预测长度被限制在72小时。

C.2.1。D EEP L 赚取 M ODELS

  • 我们基准中的所有深度学习模型都是使用相同的过程训练的,但GPVar除外,GPVar是在Docker容器中训练的。

  • 我们运行了少量不同批次大小的训练迭代,并保留了最大的一次,不会导致内存不足错误。这种方法很粗糙,但允许需要较少内存的模型更快地训练。

  • 这些模型展示了每个时代训练集的1600个随机样本。对于使用装袋的模型,每个纪元的样本数量增加到b(1600/批次大小)。

  • 我们在CPU而不是GPU上训练GPVar,并使用8个CPU内核和64 GB的CPU RAM进行补偿。我们添加了一个条件,在3天后停止训练。

C.2.2. CLASSICAL MODELS

  • 我们在R编程语言中运行预测包的auto.arima函数,以按时间序列自动搜索模型规范,并将拟合时间限制在最多30分钟。

  • 我们在Python的statsmodels包中使用ETSModel实现来获得指数平滑结果。进行自动超参数搜索。

  • ETS是单变量的,使用加法误差项。为每个时间序列进行独立的拟合和预测模拟。

C.3.超参数搜索协议

  • 我们对每个模型和数据集进行了超参数搜索,以找到最佳超参数,然后用于比较模型的预测质量。

  • 在每个数据集中,时间步骤的最终子集保留给回测过程,剩余的时间步骤用作训练集。

  • 我们考虑了50个超参数组合,并为每个组合训练了模型5次。最好的超参数组合是5个训练运行中没有一个因数字或内存错误而失败,其中最差的CRPS-Sum值是最低的。

  • 选项卡5显示了TempFlow模型的超参数,所有其他参数都保持在默认值。

C.5.回测协议

  • 我们使用回测程序评估所有模型,该程序模拟它们如何应用于现实世界的问题。我们进行单个超参数搜索,多次重新训练模型,并根据需要计算预测。

  • 我们定义了nB回测时间戳、nB预测时间戳,以及用于模型训练的数据、用于预测的历史数据和与预测进行比较的目标数据之间的拆分的可视化表示。

  • 我们为fred-md、kdd-cup和solar-10min选择一月,并估计它们之间每24小时的预测。对于交通,我们选择周一午夜的i,并估计他们之间每12小时的预测。

C.5.1。TACT I S的E XCEPTIONS - TT

  • 在使用玩具数据集进行的实验中,TACT i S-TT具有复杂的学习动力学,可以分为三个阶段。我们删除了最大纪元数,只保留了3天的最大训练时间,以防止提前停止过于激进。

  • 我们将所有数据集的MLP隐藏维度参数增加到48,忽略了超参数搜索的这一部分。这导致了模型经验性能的显著改善。

C.6.指标和附加结果

  • CRPS-Sum用于比较各种模型的预测准确性,并基于连续排名概率评分。

  • CRPS-Sum测量单个时间步骤预测之间相关性的质量,但本质上是单变量的,无法区分预测方法是否准确预测不同时间步骤之间的相关性。

  • 我们调整单个结果的差异,以考虑回测过程中的自相关性,并对标准错误使用Newey-West校正。这产生了比i.i.d.假设更保守的标准错误。

  • CRPS-Sum和CRPS的基准结果分别显示在选项卡1和8中。

  • 与独立预测每个系列的技术相比,一个好的多变量预测技术可以大放异彩。

  • 能量评分的基准结果显示在表9中,但结果没有归一化,这解释了数据集之间的数量级差异。

D.1.Attentional Copulas能恢复地面真相 Copula吗?

  • 在这个实验中,我们评估了TACT i S解码器正确恢复联合分布背后的系词和边际分布的能力。定理1保证可以学习有效的系词,但没有告诉我们如何学习。

  • 我们专注于一个简单的二元联合密度估计问题,并使用该分布的样本训练TACT i S解码器。

  • 我们使用两个克莱顿浆和卡方分布的均匀加权混合物生成一个复杂的x形系膜密度。

  • 我们隔离了TACT i S的密度估计组件,并使用一组简单的嵌入作为TACT i S解码器的Z(m)输入。然后,我们以最大似然来训练模型。

  • TACT i S解码器成功恢复了数据分发的组件,即使在数据、容量和训练时间有限的环境中,注意力系词也成功收敛到有效的系词。

  • 在进行这些实验时,我们意识到初始化似乎在模型中发挥着重要作用。我们通过进行各种初始化的每个实验来规避这个问题,并验证了学习分布中的一些变量之间存在非零相关性。

D.2.TACTiS可以学习插值吗?

  • 考虑了潜在时变波动过程,对数方差为9级,持久性=0.99,波动性=0.04。

  • 我们生成1000个单变量时间序列,并使用马尔可夫链蒙特卡洛采样从缺失值的后验分布中估计可能的插值轨迹。这些轨迹构成了与xtesti相关的插值任务的基本真理。

  • 我们使用长度为125的64个窗口训练TACT i S,屏蔽中心25个时间点的值,并让其他100个时间点被观察。然后,我们通过将采样轨迹与地面真值轨迹进行比较来评估TACT i S。

  • 我们使用Wasserstein距离将TACT i S和虚拟基线获得的分数与甲骨文的分数分布进行比较。

结果和结论

  • TACT i S估计的分布比虚拟基线估计的分布更接近地面真值分布,这反映在各自的Wasserstein距离分布中。TACT i S在这项插值任务中表现良好,其中位数与间隙前后直接观察到的值一致。然而,它未能估计地面真相分布中位数的上升趋势。

D.3.TACT i S可以从不对齐/非统一采样的时间序列中学习吗?

  • 主要实验无法确定TACT i S是否可以利用其变压器架构来支持未对齐或非均匀采样的时间序列。

  • 我们考虑两个独立的单变量时间序列,并从每个序列中选择一个非均匀间隔点的样本。这些点被透露给模型,其他点被隐藏起来。

  • 为了使TACT i S与时间数据兼容,我们必须使用地面真时间序列中每个时间点的索引来生成位置编码。

  • TACT i S被训练为预测10个时间点的窗口,给定相同长度的历史。它产生了一个关于这些数据的示例预测。

D.4.消融研究

  • 在本节中,我们试图衡量TACT i S-TT的关键组件对其预测质量的相对影响。我们将TACT i S-TT与两种消融比较,并尝试测量(1)的相对重要性。

  • 边际流(2)在不影响学问系词质量的情况下直接缩水是具有挑战性的。因此,我们避免进行这样的实验。

  • 我们评估TACT i S-GC消融,在那里我们用ECDF替换边缘流,用低级高斯系量替换注意力系膜。ECDF是使用每个样本的历史记录计算的。

  • TACT i S-GC在两个数据集上表现较差:电力和交通,在两个数据集上略差:fred-md,在两个数据集上略差:kdd-cup和solar-10min。然而,TACT i S - TT通常更优越。

  • 在这里,我们评估了TACT i S-IC消融,它用一个琐碎的系词取代了注意力系词。我们重复使用经过训练的TACT i S-TT模型来进行这个实验。

  • 与TACT i S-TT相比,这种消融的性能非常相似,但能量得分指标描绘了一幅不同的画面。能量分数在揭示缺乏习得相关性方面要好得多,而CRPS-Sum的辨别能力较低。

D.4.3.R ELATIVE I MPORTANCE OF TACT I S - TT K EY C OMPONENTS

  • 当将消融结果与基准进行比较时,我们发现TACT i S - TT及其消融,TACT i S - GC和TACT i S - IC都与最先进的技术竞争。这表明,基于自我关注的编码器是其良好性能的主要驱动因素。

  • 总之,我们得出结论,TACT i S - TT的良好性能是由于其基于变压器的架构。

E.1.一些好的和坏的预测

  • 我们在预测实验中举了一些TACT i S-TT生成的概率预测示例。这些例子展示了TACT i S-TT的优势和劣势。

  • 该模型能够预测,在零值缺口后,电力数据集可能会突然增加,并跟踪数据的每日周期性。

  • 图16显示了对电力数据集的一些特别糟糕的预测,这说明了边际流量的局限性,这可能不太适合离散分布,特别是当数据集中只有少数序列包含离散模式时。

  • 太阳-10min数据集在连续的时间点之间有突然变化(增加或减少)。预测似乎通过将重大可能性归因于预测中的广泛值来解释这一特征。

  • fred-md数据集表明,该模型可以应用于具有各种趋势的数据,并且随着我们远离历史,预测的方差逐渐增加。

  • 图20显示,fred-md模型要么对数据中的一个点反应过度,要么错过了趋势的变化。

  • kdd-cup数据集显示了良好的预测,在一系列可能值上分布一致,并在历史之后的时间点逐渐增加方差。

  • 图22显示,该模型低估了该系列的最大值,并低估了该系列保持在相对恒定和低值的几率。

  • 交通数据集图23显示,TACT i S-TT能够预测早晚的交通高峰,该模型可以识别数据中的模式,并以非常高的信心进行预测。

  • 在图24中,该模型假设预测的日期将与前一天相匹配,忽略了延迟的可能性,并且没有预见该序列可以达到比历史上大得多的值。

  • 学习的边际分布对预测质量有重大贡献,如图25和图26所示。它们使用标准化程序进行标准化。

  • 电力、fred-md和交通的边际都是单模态的,但交通边际除外,后者相当广泛。

  • 使用许多常见的参数分布可以实现多模态边缘,该模型了解到,一些变量具有精确处于下限的非零概率。

E.3.学习变量之间的依赖性

  • 我们已经表明,TACT i S - TT仅使用其边际分布做出体面的预测,而没有从其注意力系量中学到任何值得注意的东西。然而,以下实验表明,它确实学会了变量之间的相关性。

  • 在第一个实验中,我们检查了同一系列(系列内)内不同时间步骤之间的相关性。我们发现,除了接近24小时的时间差外,时间步之间的相关性会随着时间而减少。

  • 使用预测中最后一个时间步骤采集的样本来测量序列间相关性。TACT i S - TT能够识别数据集的一些结构,但仍有待改进。

E.3.1。I MPACT OF BAGGING ON I NTER -S ERIES C ORRELATIONS

  • 在训练期间使用1的装袋大小可以防止模型正确学习序列间的依赖性,而使用2的装袋大小开始淡化一些系列之间的相关性,这表明注意力机制对依赖性模式越来越有选择性。

  • 该实验表明,能量得分不能揭示为1的装袋尺寸所学到的高度不正确的相关性。正如Pinson & Tastu(2013年)所探讨的那样,高维度的能量得分不那么敏感。

  • 3
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值