TACTIS-2: BETTER, FASTER, SIMPLER ATTENTIONAL COPULAS FOR MULTIVARIATE TIME SERIES-CSDN博客

系列文章目录

TACTIS-2：更好、更快、更简单的多元时间序列注意力联结函数 ICLR2024

文章目录

系列文章目录
摘要
一、引言
二、 PROBLEM SETTING
- 2.1 COPULA-BASED DENSITY ESTIMATORS
三、 LEARNING NONPARAMETRIC COPULAS学习非参数联结函数
- 3.1 PERMUTATION-INVARIANT COPULAS
- 3.2 TWO-STAGE COPULAS
四、 THE TACTIS-2 MODEL
五、 EXPERIMENTS
- 5.1 EMPIRICAL VALIDATION OF TWO-STAGE ATTENTIONAL COPULAS
- 5.2 EVALUATION OF PREDICTIVE PERFORMANCE
六、 RELATED WORK
七、 DISCUSSION

摘要

我们引入了一种用于多元概率时间序列预测的新模型，旨在灵活地解决一系列任务，包括预测、插值及其组合。基于 copula 理论，我们为最近引入的基于变压器的注意力 copula（TACTiS）提出了一个简化的目标，其中分布参数的数量现在与变量的数量成线性而不是阶乘。新的目标需要引入培训课程，这与对原始架构的必要改变密切相关。我们表明，所得模型具有明显更好的训练动态，并在不同的现实世界预测任务中实现了最先进的性能，同时保持了先前工作的灵活性，例如无缝处理未对齐和不均匀采样的时间序列。代码可从 https://github.com/ServiceNow/TACTiS 获取。

一、引言

最佳决策涉及对感兴趣的数量随时间的演变以及各种场景的可能性进行推理（Peterson，2017）。从最一般的形式来看，这个问题相当于估计一组变量在多个时间步长上的联合分布，即多元概率时间序列预测（Gneiting & Katzfuss，2014）。尽管统计和机器学习社区已经广泛研究了这个问题的各个方面（Hyndman 等人，2008 年；Box 等人，2015 年；Hyndman 和 Athanasopoulos，2018 年），但它们经常被孤立地研究。最近，一个新兴的研究流开始寻找能够处理现实世界时间序列问题的几个程式化事实的通用模型，即（i）大量时间序列，（ii）任意复杂的数据分布，（iii） ) 异质或不规则采样频率（Shukla & Marlin，2020），(iv) 缺失数据（Fang & Wang，2020），以及 (v) 用于调节的确定性协变量的可用性（例如假期指标），同时足够灵活以处理各种任务，例如预测和插值（Drouin 等人，2022）。

经典预测方法（Hyndman 等人，2008 年；Box 等人，2015 年；Hyndman 和 Athanasopoulos，2018 年）经常对数据分布的性质（例如参数形式）做出强有力的假设，因此在处理这些数据时受到限制迫切需要。基于深度学习的方法的出现在这方面取得了重大进展，并导致模型在各种时间序列预测任务中表现出色（Torres 等人，2021；Lim 和 Zohren，2021；Fang 和 Wang，2020）。然而，这些方法中的大多数缺乏满足上述要求所需的灵活性。最近，引入了一些通用模型（Tashiro et al., 2021; Drouin et al., 2022; Biloˇs et al., 2023; Alcaraz & Strodthoff, 2023），但大多数模型只解决了一部分需求。一个值得注意的例外是用于时间序列的 Transformer-Attentional Copulas（TACTiS；Drouin 等人，2022），它解决了所有这些问题，同时实现了最先进的预测性能。 TACTiS 依赖于预测联合分布的基于模块化联结的分解（Sklar，1959），其中使用注意联结对多变量依赖性进行建模。它们由通过解决特定目标进行训练的神经网络组成，以保证其收敛到数学上有效的联结函数。而 Drouin 等人的方法。（2022）在理论上是合理的，它需要解决一个具有许多分布参数的优化问题，这些参数随变量数量呈阶乘增长，从而导致训练动态性差和次优预测。

在本文中，我们基于 copula 理论提出了一种简化的注意力 copula 训练程序，解决了分布参数的数量随变量数量线性而不是阶乘缩放的问题。我们的工作产生了一种通用的多变量时间序列预测方法，该方法也满足上述所有需求，同时具有更好的训练动态，即更快地收敛到更好的解决方案（见图 1）。

Contributions:
• 我们表明，虽然非参数联结函数需要专门的学习程序（命题 1），但 TACTiS 中使用的基于排列的方法（Drouin 等人，2022）不必要地复杂，并且可以通过解决两个问题来学习有效的联结函数：阶段问题，其参数数量与变量数量成线性比例（第 3.2 节）；
• 我们在这些理论发现的基础上提出了 TACTiS-2，这是 TACTiS 的改进版本，其架构经过修订，使用两阶段课程进行培训，保证产生有效的 copula（第 4 节）；
• 我们的经验表明，我们简化的训练程序可以带来更好的训练动态（例如，更快地收敛到更好的解决方案）以及在许多现实世界预测任务上的最先进的性能，同时保留了训练的高度灵活性。 TACTiS 模型（第 5 节）；
在这里插入图片描述

图 1：TACTiS-2 在现实世界预测任务中的 (i) 密度估计（较低的验证负对数似然，NLL）和 (ii) 训练计算（较少的浮点运算，FLOP）方面优于 TACTiS（参见第 5 节）。

二、 PROBLEM SETTING

这项工作解决了估计多元时间序列中任意时间点未观测值的联合分布的一般问题。此设置包含经典设置，例如预测、插值和回溯。令 X 为由 n 个可能相关的单变量时间序列组成的多元时间序列，表示为 $\mathbf{X}\stackrel{\mathrm{def}}{=}\{\mathbf{X}_{1},\ldots,\mathbf{X}_{n}\}$ 。每个 $\mathbf{X}_i\stackrel{\mathrm{def}}{=}[X_{i1},\ldots,X_{i,\ell_i}]$ 是一个随机向量，表示某个实值过程的 ℓi 个观测值。我们假设，对于任何实现 $\mathbf{x}_i\stackrel{\mathrm{def}}{=}[x_{i1},\ldots,x_{i,\ell_i}]$ ofXi，每个 xij 与 (i) 时间戳配对，tij ∈ R， $t_{ij}<t_{i,j+1}$ ，标记其测量时间和 (ii) 非随机协变量 $\mathbf{c}_{ij}\in{\mathbb{R}}^p$ 的向量表示每个时间步可用的任意附加信息。

任务：我们借助掩码 $m_{ij}$ ∈ {0, 1} 定义学习任务，该掩码确定任何 Xij 是否应被视为观察到的 ( $m_{ij}$ = 1) 或推断出的 ( $m_{ij}$ = 0)。例如，预测 X 中最后 k 个时间步的任务将被定义为对于所有 i 和 j，s.t， $m_{ij}$ = 0。 ℓi − k < j ≤ ℓi，否则 $m_{ij}$ = 1。类似地，将 X 中时间步 k 的值插值到 p 的任务可以通过为所有 i 和 j s.t 设置所有 $m_{ij}$ = 0 来定义。 k ≤ j ≤ p，否则 $m_{ij}$ = 1。可以使用这种方法定义任意的、更复杂的任务。
一般问题：我们考虑估计缺失值联合分布（即 $m_{ij}$ = 0）的一般问题，给定观测值（ $m_{ij}$ = 1）、协变量和时间戳：

在这里插入图片描述

其中 $\mathbf{X}^{(m)}=[X_{11},\ldots,X_{1,l_{1}};\ldots;X_{n1},\ldots,X_{n,l_{n}}\mid m_{ij}=0]$ 是包含对应于所有缺失值的 d 个随机变量 Xij 的随机向量，X(o) 相同，但对于观测值，以及 $\mathbf{C}^{(m)},\mathbf{C}^{(o)},\mathbf{T}^{(m)},\mathbf{T}^{(o)}$ 分别对应于协变量和时间戳的相同分区。接下来，我们估计式（1）的联合概率密度函数（PDF）。 (1) 使用基于 copula 的密度估计器 $g_{\boldsymbol{\phi}}(x_1,\ldots,x_d)$ ，其参数 phi 以 $\mathbf{X}^{(o)},\mathbf{C}^{(m)},\mathbf{C}^{(o)},\mathbf{T}^{(m)},\mathbf{T}^{(o)}$ 为条件）。

2.1 COPULA-BASED DENSITY ESTIMATORS

copula 是一个概率对象，允许捕获 d 个随机变量之间的依赖关系，独立于它们各自的边际分布。更正式地说，d 个变量的任意随机向量的联合累积分布函数 (CDF) $\begin{aligned}\mathbf{X}=[X_1,\ldots,X_d]\end{aligned}$ ，可写为：
在这里插入图片描述
其中 $F_i(x_i)\stackrel{\mathrm{def}}{=}P(X_i\leq x_i)$ 是 $X_i$ 的单变量边缘CDF，C：[0，1]d→[0，1]，Copula是单位立方上具有一致边缘的多元分布的CDF(Sklar，1959)。值得注意的是，如果所有 $F_i$ 都是连续的，那么这种基于Copula的分解是唯一的。

目前的工作融入了一系列研究，寻求多元时间序列的基于 copula 的密度估计器的特定参数化（Salinas 等人，2019 年；Drouin 等人，2022 年），即
在这里插入图片描述
其中 $\boldsymbol{\phi}=\{\phi_1,\ldots,\phi_d;\phi_c\},$ ，其中 $\{\phi_i\}_{i=1}^d$ 为边缘分布的参数（ $F_{\phi_i}\text{ and }f_{\phi_i}$ 分别为估计的 CDF 和 PDF），而 $\phi_{c}$ 为联结密度 $c_{\phi_{\mathfrak{c}}}$ 的参数。 $F_{\phi_{i}}$ 和 $c_{\phi_{\mathfrak{c}}}$ 分布的选择通常留给从业者。例如，可以将 $F_{\phi_{i}}$ 视为高斯分布的 CDF，将 $c_{\phi_{\mathfrak{c}}}$ 视为高斯联结函数（Nelsen，2007）。然后可以通过最小化负对数似然来估计参数：

在这里插入图片描述

三、 LEARNING NONPARAMETRIC COPULAS学习非参数联结函数

通常，为了避免做出参数假设，人们可能会将估计器的 $c_{\phi_{\mathfrak{c}}}$ 和 $F_{\phi_{i}}$ 分量视为高度灵活的神经网络（Wiese 等人，2019；Janke 等人，2021；Drouin 等人，2022）。虽然很容易约束 $c_{\phi_{\mathfrak{c}}}$ 具有有效的域和余域，但这并不意味着其边缘分布是均匀的。因此，正如 Janke 等人所观察到的。（2021）和 Drouin 等人。 (2022)，一个关键的挑战是确保分布 $c_{\phi_{\mathfrak{c}}}$ 满足 copula 的数学定义（参见第 2.1 节）。我们通过证明一个新的理论结果来加强这一观察，表明在没有任何附加约束的情况下解决问题（4）可以导致无限多个解决方案，其中 $c_{\phi_{\mathfrak{c}}}$ 不是有效的连接函数：

命题1.（无效解）假设所有随机变量 $\begin{aligned}X_1,\ldots,X_d\end{aligned}$ 具有连续边缘分布，并假设 $\{F_{\phi_i}\}_{i=1}^d\textit{and c}_{\phi_c}$ 具有无限表达性，问题 (4) 有无限多个无效解，其中 $c_{\phi_{c}}$ 不是有效联结的密度函数。

证明。证明，详见App。 B.1 表明，可以创建无限多个 $F_{\phi_i}$ 和 $c_{\phi_{c}}$ 的实例，其中 $p(x_{1},\ldots,x_{d})=g_{\boldsymbol{\phi}}(x_{1},\ldots,x_{d})$ ，但真正的边际和 copula 是纠缠在一起的。

因此，使用神经网络来学习基于 copula 的密度估计器并不简单，并且需要的不仅仅是模型的简单模块化参数化。

3.1 PERMUTATION-INVARIANT COPULAS

最近，Drouin 等人。 (2022) 表明，可以使用基于排列的目标来学习有效的非参数联结函数。他们的方法考虑根据变量 $\boldsymbol{\pi}=[\pi_{1},\ldots,\pi_{d}]\in\Pi$ ，其中 Π 是所有 d 的集合！ {1, . d}的排列。所得联结密度 $c_{\phi_c^\pi}$ 可以写为：
在这里插入图片描述其中 $u_{\pi_k}=F_{\phi_{\pi_k}}\bigl(x_{\pi_k}\bigr)$ ，其中 $F_{\phi_{\pi_{k}}}$ 为任意边缘 CDF，而 $c_{\phi_{c,i}^\pi}$ 是参数为 $\phi_{c,i}^\pi$ 的单位区间上的任意分布（例如直方图）。然而，有一个重要的例外：排列 $c_{\phi_{c,1}^{\pi}}$ 中第一个变量的密度始终被视为均匀分布 U[0,1] 的密度，因此 c $c_{\phi_{c,1}^{\pi}}(u_{\pi_{1}})=1$ 。这种选择与解决以下问题相结合，至少保证所有 $c_{\phi_c^\pi}$ ，无论 π 是多少，都是等价的，并且对应于有效的 copula 密度：
在这里插入图片描述其中 $\phi_c^{\boldsymbol{\pi}}\stackrel{\mathrm{def}}{=}\{\phi_{c,1}^{\boldsymbol{\pi}},\ldots\phi_{c,d}^{\boldsymbol{\pi}}\}_{\boldsymbol{\pi}\in\Pi}$ 是每个 d! 的参数。联结密度的因式分解（参见 Drouin 等人 (2022)，定理 1）。

局限性：使用此方法获得有效的 copula 需要解决具有 O(d!) 参数的优化问题。这对于大 d 来说是极其禁止的，而大 d 在多元时间序列预测中很常见（例如，对于常见电力基准，d = 8880；Marcotte 等人（2023））。 Drouin 等人提出的方法。 (2022)，包括参数化单个神经网络以输出 phi Π 并使用 Π 期望的蒙特卡洛近似。然而，这种方法有几个注意事项，例如，(i) 神经网络必须有足够的能力来产生 O(d!) 个不同的值，(ii) 由于 Π 的大小，只能是所有排列中的一小部分。在一批训练中观察到，导致收敛速度缓慢。这得到了第二节中的经验观察的支持。 5.

3.2 TWO-STAGE COPULAS

在这项工作中，我们采用了一种不同的方法来学习非参数联结函数，该方法不依赖于排列，从而减轻了上述限制。我们的方法建立在以下两阶段优化问题的基础上，该问题的属性先前已在参数化（Joe & Xu，1996；Andersen，2005；Joe，2005）和半参数估计器（Andersen，2005）的背景下进行了研究，并且其中参数数量与 O(d) 而不是 O(d!) 成比例：
在这里插入图片描述因此，优化分两个阶段进行：

第 1 阶段：学习边际参数，不考虑多变量依赖性（式（8））；
第 2 阶段：在给定最佳边缘的情况下学习 copula 参数（方程（7））。

除了获得一个相当简单的优化问题之外，我们还表明使用这种方法学习的任何非参数联结 $c_{\phi_{c}}$ 都是有效的，即它满足联结的数学定义：

命题2.（有效性）假设所有随机变量 $\begin{aligned}X_1,\ldots,X_d\end{aligned}$ 具有连续边缘分布，并假设 $\{F_{\phi_i}\}_{i=1}^d\textit{ and }c_{\phi_c}$ 具有无限表达性，解决问题 (7) 会产生问题 (4) 的解，其中 $c_{\phi_c}$ 是有效的 copula。

证明。该证明以 Sklar (1959) 的结果为基础，并在 App 中提供。 B.2.

四、 THE TACTIS-2 MODEL

建立在Sec。 3.2，我们提出了 TACTiS-2，一种多元概率时间序列预测模型，继承了 Drouin 等人的灵活性。 (2022) 模型，同时受益于相当简单的训练过程，可以更快地收敛到更好的解决方案。图 2 概述了其架构。本质上，与 TACTiS 的主要区别在于基于 copula 的密度估计器的选择（第 3 节）：它不是排列不变的（第 3.1 节），而是建议的两阶段类型（第 3.2 节））。这种差异要求对架构进行更改和模型的丢失，以及引入培训课程，我们将在下面概述。在下文中，我们使用 θ 来表示神经网络的参数，不要与用 $\phi$ 表示的分布参数混淆。

双编码器：TACTiS 依赖于单个编码器来生成输出密度的所有参数，而 TACTiS-2 依赖于两个不同的编码器（ $\operatorname{Enc}_{\theta_M}\text{ and Enc}_{\theta_C}$ ），其表示用于参数化边缘 CDF ( $F_{\phi_{i}}$ ) 和 copula 分布 ( $c_{\phi_{c}}$ ），分别。与 TACTiS 一样，这些是转换器编码器，嵌入了观察到的 $\mathbf{X}^{(o)}$ 和缺失的 $\mathbf{X}^{(m)}$ 值的实现，缺失值被屏蔽为屏蔽语言模型（Devlin 等人，2018）。让 $x_i$ 指代通用随机变量（缺失或观察到）的实现， $m_i$ 、 $c_i$ 和 $t_i$ 指代其相应的掩码、协变量和时间戳。表示形式如下：

在这里插入图片描述

图 2：具有双编码器和解码器的 TACTiS-2 架构。 training curriculum（右下）显示了拟议的两阶段方法。

其中有关时间戳 $t_i$ 的信息通过附加位置编码 $p_i$ 合并到该过程中，我们将其视为正弦特征，如 Vaswani 等人所述。（2017）。

解码器：与 TACTiS 一样，解码器使用基于 copula 的估计器来估计缺失值 $\mathbf{X}^{(m)}$ （等式（1））的条件密度，如等式（1）所示。（3）。它由两个模块组成，其任务是分别生成 (i) 边际 CDF $F_{\phi_{i}}$ 和 (ii) 联结 $c_{\phi_{c}}$ 的分布参数。这些模块类似于 TACTiS 中使用的模块，但不同之处在于它们仅使用各自的编码： $\mathbf{z}^{M}$ 和 $\mathbf{z}^{C}$ 。为了完整起见，我们在下面概述它们。

（边际）第一个模块是一个超网络 ( $\mathrm{HN}_{\theta_{M}}$ )，生成深度 Sigmoidal Flows (DSF) 的参数 $\phi_{i}$ (Huang et al., 2018)1，用于估计每个 $F_{\phi_{i}}$ 。然后得到对应于 $x_i$ 的概率积分变换的 $u_i$ 值：

在这里插入图片描述
（Copula）第二个模块参数化称为注意力 Copula 的结构。这对应于 copula 密度的因式分解，如方程 1 所示。 (5)，其中每个条件都使用因果注意机制进行参数化（Vaswani 等人，2017）。更正式地说，考虑缺失变量 X(m) 的任意顺序，并令 $c_{\phi_{c.i}}(u_{i}\mid u_{_1},\ldots,u_{i-1})$ 为因式分解中的第 i 项。参数 $\phi_{c,i}$ 是通过关注所有观察到的标记的 $\mathbf{z}_j^C$ （参见方程（9））和 uj （参见方程（10））产生的，用 $\mathbf{z}^{C(o)}\mathrm{~and~}\mathbf{u}^{(o)}$ 表示，并且对于所有缺少排序中前面的变量，用 $\mathbf{z}_{1:i-1}^{C(m)}\text{ and }\mathbf{u}_{1:i-1}^{(m)}$ 表示：
在这里插入图片描述
其中 $\mathrm{Attn}_{\theta_C}$ 是一种注意力机制，它使用查询 qi 关注键 Ki 和值 Vi，并对输出应用非线性变换。正如 Drouin 等人所言。 (2022)，我们将每个 $c_{\phi_{c,i}}$ 视为在 [0, 1] 中支持的直方图分布，但其他选择与此方法兼容。

Curriculum Learning: TACTiS 和 TACTiS-2 之间的一个关键区别在于它们的训练过程。 TACTiS 优化了繁琐的、基于排列的问题 (6)。相比之下，TACTiS-2 使用训练课程通过最大似然进行训练，通过使用双编码器启用，我们证明这相当于解决两阶段问题 (7)。参见图 2 的说明。

在第一阶段，仅训练边缘分量的参数 $\theta_{M}$ ，而跳过连接函数 $\theta_{C}$ 的参数。这归结为使用一个简单的联结函数来优化问题 (4)，其中所有变量都是独立的（我们用 $c_I$ 表示）：

在这里插入图片描述
其中每个 $f_{\phi_{i}}$ 是通过对 $F_{\phi_{i}}$ w.r.t 进行微分获得的。 xi，对于 DSF 来说是高效的操作。由于根据定义 $c_I(\ldots)\equiv1$ ，该问题简化为问题 (8)。

在第二阶段，冻结边缘分量 $\theta_{M}$ 学习到的参数，并训练 copula 分量 $\theta_{C}$ 的参数，直到收敛。因此，优化问题由下式给出：
在这里插入图片描述
这简化为问题（7），因为 $\{f_{\phi_{i}^{\star}}(\ldots)\}_{i=1}^{d}$ 是常数。因此，根据命题 2，我们认为，只要有足够的容量，TACTiS-2 学习到的注意力连接函数将是有效的。我们强调所提出的学习课程的重要性，因为根据提案 1，我们知道简单地最大化可能性 w.r.t. $\theta_{M}$ 和 $\theta_{C}$ 不太可能产生有效的 copula。

采样：推理按照 TACTiS 中的方式进行：(i) 根据 copula 密度进行采样，以及 (ii) 应用逆 CDF 从方程式中获取样本。 (1). 我们尊重 Drouin 等人的观点。（2022）了解详情。

五、 EXPERIMENTS

我们首先通过实证验证学习注意力连接函数的两阶段方法（第 5.1 节）。然后，我们证明 TACTiS-2 在预测基准中实现了最先进的性能，并且可以执行高精度插值（第 5.2 节）。最后，我们证明 TACTiS-2 在各个方面（即准确性和训练动态性）均优于 TACTiS，同时保留其高度灵活性。

5.1 EMPIRICAL VALIDATION OF TWO-STAGE ATTENTIONAL COPULAS

根据命题 2，TACTiS-2 应该学习有效的联结函数。我们在样本大小、训练时间和容量有限的情况下凭经验验证了这一说法。正如 Drouin 等人所言。（2022），我们依赖于一个实验，其中数据是从具有已知联结结构的二变量分布中提取的。图 3 中的结果表明，在这种设置下，TACTiS-2 恢复了与真实情况紧密匹配的有效联结。参见应用程序。 B.3 实验细节和附加结果。

在这里插入图片描述
图 3：学习到的连接函数（轮廓）的密度与地面实况（颜色）的密度非常匹配。

5.2 EVALUATION OF PREDICTIVE PERFORMANCE

现在，我们在 Monash 时间序列预测存储库（Godahewa 等人，2021）中的五个常见现实世界数据集的基准中评估 TACTiS-2 的预测和插值能力：电力、fred-md、kdd-cup、太阳能 10分钟，还有交通。选择它们是因为它们具有不同的维度 (n ε [107, 826])、采样频率（每月、每小时和 10 分钟）和预测长度 (ℓi ε [12, 72])。所有数据集均在 App 中详细说明。 C.1.

评估方案：评估遵循 Drouin 等人的方案。（2022），其中包括将滚动窗口评估与定期再训练相结合的回测程序。使用连续排名概率得分（CRPS；Matheson &Winkler，1976）、CRPS 总和（Salinas 等人，2019）（CRPS 的多元概括）和能量得分（Gneiting & Raftery，2007）对估计分布进行评分），正如文献中的标准。我们进一步比较了一些使用负对数似然（NLL）的模型，发现它在检测多变量依赖性建模中的错误方面更有效（Marcotte et al., 2023）。 App 中提供了实验详细信息。 C。

预测基准：我们将 TACTiS-2 与以下最先进的多元概率预测方法进行比较：GPVar（Salinas 等人，2019），一种基于 LSTM 的方法，可参数化高斯联结函数； TempFlow（Rasul 等人，2021b），一种使用变压器对流进行参数化标准化的方法； TimeGrad (Rasul et al., 2021a)，一种基于去噪扩散的自回归模型；和随机过程扩散（SPD）（Biloˇs 等人，2023），这是唯一一种使用随机过程作为扩散噪声源将时间序列建模为连续函数的通用方法。此外，我们还包括以下经典预测方法，这些方法往往是强基线（Makridakis 等人，2018a；b；2022）：ARIMA（Box 等人，2015）和 ETS 指数平滑（Hyndman 等人，2008）。

在这里插入图片描述
CRPS-Sum 结果报告在表 2 中。 1. 显然，TACTiS-2 显示了最先进的性能，在 5 个数据集中的 4 个上实现了最低值，但在流量方面略优于 TACTiS。从平均排名来看，这是通用预测工具性能的良好指标，我们发现 TACTiS-2 优于所有基线，TACTiS 是其最接近的竞争对手。为了进一步对比这两者，我们对 NLL 进行了比较，并在表 1 中报告了结果。如图 2 和图 1 所示。我们观察到 TACTiS-2 的性能优于 TACTiS，此外，5 个数据集（包括流量）中的 3 个数据集的置信区间没有重叠。这是 TACTiS-2 更好地捕获多变量依赖关系的有力证据（Marcotte 等人，2023），考虑到对注意力连接函数的拟议改进，这是合理的。所有其他指标的结果均与上述结果一致，并在 App 中报告。 A2。

训练动态：如第 2 节所述。如图 3 所示，TACTiS-2 解决的优化问题比 TACTiS 解决的优化问题简单得多。我们通过测量训练直至收敛到预测基准所需的浮点运算 (FLOP) 数量来量化这一点（参见表 2）。从这些结果可以明显看出，TACTiS-2 比 TACTiS 实现了更高的精度，同时使用的计算量少得多。作为改进训练动态的额外证据，我们报告了在验证集上比较 NLL 的训练曲线，以及 TACTiS-2、TACTiS 和不使用两阶段课程的 TACTiS-2 消融的训练 FLOP。。 kdd-cup 数据集的结果如图 4 所示，其他数据集的结果可在 App 中找到。 A.3. 由此，我们得出两个结论：(i) TACTiS-2 更快地收敛到更好的解决方案，(ii) 两阶段课程对于 TACTiS-2 的成功至关重要。
在这里插入图片描述
图 4：TACTiS-2 使用比 TACTiS 更少的 FLOP 收敛到更好的 NLL，并且无需两阶段课程即可联合训练所有参数。垂直条表示 5 次运行的最新收敛点，最长持续时间为三天。

插值性能：虽然 TACTiS 和 TACTiS-2 都能够进行插值，但表 1 中报告的结果。 3 表明 TACTiS-2 在这项任务上表现得更好。图 5a 对此进行了说明，其中显示了 TACTiS-2 产生比 TACTiS 更合理的插值分布的示例。 App 中提供了更多示例。 A.5.

表 3：插值实验的平均 NLL 值。标准误差使用 Newey-West (1987; 1994) 估计器计算。越低越好，最好的结果以粗体显示。

在这里插入图片描述

模型灵活性：与 TACTiS 一样，TACTiS-2 架构支持由采样频率不均匀的未对齐序列组成的异构数据集。我们通过重复 Drouin 等人的实验来说明这一点。（2022）其中包括预测具有不规则间隔观测值的二元噪声正弦过程。图 5b 中的结果表明，TACTiS-2 在此设置下忠实地执行预测，保留了 TACTiS 的灵活性。 App 中提供了真实世界数据集的其他结果。 D.1.

六、 RELATED WORK

概率时间序列预测的深度学习：该领域之前的大部分工作都是针对预测任务。早期工作探索了循环神经网络和卷积神经网络在估计单变量预测分布中的应用（Rangapuram et al., 2018; Shih et al., 2019; Chen et al., 2020; de B´ezenac et al., 2020; Yanchenko & Mukherjee ，2020）。与当前工作更相关的是多元预测方法，我们根据第 2 节中概述的需求对其进行审查。 1. 许多此类工作缺乏对任意联合分布进行建模的灵活性。例如，DeepAR（Salinas 等人，2020）使用 RNN 使用选定的参数形式（例如高斯）对关节密度的自回归分解进行参数化。类似地，GPVar（Salinas 等人，2019）使用 RNN 来参数化联合分布的低秩高斯 copula 近似。吴等人。（2020）依靠对抗性稀疏变换器来估计预测分布的条件分位数，但没有对完整的联合密度进行建模。其他方法通过实现任意分布的估计来放宽此类限制。例如，TempFlow（Rasul 等人，2021b）使用 RNN 和转换器（Vaswani 等人，2017）来参数化多元归一化流（Papamakarios 等人，2021）。 TimeGrad（Rasul 等人，2021a）使用以 RNN 为条件的去噪扩散模型（Ho 等人，2020；Sohl-Dickstein 等人，2015）对一步预测联合分布进行建模。然而，上述所有方法都缺乏处理未对齐/不均匀采样序列、缺失数据的灵活性，并且仅限于预测。

最近，多项工作朝着我们的愿望取得了进展。其中，我们已经广泛描述的 TACTiS (Drouin et al., 2022) 和在扩散过程中使用随机过程作为噪声源的 SPD (Biloˇs et al., 2023) 是唯一满足所有这些要求的方法。另一种方法是 CSDI（Tashiro 等人，2021），它依赖于使用自监督插值目标训练的基于条件评分的扩散模型，支持预测和插值。但是，它无法从未对齐的时间序列中学习。类似地，SSSD（Alcaraz & Strodthoff，2023）是一种依赖结构化状态空间模型（Gu et al., 2022）作为内部层的条件扩散模型，可以执行预测和插值，但不支持未对齐和不均匀采样时间序列。

用于概率预测的 Copula：基于 Copula 的多元预测模型已在经济和金融领域得到广泛研究（Patton，2012；Gróßer &Okhrin，2021），其应用包括对财务回报和波动性进行建模（Bouy´e & Salmon，2009） Bouy´e 等人，2008；2020）。常见的半参数方法包括将参数联结（例如阿基米德）与边际 CDF (ECDF) 的非参数经验估计相结合。一个著名的例子是 Salinas 等人的工作。 (2019)，它将 ECDF 与动态参数化高斯 copula 的 RNN 结合起来。这种方法的一个关键限制是 ECDF 估计仅对平稳过程有效。摆脱这种假设，Wen & Torkkola (2019) 提议除了高斯联结函数之外还使用神经网络来对 CDF 进行建模。然而，高斯连接函数的选择仍然是我们力求避免的强参数假设。与我们的工作更接近的是放宽此类参数假设的方法，例如 Krupskii & Joe (2020)；梅耶尔和维德 (2021)；图博等人。（2019）；德鲁因等人。（2022）。图博等人。 (2019) 使用历史数据来估计基于直方图的非参数联结函数。这种方法的一个关键警告是它假设历史数据是独立且同分布的。最后，与我们最相似的工作是 Drouin 等人的非参数方法。（2022），正如广泛描述的那样，我们对其进行了显着简化和改进。

机器学习中的 Copulas：除了时间序列之外，Copula 已应用于各种机器学习问题，例如域适应（Lopez-Paz 等人，2012）、变分推理（Tran 等人，2015；Hirt 等人，2019））、学习解缠结表示（Wieser et al., 2018）、依赖寻求聚类（Rey & Roth, 2012）和生成建模（Sexton et al., 2022；Tagasovska et al., 2019；Wang & Wang, 2019）。因此，我们强调我们提出的基于变压器的非参数联结函数适用于时间序列之外的领域，并回顾了两项密切相关的工作。首先，Janke 等人。 (2021) 提出了一种学习非参数 copula 的方法，该方法使用生成对抗网络 (Goodfellow et al., 2014) 来学习单位立方体上的潜在分布。然后使用其 ECDF 将此分布转换为有效的 copula 分布。与我们完全可微的方法相反，他们对 ECDF 的依赖导致了不可微的目标，必须在训练过程中对其进行近似。其次，维泽等人。（2019）使用标准化流对边际和联接函数进行参数化，从而产生一种完全可微分的方法。然而，他们专注于双变量情况，并依靠 vine copula 将他们的方法扩展到多元 copula，这是我们的方法不需要的。

七、 DISCUSSION

这项工作介绍了 TACTiS-2，这是一种用于多元概率时间序列预测的通用模型，它将 Transformer 的灵活性与学习基于注意力的非参数联结函数的新方法相结合。 TACTiS-2 确立了自己作为新的最先进模型的地位，用于对多个现实世界数据集进行预测，同时显示出比其前身 TACTiS 更好的训练动态。这种优越的性能主要归功于其简化的优化过程，这最终使其能够达到更好的解决方案，特别是更好的联结。 TACTiS-2 的性能通过使用双编码器进一步增强，该编码器学习专门针对每个分布式组件的表示。

TACTiS-2 可以通过多种方式进行改进。例如，将特定于时间序列数据的归纳偏差纳入架构中会很有趣，例如，使用傅里叶特征来学习高频模式（Woo et al., 2022），以及注意层中的自相关机制（吴等人，2021）。接下来，TACTiS-2 由于使用边缘分布的标准化流而仅限于处理连续数据。这一限制可以通过在之前的工作（Tran et al., 2019；Ziegler & Rush, 2019）的基础上进行调整来解决，以适应标准化流以处理离散分布。最后，需要注意的是，对于所有相关工作（Wiese et al., 2019; Drouin et al., 2022; Janke et al., 2021），TACTiS-2 学习的非参数联结函数在极限内有效无限的数据和容量。作为未来的工作，在有限样本和非凸优化环境的设置中研究这些有效联结函数方法的收敛特性将会很有趣。

除了这项工作的范围之外，还有一些有趣的设置可以进一步研究 TACTiS-2 的功能。所提出的将边际分布和依赖结构完全解耦的形式对于处理分布变化特别有用，这在现实世界的时间序列中很常见（Yao et al., 2022; Gagnon-Audet et al., 2023）。这种解耦允许在分布转移的情况下单独理解边际分布或依赖结构或这两个因素的变化，从而允许适当地调整模型。接下来，研究 TACTiS-2 在特定领域的几个相关时间序列上的大规模训练将会很有趣，其中可以为每个序列训练边缘分布，同时可以共享注意 copula 组件。最后，利用 TACTiS-2 的灵活性进行多任务预训练将会很有趣，该模型在预测、插值和插补等多个概率预测任务上进行联合训练，并且可以用作下游的通用模型。 TACTiS-2 的此类扩展构成了时间序列基础模型（Bommasani 等人，2021）的令人兴奋的方向。