Unified Training of Universal Time Series Forecasting Transformers-CSDN博客

系列文章目录

通用时间序列预测变压器的统一训练 ICML2024

文章目录

系列文章目录
摘要
一、引言
二、相关工作
三、方法
四、实验
五、结论

摘要

用于时间序列预测的深度学习传统上在每个数据集一个模型的框架内运行，限制了其利用大型预训练模型改变游戏规则的影响的潜力。通用预测的概念源于对大量时间序列数据集的预训练，设想了一个能够解决不同下游预测任务的单一大型时间序列模型。然而，构建这样的模型对时间序列数据提出了独特的挑战：i）跨频率学习，ii）为多元时间序列容纳任意数量的变量，以及iii）解决大规模数据固有的不同分布特性。为了应对这些挑战，我们对传统时间序列 Transformer 架构进行了新颖的增强，从而提出了基于 Masked EncOder 的通用时间序列预测 Transformer (MOIRAI)。 MOIRAI 在我们新推出的大规模开放时间序列存档 (LOTSA) 上进行训练，该模型具有跨九个领域超过 27B 的观测数据，与全样本模型相比，MOIRAI 作为零样本预测器实现了具有竞争力或卓越的性能。代码、数据和模型权重可以在。https://github.com/SalesforceAIResearch/uni2ts.

一、引言

在基础模型 (FM) 时代（Bommasani 等，2021），时间序列预测的深度学习领域正在经历一场革命。与能够处理大量下游任务的 FM 相比，当前的深度预测范式（涉及在具有固定上下文和预测长度的单个数据集上训练模型）似乎越来越过时，缺乏泛化或适应不同场景的能力，或者数据集。鉴于大型预训练模型通过视觉和语言等模式的迁移学习在提高性能和数据效率方面具有不合理的有效性（Dosovitskiy 等人，2020 年；Brown 等人，2020 年），我们开始看到转型的推动力远离现有范式，转向通用预测范式（见图 1），其中单个大型预训练模型能够处理任何时间序列预测问题。然而，构建通用时间序列预测模型的道路充满了挑战。

与视觉和语言模态分别具有图像和文本的统一格式不同，时间序列数据具有高度异构性。首先，时间序列的频率（例如每分钟、每小时、每天的采样率）在确定时间序列中存在的模式方面起着重要作用。由于负面干扰，跨频率学习已被证明是一项具有挑战性的任务（Van Ness 等人，2023），现有工作只是通过为每个频率学习一个模型来避免多频率数据集的这一问题（Oreshkin 等人， 2020）。其次，时间序列数据在维度上是异构的，因此多元时间序列可以具有不同数量的变量。此外，每个变量测量数据集中语义上不同的数量。虽然独立考虑多元时间序列的每个变量（Nie 等人，2023；Ekambaram 等人，2023）可以回避这个问题，但我们期望通用模型足够灵活，可以考虑多变量相互作用并考虑外生协变量。第三，概率预测是从业者经常需要的一个关键功能，但是，不同的数据集具有不同的支持和分布属性 - 例如，使用对称分布（例如正态分布、Student-T），因为预测分布不适合正时间序列 – 使预定义简单参数分布的标准方法（Salinas 等人，2020）不够灵活，无法捕获各种数据集。最后，能够进行通用预测的大型预训练模型需要来自不同领域的大规模数据集。现有的时间序列数据集不足以支持此类模型的训练。

在这里插入图片描述

图 1。通用预测器是一个大型的预训练模型，能够处理任何时间序列预测问题。它是在跨多个领域的大规模时间序列数据集上进行训练的。与现有范式相比，通用预测面临三个关键问题：i）多频率，ii）任意变量预测，iii）变化分布。

表 1. 预训练预测模型之间的比较。关于“灵活分配”概念的进一步讨论可以在附录 B.3 中找到。
在这里插入图片描述
从屏蔽编码器架构开始，该架构已被证明是扩展预训练时间序列预测模型的强大候选架构（Woo 等人，2023），我们通过引入新颖的修改来缓解上述问题，该修改允许该架构处理任意时间序列数据的异质性。首先，我们建议学习多个输入和输出投影层来处理不同频率的时间序列中的不同模式。使用基于块的投影，对高频数据使用较大块尺寸，反之亦然，投影层专门用于学习该频率的模式。其次，我们通过提出的任意变量注意力解决了维度变化的问题，该注意力同时将时间轴和变量轴视为单个序列，利用旋转位置嵌入（RoPE）（Su et al., 2024），并学习了二元注意力偏差（Yang et al., 2022b）分别对时间轴和变量轴进行编码。重要的是，任意变量注意力允许模型将任意数量的变量作为输入。第三，我们克服了需要具有混合参数分布的灵活预测分布的问题。此外，优化灵活分布的负对数似然具有与目标度量优化竞争的额外好处（Awasthi 等人，2022），这是预训练通用预测器的一个强大功能，因为它可以用任何随后的目标指标。

为了支持大型时间序列模型 (LTM) 的训练，我们引入了大规模开放时间序列档案 (LOTSA)，这是最大的开放时间序列数据集集合，包含跨 9 个域的 27B 观测值。我们优化了混合分布的负对数似然，并在训练期间随机采样上下文和预测长度，从而允许下游灵活使用预训练模型。我们训练了我们提出的方法，即基于 Masked EncOder 的通用时间序列预测变压器 (MOIRAI1)，它具有三种尺寸：MOIRAISmall、MOIRAIBase 和 MOIRAILarge，参数分别为 14m、91m 和 311m。我们对分布内和分布外的设置进行了实验评估，结果表明，与最先进的全镜头基线相比，MOIRAI 始终能够实现具有竞争力或优越的性能。我们的贡献总结如下：

1.我们引入了一种新颖的 Transformer 架构来支持通用预测的要求。至关重要的是，我们建议的组件超出了屏蔽编码器的范围，而且用途广泛，适用于各种 Transformer 变体。
2.我们引入了LOTSA，一个新的大规模开放时间序列数据集集合，用于支持LTM的预训练。 LOTSA、模型权重以及我们用于统一训练通用时间序列模型的库 UNI2TS 将完全开源。
3. 经过 LOTSA 数据的训练，与全样本模型相比，MOIRAI 作为零样本预测器实现了具有竞争力或优越的性能。

二、相关工作

零样本预测的预训练表 1 总结了具有零样本预测功能的最新预训练模型之间的主要差异，这是一个最近新兴的领域。 TimeGPT-1（Garza 和 MergenthalerCanseco，2023）首先提出了一个闭源模型，提供零样本预测功能并支持通过 API 进行微调，目前仅对其测试版用户可用。 ForecastPFN（Dooley 等人，2023）建议对合成时间序列进行预训练，随后可以将其用作零样本预测器，尽管专门用于数据或时间有限的设置。 Lag-llama (Rasul et al., 2023) 致力于时间序列预测的基础模型，利用具有滞后时间序列特征的 LLaMA (Touvron et al., 2023) 架构设计，并提出了时间序列预测的神经缩放法则。 TimesFM（Das 等人，2023b）是一种用于时间序列预测的基于补丁的仅解码器基础模型，引入了更大的输出补丁大小以加快解码速度。他们从 Google 趋势和 Wiki 页面浏览量中收集了大量数据，并结合开放数据来预训练他们的模型。 Tiny Time Mixers (TTM) (Ekambaram et al., 2024) 是一项利用轻量级混合器式架构的并发工作。它们通过对高频时间序列进行下采样来执行数据增强，并通过微调外源混合器来支持多变量下游任务。利用大型语言模型 (LLM)，在网络规模文本数据上进行预训练，已用于零样本预测。具体来说，LLMTime（Gruver 等人，2023）将时间序列视为字符串，根据特定的 LLM 标记器进行仔细的预处理，表明 LLM 具有执行零样本预测的固有能力。

时间序列预测的预训练+微调预训练以及随后对下游预测任务的微调早于最近的零样本预测工作。去噪自动编码器（Zerveas 等人，2021）和对比学习（Yue 等人，2022；Woo 等人，2022）已被证明是时间序列预测的有效借口任务，但在很大程度上已应用于现有范式在同一数据集上进行预训练和微调，而不探索它们的泛化能力。最近，Dong 等人。 (2023) 探索了将重建和基于对比的预训练方法相结合，并对跨数据集传输进行了初步探索。这个话题已经得到了很好的探讨，我们建议读者参考更全面的调查（Zhang et al., 2023; Ma et al., 2023）。 “重新编程”是最近的一个方向，涉及微调已在文本数据上预先训练的法学硕士的模型权重，以用于其他模式的下游任务。周等人。（2023）；金等人。 (2023) 引入模块和微调方法，使法学硕士适应包括预测在内的时间序列任务。刘等人。 (2024) 探索了在跨数据集设置上利用预先训练的法学硕士。

三、方法

问题表述考虑 N 个时间序列的数据集 $\mathcal{D}=\{(\boldsymbol{Y}^{(i)},\boldsymbol{Z}^{(i)})\}_{i=1}^{N},$ ，其中 $\boldsymbol{Y}^{(i)}=$ $(\boldsymbol{y}_1^{(i)},\boldsymbol{y}_2^{(i)},\ldots,\boldsymbol{y}_{T_i}^{(i)})\in\mathbb{R}^{d_{y_i}\times T_i}$ 是 $d_{y_{i}}$ 变量和 $T_{i}$ 时间步长的目标时间序列。每个时间序列都与一组协变量 $\boldsymbol{Z}^{(i)}=(\boldsymbol{z}_{1}^{(i)},\boldsymbol{z}_{2}^{(i)},\ldots,\boldsymbol{z}_{T_{i}}^{(i)})\in$ $\mathbb{R}^{{d_{z}}_{i}\times T_{i}}$ 相关联。目标是通过学习模型 $f_{\theta}$ 预测分布参数 $\phi $来预测预测分布 $p(\boldsymbol{Y}_{t:t+h}|\phi)$ ： $(\boldsymbol{Y}_{t-l:t},\boldsymbol{Z}_{t-l:t+h})\mapsto\hat{\phi}$ 最大化对数似然：
在这里插入图片描述
其中 $p(\mathcal{D})$ 是对时间序列 (Y, Z) 进行采样的数据分布， $p(\mathcal T|\mathcal{D})$ 是定义回溯窗口的任务分布， $\boldsymbol{Y}_{t-l:t}=(\boldsymbol{y}_{t-l},\ldots,\boldsymbol{y}_{t-1})$ ，上下文长度为 l ，预测范围为 $\boldsymbol{Y}_{t:t+h}=(\boldsymbol{y}_t,\ldots,\boldsymbol{y}_{t+h-1})$ ，预测长度为 h。

3.1. Architecture

如图 2 所示，MOIRAI 采用（非重叠）基于补丁的方法，使用屏蔽编码器架构对时间序列进行建模。我们提出的将架构扩展到任意变量设置的修改之一是“展平”多元时间序列，将所有变量视为单个序列。随后通过多补丁大小输入投影层将补丁投影为矢量表示。 [mask] 表示可学习的嵌入，它取代了预测范围内的补丁。然后通过多补丁大小输出投影将输出标记解码为混合分布的参数。虽然没有可视化，但（不可学习的）实例标准化（Kim et al., 2022）应用于输入/输出，与深度预测模型的当前标准实践保持一致。

核心 Transformer 模块是仅编码器的 Transformer 架构，利用最新最先进的 LLM 架构提出的各种改进。我们使用预归一化（Xiong et al., 2020）并将所有 LayerNorm 替换为 RMSNorm（Zhang & Sennrich, 2019），并且还应用查询键归一化（Henry et al., 2020）。 FFN 层中的非线性被 SwiGLU 替换（Shazeer，2020），调整隐藏维度以具有与原始 FFN 层相同数量的参数。我们忽略了 Transformer 模块所有层中的偏差。

3.1.1. MULTI PATCH SIZE PROJECTION LAYERS

在通用预测的背景下，单一模型应该具备处理跨越各种频率的时间序列的能力。现有的基于补丁的架构依赖于单个补丁大小的超参数，这是流行的每个数据集一个模型范式的遗留功能。相反，我们的目标是一种更灵活的策略：选择更大的补丁大小来处理高频数据，从而降低注意力的二次计算成本的负担，同时保持较长的上下文长度。同时，我们主张低频数据使用更小的补丁大小，以将计算转移到 Transformer 层，而不是仅仅依赖简单的线性嵌入层。为了实现这种方法，我们建议学习多个输入和输出嵌入层，每个嵌入层与不同的补丁大小相关。给定时间序列频率的适当补丁大小的选择取决于预定义的设置（参见附录 B.1）。请注意，我们只学习每个块大小的一组投影权重，如果根据设置存在重叠，则该权重在频率之间共享。

在这里插入图片描述
图 2. MOIRAI 的整体架构。可视化是一个 3 变量时间序列，其中变量 0 和 1 是目标变量（即要预测的变量），变量 2 是动态协变量（预测范围内的值已知）。基于 64 的补丁大小，每个变量都被补丁分为 3 个标记。补丁嵌入以及序列和变量 id 被馈送到 Transformer 中。阴影补丁表示要预测的预测范围，其相应的输出表示被映射到混合分布参数中。

3.1.2. ANY-VARIATE ATTENTION

通用预报器必须具备处理任意多变量时间序列的能力。现有的时间序列变压器通常依赖于独立变量假设，或者由于嵌入映射 $\mathbb{R}^{d_y}\to\mathbb{R}^{d_h}$ 的层而被限制在单维，其中 $\mathbb{R}^{d_h}$ 是隐藏的维。我们克服了这一限制，如图2所示，通过将多变量时间序列扁平化以将所有变量视为单个序列。这引入了具有变量编码的新要求，以使模型能够消除序列中不同变量之间的歧义。此外，我们还需要确保排列等价性w.r.t.变量排序和排列不变性w.r.t.变量指数受到尊重。像正弦或学习嵌入这样的传统方法不能满足这些要求，并且不能处理任意数量的变量。为了解决这个问题，我们提出了任何变量的注意，利用二元注意偏差来编码变量指数。

删除层和注意力头索引，以及为了简洁起见的缩放因子，第 (i,m) 个查询之间的注意力分数，其中 i 表示时间索引，m 表示变量索引，以及第 (j, n) 个键， $A_{ij,mn}\in\mathbb{R},$ ，由下式给出：
在这里插入图片描述
其中 $W^Qx_{i,m},W^Kx_{j,n}\in\mathbb{R}^{d_h}$ 分别是查询向量和关键向量， $\boldsymbol{R}_{i-j}\in\mathbb{R}^{d_{h}\times d_{h}}$ 是旋转矩阵 (Su et al., 2024)， $u^{(1)},u^{(2)}\in\mathbb{R}$ 是可学习的每层中每个头的标量，如果 cond 0，则 1{cond} = 1，否则是指示函数 $\left.\mathbb{I}_{\{\mathrm{cond}\}}=\left\{\begin{array}{l}{1,\mathrm{if~cond}}\\{0,\mathrm{otherwise}}\\\end{array}\right.\right.$ 。二元注意力偏差组件允许通过注意力分数消除变量之间的歧义，满足排列等方差/不变性的标准。变量排序/索引，并且可以扩展到任意数量的变量。

3.1.3. MIXTURE DISTRIBUTION

为了实现灵活分布的目标，同时确保采样和评估损失函数的操作保持简单，我们建议使用参数分布的混合。 c 分量的混合分布的 p.d.f.：
在这里插入图片描述
其中 $\hat{\phi}=\{w_1,\hat{\phi}_1,\ldots,w_c,\hat{\phi}_c\}$ 是第 i 个分量的 p.d.f。虽然混合分量的选择很灵活并且实现参数分布的任意组合也很简单，但我们特别建议使用以下混合分量：i) 学生 t 分布，它已被证明是一般时间序列的稳健选项，ii) 正计数数据的负二项式分布，iii) 对数正态分布，用于对经济和自然现象中常见的右偏数据进行建模，以及 iv) 用于高置信度预测的低方差正态分布。更多详细信息请参见附录 B.2。

在这里插入图片描述

3.2. Unified Training

3.2.1. LOTSA DATA

现有工作主要依赖于三个主要数据源——Monash 时间序列预测档案（Godahewa 等人，2021）、GluonTS 库提供的数据集（Alexandrov 等人，2020）以及来自流行的长序列预测的数据集基准（Lai 等人，2018；Wu 等人，2021）。虽然 Monash 和 GluonTS 包含来自不同领域的数据集，但它们的大小受到限制，总共约有 1B 个观测值。相比之下，法学硕士接受了数万亿代币的培训。达斯等人。 (2023b) 主要基于 Google 趋势和 Wiki 页面浏览量构建了一个私有数据集，但在这些时间序列源自的领域方面缺乏多样性。

FM 的有效性很大程度上源于大规模的预训练数据。鉴于现有数据源不足以支持这种范式，尝试在其上训练 LTM 可能会导致误导性的结论。因此，我们通过整理公开可用的时间序列数据集来源来构建开放时间序列数据集的大规模档案，以正面解决这个问题。这项工作旨在覆盖广泛的领域，整合来自不同来源、不同格式的数据集。我们使用 Arrow (Richardson et al., 2023) 设计了一种统一的存储格式，为深度学习管道做好了准备。由此产生的集合 LOTSA 跨越九个领域，总共有 27、646、462、733 个观测值，关键统计数据见表 2 和表 3，详细信息见附录 A。

3.2.2. 预训练

正如等式（1）中所介绍的，我们的预训练任务被制定为优化混合分布对数似然。数据分布和任务分布的设计是预训练管道的两个关键方面。这种设计赋予我们的 LTM 多种功能，使其能够适应一系列下游任务。这种灵活性与流行的深度预测范式形成鲜明对比，其中模型通常专门针对特定的数据集和设置。

数据分布数据分布 (Y, Z) ∼ p(D) 定义了如何从数据集中对时间序列进行采样。在 LOTSA（数据集的数据集）上进行训练，我们引入了子数据集的概念，通过将数据分布分解为子数据集分布，以及以子数据集为条件的时间序列分布，p(D) = $p(\mathbf{Y},\mathbf{Z}|\mathbf{D})p(\mathbf{D}).$ 。因此，我们首先从 p(D) 中采样一个子数据集，并给定该子数据集，我们对一个时间序列进行采样。对于K个子数据集，其中Dk表示属于子数据集k的时间序列索引集合，结构为 $p(\boldsymbol{Y}^{(i)},\boldsymbol{Z}^{(i)}|\boldsymbol{D}_{k})=\frac{T_{i}*\mathbb{1}_{{\{i\in\boldsymbol{D}_{k}\}}}}{\sum_{{j\in\boldsymbol{D}_{k}}}T_{j}},$ 与观测值的数量成比例，很简单。

然而，由于跨域和频率的数据不平衡，我们避免按比例采样子数据集，而是在重新归一化之前将每个子数据集的贡献限制在 ϵ = 0.001： $p(\boldsymbol{D}_{k})=\frac{\omega_{k}}{\sum_{i=1}^{K}\omega_{i}}$ ，其中 $\omega_{k}=\operatorname*{min}(\frac{|\boldsymbol{D}_{k}|}{\sum_{i}^{K}|\boldsymbol{D}_{i}|},\epsilon),\mathrm{~and~}|\boldsymbol{D}_{k}|=\sum_{i\in\boldsymbol{D}_{k}}T_{i}.$

任务分布与现有的深度预测范式不同，我们的目标是训练一个具有不同上下文和预测长度的预测能力的模型。我们不是定义固定的上下文和预测长度，而是从任务分布 (t, l, h) ∼ p(T|D) 中采样，它定义了给定时间序列的回溯窗口和预测范围。在实践中，我们不是在给定时间序列的情况下对 t、l、h 进行采样，而是裁剪一个均匀采样的窗口，其长度是从一个范围内均匀采样的。该范围由每个变量的最小序列长度 2 和总最大序列长度 512 定义。然后将窗口分为回溯段和水平段，其中预测长度按比例均匀采样（在范围 [0.15 内），0.5]）的窗口。我们通过以下方式进一步增强训练：i）在变量维度中对多元时间序列进行均匀子采样，ii）通过随机连接它们，从具有单变量时间序列的子数据集构建多元时间序列。变量数量是从参数 n = 128、a = 2、b = 5 的 beta 二项式分布中采样的，最多支持 128 个变量，效率均值 ≈ 37。
表 4. MOIRAI 模型尺寸的详细信息。
在这里插入图片描述
图 3. 莫纳什时间序列预测基准的汇总结果。报告归一化 MAE，它通过朴素预测的 MAE 对每个数据集的 MAE 进行归一化，并通过跨数据集的几何平均值进行聚合。

训练我们训练 MOIRAI 三种尺寸——小型、基础和大型，关键参数详细信息如表 4 所示。小型模型训练 100, 000 步，而基础和大型模型训练 1, 000, 000 步，批量大小为 256。为了优化，我们使用具有以下超参数的 AdamW 优化器：lr = 1e-3，权重衰减 = 1e-1，β1 = 0.9，β2 = 0.98。我们还应用了学习率调度程序，在前 10, 000 个步骤中进行线性预热，然后进行余弦退火。模型在具有 TF32 精度的 NVIDIA A100-40G GPU 上进行训练。我们实现序列打包（Raffel et al., 2020），以避免由于新设置中的序列长度差异而导致上下文、预测和变量长度变化而导致的大量填充，从而增加有效批量大小。

四、实验

4.1. In-distribution Forecasting

我们首先使用 Monash 基准进行分布内评估，旨在衡量跨不同领域的泛化能力。如附录 A 中所述，LOTSA 包括 Monash 时间序列预测档案作为数据源。对于这些数据集的很大一部分，我们只包含训练集，保留我们现在用于分布内评估的测试集。在此评估中，我们考虑的标准设置是，上下文长度为 1000，所有频率的块大小为 32（块大小为 8 的季度数据除外）。图 3 总结了基于归一化平均绝对误差的结果（ MAE），与莫纳什基准中提出的基线进行比较。值得注意的是，Monash 基准测试中的每个基线通常是针对每个数据集或数据集中的每个时间序列单独进行训练的。相比之下，MOIRAI 的突出之处在于它是跨各种数据集进行评估的单一模型。完整结果以及与 LLMTime（Gruver 等人，2023）的比较可在附录 D.1 中找到。

我们观察到，无论模型大小如何，MOIRAI 都优于 Monash 基准的所有基线，显示出我们统一训练方法带来的强大的分布内和跨域能力。我们强调，与每个数据集训练一个模型的基线相比，MOIRAI 的每个实例都是跨数据集评估的单个模型。对计算成本的进一步分析可以在附录 D.4 中找到。

4.2. Out-of-distribution / Zero-shot Forecasting分布外/零样本预测

接下来，我们对未见过的目标数据集进行分布外评估。在这里，与在各个目标数据集上进行训练的最先进的全样本基线相比，MOIRAI 是一个零样本预测器。虽然理想的情况是包括其他通用预测器，但这被证明是一项具有挑战性的任务。作为一个新兴领域，大多数通用预测者目前还没有可供评估的开放权重。此外，由于没有标准的保留测试分割，比较零样本方法的问题变得更加严重，这使得整理一组所有模型都没有经过训练的数据集变得困难。因此，我们通过显示与 SOTA 全样本方法相比有竞争力或更强的结果来建立 MOIRAI 强大的零样本能力 - 以下使用的数据集尚未包含在 LOTSA 中。

概率预测我们按照步长等于预测长度的滚动评估设置，对能源、运输、气候和销售领域的六个数据集进行评估。根据频率为每个数据集定义预测长度和滚动评估数量。我们报告了连续排名概率得分 (CRPS) 和平均尺度区间得分 (MSIS) 指标（附录 C 中的定义），并与四个完整基线进行比较——DeepAR（Salinas 等人，2020）、PatchTST（Nie 等人，2020）。，2023），以及带有 Student t 分布预测头的 TiDE（Das 等人，2023a），以及基于分位数预测的 TFT（Lim 等人，2021），全部通过 GluonTS 库实现（Alexandrov 等人，2020）），以及简单的基线 AutoARIMA（Garza 等人，2022）和 Seasonal Naive（Hyndman 和 Athanasopoulos，2018）。对于每个数据集和基线，我们对验证 CRPS 执行超参数调整，并报告使用不同种子进行五次训练运行的平均结果。对于 MOIRAI，我们在验证 CRPS 上执行推理时间调整，从 {1000, 2000, 3000, 4000, 5000} 中选择上下文长度，并根据频率选择补丁大小。评估设置的完整详细信息可以在附录 C 中找到。
表 5. 概率预测结果。最佳结果以粗体突出显示，次佳结果加下划线。基线结果通过使用不同种子的五次训练运行进行汇总，报告平均值和标准偏差。
在这里插入图片描述表 6. 长序列预测结果。结果在预测长度 {96, 192, 336, 720} 上取平均值。最佳结果以粗体突出显示，次佳结果加下划线。完整结果来自 Liu 等人。（2023b）。

表 5 报告了 CRPS 和 MSIS，以及附录 D.2 中的完整结果，包括确定性指标。我们观察到 MOIRAIBase 和 MOIRAILarge 始终实现强大的零样本性能，在除 Walmart 和 Istanbul Traffic 之外的所有数据集上获得最佳或次佳结果。即使对于这些数据集，尽管与在训练集上调整和训练的基线相比是单个零样本模型，但性能仍然接近最佳性能。

长序列预测我们对流行的长序列预测基准的子集进行评估（Wu et al., 2021），省略了预训练数据中存在来自同一源的数据集且不能被视为零样本的数据集。我们报告均方误差 (MSE) 和 MAE，与六个最先进的基线进行比较：iTransformer (Liu et al., 2023b)、TimesNet (Wu et al., 2023)、PatchTST、Crossformer (Zhang & Yan, 2023）、TiDE、DLinear（Zeng 等人，2023）、SCINet（Liu 等人，2022）和 FEDformer（Zhou 等人，2022b）。点预测是通过从预测分布的样本中取中值从 MOIRAI 获得的。 MOIRAI 的调整基于跨预测长度的平均验证 MSE，进一步包括低维度数据集（ETT 和天气）的通道独立策略和通道混合策略之间的选项（Nie 等人，2023）。

表 6 报告了整个预测长度的平均性能，完整结果见附录 D.3。我们观察到，与全镜头基线相比，MOIRAI 取得了强劲的结果。虽然 MOIRAIBase 在各个数据集上始终如一地实现了强大的性能，无论是最佳性能还是第二佳性能，大型模型的一致性较差，结果稍弱但具有竞争力。在这种情况下，性能和模型大小之间的关系很脆弱，但这并不构成反对扩展潜力的有力证据，因为这些结果是基于在固定数据集大小和设置上训练的模型。相反，这需要针对 LTM 制定更全面的神经标度法则（Kaplan et al., 2020），以更深入地了解其标度行为。

4.3. 消融研究

架构我们从默认的 MOIRAISmall 开始，在表 7 中执行了一系列消融。首先，我们消除了多补丁大小组件，通过在训练期间允许任何频率具有任何补丁大小来消除约束，并且还简单地将补丁大小固定为 32。在这两种情况下，我们观察到归一化 MAE 的恶化。删除任意变量注意力并使用加性学习嵌入（在训练期间随机化变量索引以鼓励排列不变性）会导致次优结果，从而展示了任意变量注意力的强度。当用学生 t 分布替换混合分布时，我们看到了类似的恶化，并进一步可视化了图 4 中概率预测的灵活分布的必要性。

表 7. Monash 基准的消融研究。报告了聚合归一化 MAE，其计算方法与图 3 类似。
在这里插入图片描述

图 4. MOIRAISmall 的两个变体在每小时流量数据集上的概率预测可视化。这两个模型都预测峰值，但是，学生 t 分布具有对称分布，给出了不适当的峰值预测区间，如红色突出显示。

训练方法我们通过仅在 GluonTS 和 Monash 数据集上训练 MOIRAISmall 来研究大型且多样化的数据集的影响，观察到数据的多样性对于跨域训练至关重要，甚至在分布内评估中也是如此。最后，在相同的批量大小和训练迭代次数的情况下，我们表明打包训练可以显着提高性能。这是因为，在计算量相同的情况下，打包会增加有效批量大小并增加模型训练的观测数量。

4.4. Further Analysis

上下文长度我们的预训练方法根据任务分配定义不同的上下文长度。我们通过在图 5 中可视化零样本设置下三个数据集的性能与增加上下文长度之间的关系来验证 MOIRAI 是否能够将任意上下文长度作为输入。曾等人。（2023）；刘等人。 (2023b) 之前观察到，随着上下文长度的增加而不断提高性能的需求在传统的基于 Transformer 的预测器中并不存在。在这里，我们观察到 MOIRAI 确实实现了这一期望的属性，事实上，能够处理数千个时间步。

在这里插入图片描述
图 5. 在 ETTm1、电力和天气数据集的验证集上，预测长度为 96、补丁大小为 32 时，性能 (MAE) 与上下文长度（对数刻度中的 x 轴）的关系图。

在这里插入图片描述
图 6. 根据建议的任务分布从 LOTSA 采样数据时的序列长度直方图。序列长度是指修补和展平后的令牌数量。

打包打包长期以来一直应用于训练 LLM 和其他基于 Transformer 的模型，但不适用于时间序列 Transformer。虽然在处理小规模数据时我们可以避免效率低下的问题，但当我们扩展到 FM 和 LTM 范式时，我们开始遭受更长的训练时间的困扰。我们的“扁平化”设置进一步加剧了这种情况，它增加了序列长度的差异。正如第 4.3 节所证明的，保持计算（批量大小、迭代等）恒定，打包可将性能提高 16%。为了理解为什么会出现这种情况，我们在图 6 中可视化序列长度分布。由于大部分数据比最大序列长度短，因此填充在未经打包训练的情况下占输入标记的比例高达 61.08%，而在经过打包训练时仅占 0.38%。我们的打包实现（经过 1000 多次迭代计算）。

五、结论

在这项工作中，我们引入了 MOIRAI，一种基于掩码编码器的通用时间序列预测 Transformer，它缓解了通用预测范式中面临的问题。我们还介绍了 LOTSA，这是用于预训练时间序列预测模型的最大开放数据集。 MOIRAI 在分布内和分布外设置上进行评估，并且能够进行概率和长序列预测。我们证明，作为零样本预测器，MOIRAI 与全样本模型相比，实现了具有竞争力或优越的性能。

局限性和未来的工作虽然 MOIRAI 在分布内和分布外都取得了惊人的表现，但这只是通用预测范式的第一步。由于资源限制，几乎没有进行超参数调整——可以应用 µP（Yang 等人，2022a）等高效调整技术。在架构方面，我们通过多块大小映射来处理跨频率学习的方法有点启发式，未来的工作应该设计一种更灵活和优雅的方法。此外，当前的架构对高维时间序列的支持有限，扩展 Transformer 输入长度的有效方法可以缓解这个问题。屏蔽编码器结构还使其适合探索潜在扩散架构（Feng et al., 2024）。在数据方面，LOTSA可以进一步增强，在域和频率方面具有更大的多样性。最后，结合表格或文本输入等多模态是通用预测开启的一个令人兴奋的新方向。