通用时间序列预测变压器的统一训练 Unified Training of Universal Time Series Forecasting Transformers

最新推荐文章于 2024-05-27 15:45:58 发布

数智笔记

最新推荐文章于 2024-05-27 15:45:58 发布

阅读量1.2k

点赞数 33

分类专栏：时间序列模型文章标签：时间序列

本文链接：https://blog.csdn.net/wjjc1017/article/details/138158594

版权

时间序列模型专栏收录该内容

17 篇文章 10 订阅

订阅专栏

通用时间序列预测变压器的统一训练

论文名称：Unified Training of Universal Time Series Forecasting Transformers

Github:https://github.com/SalesforceAIResearch/uni2ts

摘要

传统上，用于时间序列预测的深度学习在一个数据集对应一个模型的框架内运行，限制了其利用大型预训练模型带来的颠覆性影响的潜力。通用预测的概念源自于在大量时间序列数据集上进行预训练，设想了一个能够处理多样化下游预测任务的单一大型时间序列模型。然而，构建这样一个模型面临着特定于时间序列数据的独特挑战：i）跨频率学习，ii）适应多变量时间序列的任意数量，以及iii）解决大规模数据固有的不同分布特性。为了解决这些挑战，我们提出了对传统时间序列变压器架构的新颖增强，从而形成了我们提出的基于掩码编码器的通用时间序列预测变压器（MOIRAI）。在我们新引入的大规模开放时间序列存档（LOTSA）上进行训练，该存档跨越九个领域，包含超过27B个观测值，MOIRAI在与全样本模型相比作为零次预测器实现了具有竞争力或更优越的性能。

1. 引言

在基础模型（FMs）时代（Bommasani等，2021），深度学习用于时间序列预测的领域正在经历一场革命。与能够处理多种下游任务的FMs相比，当前的深度预测范式，涉及在单个数据集上训练模型，具有固定的上下文和预测长度，似乎越来越过时，缺乏泛化或适应各种场景或数据集的能力。鉴于大型预训练模型通过迁移学习在视觉和语言等领域提高性能和数据效率（Dosovitskiy等，2020；Brown等，2020），我们开始看到一种转变，远离现有范式，转向通用预测范式（见图1），其中单个大型预训练模型能够处理任何时间序列预测问题。然而，构建通用时间序列预测模型的道路充满挑战。

图 1: 通用预测器是一个大型预训练模型，能够处理任何时间序列预测问题。它在跨越多个领域的大规模时间序列数据集上进行训练。与现有范式相比，通用预测面临三个关键问题：ii) 多频率，iiii) 多元预测，以及iiiiii) 变化的分布。

与视觉和语言的统一格式（图像和文本）不同，时间序列数据具有高度异质性。首先，时间序列的频率（例如每分钟、每小时、每日的采样率）在确定时间序列中存在的模式方面起着重要作用。由于负面干扰（Van Ness等，2023），跨频率学习被证明是一项具有挑战性的任务，现有工作通过为多频率数据集学习一个模型来简单地避开这个问题（Oreshkin等，2020）。其次，时间序列数据在维度方面是异质的，多变量时间序列可以具有不同数量的变量。此外，每个变量在数据集间测量的是语义上不同的数量。虽然独立考虑多变量时间序列的每个变量（Nie等，2023；Ekambaram等，2023）可以规避这个问题，但我们期望通用模型足够灵活，能够考虑多变量交互作用并考虑外生协变量。第三，概率预测是从业者经常需要的一个关键特性，然而，不同数据集具有不同的支持和分布特性 - 例如，使用对称分布（例如正态分布、学生t分布）作为预测分布不适用于正时间序列 - 使得预先定义简单参数分布（Salinas等，2020）的标准方法不足以灵活捕捉各种数据集。最后，一个能够进行通用预测的大型预训练模型需要来自不同领域的大规模数据集。现有的时间序列数据集不足以支持这类模型的训练。

表 1: 预训练预测模型比较。“?” 表示未知意图，作者在撰写时表明了他们的意图。

从已被证明是扩展预训练时间序列预测模型的强有力候选架构的掩码编码器架构开始（Woo等，2023），我们通过引入新颖的修改来缓解上述问题，使得该架构能够处理任意时间序列数据的异质性。首先，我们建议学习多个输入和输出投影层，以处理不同频率时间序列的不同模式。使用基于补丁的投影，对于高频数据使用更大的补丁大小，反之亦然，投影层专门用于学习该频率的模式。其次，我们通过我们提出的任意变量注意力来解决不同维度的问题，该注意力同时将时间和变量轴视为单个序列，利用旋转位置嵌入（RoPE）（Su等，2024）和学习的二进制注意力偏差（Yang等，2022b）分别对时间和变量轴进行编码。重要的是，任意变量注意力允许模型输入任意数量的变量。第三，我们通过混合参数分布来克服需要灵活预测分布的问题。此外，优化灵活分布的负对数似然具有与目标度量优化（Awasthi等，2022）竞争力的额外好处，这对于预训练通用预测器来说是一个强大的特性，因为随后可以使用任何目标度量进行评估。

为了支持我们的大型时间序列模型（LTM）的训练，我们引入了大规模开放时间序列存档（LOTSA），这是包含跨九个领域的超过27B个观测值的最大开放时间序列数据集集合。我们优化混合分布的负对数似然，并在训练过程中随机抽样上下文和预测长度，允许灵活地使用预训练模型。我们训练我们提出的方法，基于掩码编码器的通用时间序列预测变压器（MOIRAI ${ }^{1}$ ），分为三种规模 - MOIRAI Small，MOIRAI Base和MOIRAI Large，分别具有14m、91m和311m个参数。我们在内部和外部分布设置上进行实验评估，并展示MOIRAI始终实现了与最先进全样本基线相比具有竞争力或更优越的性能。我们的贡献总结如下：

我们引入了一种新颖的变压器架构，以支持通用预测的要求。至关重要的是，我们提出的组件不仅限于掩码编码器，而且通用，适用于广泛的变压器变体。
我们引入了LOTSA，一个新的大规模开放时间序列数据集集合，以赋予LTMs预训练的能力。LOTSA、模型权重和我们的统一训练通用时间序列模型的库UNI $^{2}$ TS将完全开源。
在LOTSA数据上训练，MOIRAI作为零次预测器实现了与全样本模型相比具有竞争力或更优越的性能。

2. 相关工作

零次预测的预训练表1总结了具有零次预测能力的最近预训练模型之间的主要区别，这是一个最近出现的领域。TimeGPT-1（Garza $\&$ Mergenthaler-Canseco，2023）首次提出了一个闭源模型，提供零次预测能力，并通过API支持微调，目前仅供其测试用户使用。ForecastPFN（Dooley等，2023）提议在合成时间序列上进行预训练，随后可以将其作为零次预测器利用，尽管专门用于数据或时间受限的设置。Lag-llama（Rasul等，2023）致力于时间序列预测的基础模型，利用具有滞后时间序列特征的LLaMA（Touvron等，2023）架构设计，并展示了时间序列预测的神经缩放定律。PreDcT（Das等，2023b）是一个基于补丁的仅解码器基础模型，用于时间序列预测，引入了更大的输出补丁大小以加快解码速度。他们收集了来自Google Trends的私人数据集，以结合开放数据对其模型进行预训练。Tiny Time Mixers（TTMs）（Ekambaram等，2024）是一项同时进行的工作，利用轻量级混合器风格架构。他们通过对高频时间序列进行降采样来进行数据增强，并通过微调外生混合器支持多变量下游任务。利用在网络规模文本数据上进行预训练的大型语言模型（LLMs）已被用于零次预测。具体来说，LLMTime（Gruver等，2023）将时间序列视为字符串，应用基于特定LLMs标记器的谨慎预处理，表明LLMs具有执行零次预测的内在能力。

预训练 + 微调用于时间序列预测在最近的零-shot预测工作之前，先进行预训练，然后在下游预测任务上进行微调已经存在了一段时间。去噪自编码器（Zerveas等，2021）和对比学习（Yue等，2022；Woo等，2022）已被证明是时间序列预测的有效预文本任务，但主要应用于在相同数据集上进行预训练和微调的现有范式，而没有探索它们的泛化能力。最近，Dong等人（2023）探讨了结合重建和对比基础预训练方法，并对跨数据集转移进行了初步探索。这个主题已经得到了深入探讨，我们建议读者参考更全面的调查（Zhang等，2023；Ma等，2023）。"重编程"是一个最近的方向，涉及微调在文本数据上预训练的LLM模型权重，用于其他形式的下游任务。Zhou等人（2023）；Jin等人（2023）介绍了用于适应LLM模型进行时间序列任务（包括预测）的模块和微调方法。

3. 方法

问题阐述

考虑一个包含 $N$ 个时间序列的数据集 $\mathcal{D}=\left\{\left(\boldsymbol{Y}^{(i)}, \boldsymbol{Z}^{(i)}\right)\right\}_{i=1}^{N}$ ，其中 $\boldsymbol{Y}^{(i)}=\left(\boldsymbol{y}_{1}^{(i)}, \boldsymbol{y}_{2}^{(i)}, \ldots, \boldsymbol{y}_{T_{i}}^{(i)}\right) \in \mathbb{R}^{d_{y_{i}} \times T_{i}}$ 是一个包含 $d_{y_{i}}$ 个变量和 $T_{i}$ 个时间步的目标时间序列。每个时间序列都与一组协变量 $\boldsymbol{Z}^{(i)}=\left(\boldsymbol{z}_{1}^{(i)}, \boldsymbol{z}_{2}^{(i)}, \ldots, \boldsymbol{z}_{T_{i}}^{(i)}\right) \in \mathbb{R}^{d_{z_{i}} \times T_{i}}$ 相关联。目标是通过学习模型 $f_{\boldsymbol{\theta}}:\left(\boldsymbol{Y}_{t-l: t}, \boldsymbol{Z}_{t-l: t+h}\right) \mapsto \hat{\boldsymbol{\phi}}$ 来预测预测分布 $p\left(\boldsymbol{Y}_{t: t+h} \mid \boldsymbol{\phi}\right)$ ，其中 $\boldsymbol{\phi}$ 是预测分布参数，最大化对数似然：

$\begin{align*} & \max _{\boldsymbol{\theta}} \underset{\substack{(\mathbf{Y}, \mathbf{Z}) \sim p(\mathcal{D}) \\ (\mathrm{t}, 1, \mathbf{h}) \sim p(\mathcal{T} \mid \mathcal{D})}}{\mathbb{E}} \log p\left(\mathbf{Y}_{\mathrm{t}: \mathrm{t}+\mathrm{h}} \mid \hat{\boldsymbol{\phi}}\right) \\ & \text { s.t. } \hat{\boldsymbol{\phi}}=f_{\boldsymbol{\theta}}\left(\mathbf{Y}_{\mathrm{t}-1: \mathrm{t}}, \mathbf{Z}_{\mathrm{t}-1: \mathrm{t}+\mathrm{h}}\right) \end{align*}$

其中 $p(\mathcal{D})$ 是数据分布，用于对时间序列 $(\boldsymbol{Y}, \boldsymbol{Z})$ 进行采样， $p(\mathcal{T} \mid \mathcal{D})$ 是任务分布，定义了回顾窗口 $\boldsymbol{Y}_{t-l: t}=\left(\boldsymbol{y}_{t-l}, \ldots, \boldsymbol{y}_{t-1}\right)$ ，具有上下文长度 $l$ 和预测视野 $\boldsymbol{Y}_{t: t+h}=\left(\boldsymbol{y}_{t}, \ldots, \boldsymbol{y}_{t+h-1}\right)$ ，具有预测长度 $h$ 。

3.1. 架构

如图2所示，MOIRAI采用（非重叠的）基于补丁的方法来建模时间序列，具有掩码编码器架构。我们提出的修改之一是将架构扩展到任意变量设置，将多变量时间序列“展平”，将所有变量视为单个序列。然后，通过多补丁大小输入投影层将补丁投影为向量表示。[mask]表示一个可学习的嵌入，用于替换落在预测视野内的补丁。然后，通过多补丁大小输出投影将输出标记解码为混合分布的参数。虽然没有可视化，但对于输入/输出，我们应用（不可学习的）实例归一化（Kim等，2022），与当前深度预测模型的标准实践保持一致。

核心Transformer模块是一个仅编码器的Transformer架构，利用最近最先进的LLM架构提出的各种改进。我们使用预归一化（Xiong等，2020），用RMSNorm（Zhang和Sennrich，2019）替换所有LayerNorms，并应用查询-键归一化（Henry等，2020）。FFN层中的非线性被SwiGLU（Shazeer，2020）替换，调整隐藏维度以具有与原始FFN层相同数量的参数。我们在Transformer模块的所有层中省略偏置。

3.1.1. 多补丁大小投影层

在通用预测的背景下，单个模型应具有处理跨越广泛频率范围的时间序列的能力。现有基于补丁的架构依赖于单个补丁大小超参数，这是从当前每个数据集一个模型的范式中遗留下来的特征。相反，我们采用更灵活的策略：选择更大的补丁大小来处理高频数据，从而降低注意力的二次计算成本的负担，同时保持较长的上下文长度。同时，我们主张为低频数据选择较小的补丁大小，将计算转移到Transformer层，而不仅仅依赖于简单的线性嵌入层。为了实现这一方法，我们提出学习多个输入和输出嵌入层，每个嵌入层与不同的补丁大小相关联。对于给定时间序列频率的适当补丁大小的选择依赖于预定义的设置（见附录B.1）。请注意，对于每个补丁大小，我们只学习一组投影权重，如果根据设置存在重叠，则在频率之间共享。

3.1.2. 任意变量注意力

通用预测器必须能够处理任意多变量时间序列。现有的时间序列Transformer通常依赖于独立变量假设或由于嵌入层将 $\mathbb{R}^{d_{y}} \rightarrow \mathbb{R}^{d_{h}}$ ，其中 $\mathbb{R}^{d_{h}}$ 是隐藏维度，而受限于单一维度。如图2所示，我们通过将多变量时间序列展平为将所有变量视为单个序列来克服这一限制。这引入了一个新要求，即需要变量编码以使模型能够区分序列中的不同变量。此外，我们需要确保对于变量排序的排列等变性和对于变量索引的排列不变性得到尊重。传统方法如正弦或学习嵌入不符合这些要求，无法处理任意数量的变量。为了解决这个问题，我们提出了任意变量注意力，利用二进制注意力偏置来编码变量索引。

图2. MOIRAI的总体架构。显示了一个包含3个变量的时间序列，其中变量0和1是目标变量（即要预测的变量），变量2是动态协变量（预测视野中已知的值）。基于补丁大小为64，每个变量被分成3个标记。补丁嵌入以及序列和变量id被馈送到Transformer中。阴影补丁表示要预测的预测视野，其相应的输出表示被映射到混合分布参数。

为简洁起见，省略了层和注意力头索引，以及缩放因子， $(i, m)$ -th查询（其中 $i$ 表示时间索引， $m$ 表示变量索引）和 $(j, n)$ -th键之间的注意力分数 $A_{i j, m n} \in \mathbb{R}$ ，给出如下：

$\begin{align*} E_{i j, m n}= & \left(\boldsymbol{W}^{Q} \boldsymbol{x}_{i, m}\right)^{T} \boldsymbol{R}_{i-j}\left(\boldsymbol{W}^{K} \boldsymbol{x}_{j, n}\right) \\ & +u^{(1)} * \mathbb{1}_{\{m=n\}}+u^{(2)} * \mathbb{1}_{\{m \neq n\}} \tag{2}\\ A_{i j, m n}= & \frac{\exp \left\{E_{i j, m n}\right\}}{\sum_{k, o} \exp \left\{E_{i k, m o}\right\}} \tag{3} \end{align*}$

其中 $\boldsymbol{W}^{Q} \boldsymbol{x}_{i, m}, \boldsymbol{W}^{K} \boldsymbol{x}_{j, n} \in \mathbb{R}^{d_{h}}$ 分别是查询和键向量， $\boldsymbol{R}_{i-j} \in \mathbb{R}^{d_{h} \times d_{h}}$ 是旋转矩阵（Su等，2024）， $u^{(1)}, u^{(2)} \in \mathbb{R}$ 是每个层中每个头部的可学习标量， $\mathbb{1}_{\{\text {cond }\}}=\left\{\begin{array}{l}1, \text { if cond } \\ 0 \text {, otherwise }\end{array}\right.$ 是指示函数。二进制注意力偏置组件允许通过注意力分数对变量进行区分，满足了关于变量排序/索引的排列等变性/不变性的标准，并且可以扩展到任意数量的变量。

3.1.3. 混合分布

为了实现具有灵活分布的目标，同时确保采样和评估损失函数的操作保持简单，我们建议使用参数分布的混合。具有 $c$ 个分量的混合分布的概率密度函数为：

$\begin{equation*} p\left(\mathbf{Y}_{t: t+h} \mid \hat{\boldsymbol{\phi}}\right)=\sum_{i=1}^{c} w_{i} p_{i}\left(\mathbf{Y}_{t: t+h} \mid \hat{\boldsymbol{\phi}}_{i}\right) \tag{4} \end{equation*}$

3.2. 统一训练

3.2.1. 大规模时间序列档案（LOTSA）

现有工作主要依赖于三个主要数据源 - 莫纳什时间序列预测档案（Godahewa等，2021），由 GluonTS 库提供的数据集（Alexandrov等，2020），以及来自流行的长序列预测基准的数据集（Lai等，2018；吴等，2021）。尽管莫纳什和GluonTS包含来自不同领域的数据集，但它们的规模受限，总共约有 $1$ B 观测数据。相比之下，大型语言模型（LLMs）则训练了数万亿的标记。Das等人（2023b）基于 Google Trends 构建了一个私有数据集，但缺乏多样性，并且数据规模相似，也是 $1$ B 观测数据。

Table 2. Key statistics of LOTSA by domain.

Table 3. Key statistics of LOTSA by frequency.

因为 FMs 的有效性主要源于大规模预训练数据。考虑到现有数据源无法支持这样的范式，尝试在这些数据上训练 LTM 可能导致误导性结论。因此，我们直面这个问题，通过整合公开可用的时间序列数据集构建了一个大规模的时间序列数据档案。这个工作旨在涵盖广泛的领域，将来自不同来源的数据集整合到一起，这些数据集的格式各异。我们使用 Arrow（Richardson等，2023）设计了一个统一的存储格式，该格式适用于深度学习流水线。最终的收集成果，LOTSA，涵盖了九个领域，共有 $27, 646, 462, 733$ 观测数据，关键统计数据见表2和表3，并在附录 A 中提供了详细信息。

3.2.2. 预训练

正如公式（1）所介绍的，我们的预训练任务旨在优化混合分布对数似然。数据分布和任务分布的设计是预训练流水线的两个关键方面。这种设计赋予了我们的 LTM 多样化的能力，使其能够适应一系列下游任务。这种灵活性与当前流行的深度预测范式形成对比，后者通常专门针对特定数据集和设置进行优化。

数据分布

数据分布 $(\mathbf{Y}, \mathbf{Z}) \sim p(\mathcal{D})$ 定义了如何从数据集中采样时间序列。在 LOTSA 上进行训练，这是一个数据集的数据，我们引入了子数据集的概念，通过将数据分布分解为一个子数据集分布和一个在给定子数据集条件下的时间序列分布， $p(\mathcal{D})=p(\mathbf{Y}, \mathbf{Z} \mid \mathbf{D}) p(\mathbf{D})$ 。因此，我们首先从 $p(\mathbf{D})$ 中采样一个子数据集，然后在给定该子数据集的情况下采样一个时间序列。

对于 $K$ 个子数据集，其中 $\boldsymbol{D}_{k}$ 表示属于子数据集 $k$ 的时间序列的索引集， $p\left(\boldsymbol{Y}^{(i)}, \boldsymbol{Z}^{(i)} \mid \boldsymbol{D}_{k}\right)=\frac{T_{i} \mathbb{1}_{\left\{i \in \boldsymbol{D}_{k}\right\}}}{\sum_{j \in \boldsymbol{D}_{k}} T_{j}}$ ，与观测数量成比例，这是直接的。

然而，由于跨领域和频率的数据不平衡，我们避免按比例采样子数据集，并将每个子数据集的贡献限制在 $\epsilon=0.001$ ，然后重新归一化： $p\left(\boldsymbol{D}_{k}\right)=\frac{\omega_{k}}{\sum_{i=1}^{K} \omega_{i}}$ ，其中 $\omega_{k}=\frac{\min \left(\left|\boldsymbol{D}_{k}\right|, \epsilon\right)}{\sum_{i}^{K}\left|\boldsymbol{D}_{i}\right|}$ ，而 $\left|\boldsymbol{D}_{k}\right|=\sum_{i \in \boldsymbol{D}_{k}} T_{i}$ 。

Table 4. Details of MOIRAI model sizes.

任务分布

与现有的深度预测范式不同，我们的目标是训练一个具有不同上下文和预测长度的预测能力的模型。我们从任务分布 $(\mathrm{t}, \mathrm{l}, \mathrm{h}) \sim p(\mathcal{T} \mid \mathcal{D})$ 中采样，该分布定义了给定一个时间序列的回溯窗口和预测视野。在实践中，我们不是在给定时间序列的情况下采样 $t, l, h$ ，而是裁剪一个均匀采样的窗口，其长度在一个范围内均匀采样。这个范围由每个变量的最小序列长度为 $2$ 和总最大序列长度为 $512$ 定义。然后将窗口分割为回溯和预测段，其中预测长度均匀采样为窗口长度的一定比例（在范围 $[0.15, 0.5]$ 内）。我们通过 $i$ ) 在变量维度均匀子采样多变量时间序列，以及 $ii$ ) 通过随机连接

图 3: 莫纳什时间序列预测基准测试的综合结果。报告了标准化的平均绝对误差（MAE），通过将每个数据集的 MAE 与天真预测的 MAE 进行标准化，并通过计算数据集间的几何平均值进行聚合。

训练我们在三种规模下训练 MOIRAI 模型 - 小型、基础和大型，关键参数细节列在表 4 中。小型模型训练了 100,000 步，而基础和大型模型则训练了 1,000,000 步，批量大小为 256。在优化方面，我们使用 AdamW 优化器，具体超参数如下，\mathrm{lr}=1 \mathrm{e}-3lr=1e−3，weight_decay =1 \mathrm{e}-1, \beta_{1}=0.9, \beta_{2}=0.98=1e−1,β1=0.9,β2=0.98。我们还应用了学习率调度器，前 10,000 步采用线性预热，之后采用余弦退火。模型在 NVIDIA A100-40G GPU 上以 TF32 精度进行训练。我们实现了序列打包（Raffel 等，2020）以避免由于新设置中序列长度的差异（上下文、预测和变量长度不同）而产生大量填充，从而增加有效批量大小。

4. 实验

4.1. 分布内预测

我们首先使用 Monash 基准进行分布内评估，旨在衡量跨多个领域的泛化能力。在附录 A 中描述的 LOTSA 包括 Monash 时间序列预测存档作为数据源。对于这些数据集的大部分，我们仅包括训练集，保留测试集，现在用于分布内评估。在此评估中，我们考虑一个标准设置，上下文长度为 1000，对于所有频率的补丁大小为 32，除了季度数据的补丁大小为 8。图 3 总结了基于标准化平均绝对误差（MAE）的结果，与 Monash 基准中提出的基线进行比较。值得注意的是，Monash 基准中的每个基线通常是针对数据集或数据集中的每个时间序列单独训练的。相比之下，MOIRAI 通过作为单个模型在各种数据集上进行评估而脱颖而出。完整结果以及与 LLMTime（Gruver 等，2023）的比较可在附录 D.1 中找到。

我们观察到，MOIRAI 在所有基线模型上表现优异，无论模型规模如何，展现出我们统一训练方法带来的强大分布内和跨领域能力。我们强调，MOIRAI 的每个实例都是一个单一模型在数据集上进行评估，而对于基线模型，通常是针对每个数据集训练一个模型。

4.2. 面向未知分布 / 零样本预测

接下来，我们对未知目标数据集进行了面向未知分布的评估。在这里，MOIRAI 是一个零样本预测器，与已经在各个目标数据集上训练过的最先进的全样本基线进行了比较。虽然理想情况下应该包括其他通用预测器，但这被证明是一项具有挑战性的任务。作为一个新兴领域，大多数通用预测器目前还没有公开的权重可供评估。此外，比较零样本方法的问题进一步恶化，因为没有一个标准的留置测试集，这使得整理一组所有模型都未经训练的数据集变得具有挑战性。因此，我们通过展示与 SOTA 全样本方法相比具有竞争力或更强的结果来证明了 MOIRAI 的强大零样本能力 - 在下文中使用的数据集并未包含在 LOTSA 中。

概率预测我们在能源、交通、气候和销售领域的七个数据集上进行评估，采用滚动评估设置，步长等于预测长度。根据频率为每个数据集定义预测长度和滚动评估次数。我们报告连续排名概率分数（CRPS）和平均缩放区间分数（MSIS）指标（定义见附录 C），与四个全样本基线 DeepAR（Salinas 等，2020）、PatchTST（Nie 等，2023）、以及 TiDE（Das 等，2023a）使用学生 t-分布预测头部，以及基于分位数预测的 TFT（Lim 等，2021），所有这些都是使用 GluonTS 库（Alexandrov 等，2020）实现的，以及简单的基线 AutoARIMA（Garza 等，2022）和 Seasonal Naive（Hyndman & Athanasopoulos，2018）进行比较。对于每个数据集和基线，我们在验证 CRPS 上进行超参数调整，并报告在五次使用不同种子的训练运行中平均的结果。对于 MOIRAI，我们进行推理时间调整，根据验证 CRPS 从 {1000,2000,3000,4000,5000}{1000,2000,3000,4000,5000} 中选择上下文长度和基于频率选择补丁大小。评估设置的完整细节可以在附录 C 中找到。

表5报告了CRPS和MSIS，包括附录D.2中的确定性指标的完整结果。我们观察到，MOIRAI $}_{\text {Base }}$ 和 MOIRAI Large $^{\text {consistently }}$ 实现了强大的零射击性能，在除了Walmart和Istanbul Traffic之外的所有数据集中获得了最佳或次佳结果。即使对于这些数据集，性能仍接近最佳性能，尽管它是一个单一的零射击模型，而与在训练集上进行调整和训练的基线相比。

表5. 概率预测结果。最佳结果用粗体突出显示，次佳结果用下划线标记。基线结果是在五次使用不同种子的训练运行中聚合的，报告平均值和标准偏差。

表6. 长序列预测结果。结果是在预测长度 ${96,192,336,720\}$ 上进行平均的。最佳结果用粗体突出显示，次佳结果用下划线标记。全尺寸结果来自Liu等（2023b）。

长序列预测我们在流行的长序列预测基准的一个子集上进行评估（ $\mathrm{Wu}$ 等，2021），省略了那些在我们的预训练数据中具有相同来源的数据集，因此不能被视为零射击。我们报告均方误差（MSE）和平均绝对误差（MAE），与六个最先进的基线进行比较，iTransformer（Liu等，2023b）、TimesNet（Wu等，2023）、PatchTST、Crossformer（Zhang & Yan，2023）、TiDE、DLinear（Zeng等，2023）、SCINet（Liu等，2022）和FEDformer（Zhou等，2022b）。从MOIRAI获得点预测是通过从预测分布的样本中取中位数得到的。MOIRAI的调整是基于预测长度的平均验证MSE，进一步包括在低维数据集（ETT和Weather）中使用通道独立和通道混合策略的选项（Nie等，2023）。

表6报告了预测长度的平均性能，完整结果见附录D.3。我们观察到，MOIRAI相对于全尺寸基线取得了强大的结果。虽然MOIRAI Base在各个数据集上始终表现出色，要么是最佳的，要么是次佳的性能，但大型模型不太一致，结果略弱但具有竞争力。在这种情况下，性能与模型大小之间的关系脆弱，然而，这并不构成反对扩展潜力的强有力证据，因为这些结果是基于在固定数据集大小和设置上训练的模型。相反，这需要更全面的神经扩展定律（Kaplan等，2020）来建立对其扩展行为的更深入理解。

表7. Monash基准的消融研究。聚合的标准化MAE，类似于图3中计算的方式，进行报告。

4.3. 消融研究

架构我们在表7中进行了一系列消融研究，从默认的MOIRAIsmall开始。首先，我们消除了多补丁大小组件的约束，允许在训练期间任何频率都可以具有任何补丁大小，并且简单地固定补丁大小为32。在这两种情况下，我们观察到标准化MAE恶化。去除任意变量注意力并使用加性学习的嵌入（在训练期间随机化变量索引以鼓励置换不变性）代替，导致次优结果，展示了任意变量注意力的强大。当用学生t分布替换混合分布时，我们看到类似的恶化，并在图4中进一步可视化了概率预测中灵活分布的必要性。

(a) 混合分布。

(b) 学生t分布。

图4. MOIRAIsmall的两个变体在Traffic Hourly数据集上的概率预测可视化。两个模型都预测高峰，然而，学生t分布具有对称分布，为高峰提供不合适的预测区间，如红色突出显示。

图5. 在ETTm1、Electricity和Weather数据集的验证集上，以 $\log$ 刻度的x轴绘制性能（MAE）与上下文长度的关系，预测长度为96，补丁大小为32。

训练方法我们通过仅在GluonTS和Monash数据集上训练MOIRAI small来研究大型和多样化数据集的影响，观察到数据的多样性对跨领域训练至关重要，即使在分布内评估中也是如此。最后，鉴于相同的批量大小和训练迭代次数，我们展示了打包训练显著提升了性能。这是因为打包增加了有效批量大小，并增加了模型训练的观测数量，给定相同的计算量。

4.4. 进一步分析

上下文长度我们的预训练方法根据任务分布定义的上下文长度变化。通过在零射击设置中在三个数据集上增加上下文长度与性能之间的关系，我们验证了MOIRAI能够接受任意上下文长度的能力。Zeng等（2023）；Liu等（2023b）先前观察到，传统基于Transformer的预测器在随着上下文长度增加而持续改善性能的愿望并不存在。在这里，我们观察到MOIRAI确实实现了这一期望的特性，事实上，能够处理成千上万个时间步。

图6. 从LOTSA中采样数据时序列长度的直方图，基于所提出的任务分布。序列长度指的是在补丁和展平后的标记数量。

打包训练LLM和其他基于Transformer的模型长期以来一直应用打包，但不适用于时间序列Transformer。当处理小规模数据时，我们可以容忍低效率，但随着向FM和LTM范式的扩展，我们开始遭受更长的训练时间。这在我们的“展平”设置中进一步恶化，增加了序列长度的差异。正如在第4.3节中所证实的，保持计算（批量大小、迭代次数等）恒定，打包通过16%提高了性能。为了理解这种情况，我们在图6中可视化了序列长度分布。由于数据中有大部分短于最大序列长度，没有打包训练时，填充代表了输入标记的61.08%，而我们的打包实现中仅占0.38%（在1000次迭代中计算）。

5. 结论

在这项工作中，我们介绍了MOIRAI，一种基于掩码编码器的通用时间序列预测Transformer，可以缓解通用预测范式中面临的问题。我们还介绍了LOTSA，这是用于预训练时间序列预测模型的最大开放数据集。MOIRAI在分布内和分布外设置上进行了评估，能够进行概率和长序列预测。我们展示了作为零射击预测器，MOIRAI实现了与全尺寸模型相比具有竞争力或优越性的性能。
限制与未来工作虽然 MOIRAI 在内部和外部分布性能方面表现出色，但这只是通用预测范式的第一步。由于资源限制，几乎没有进行超参数调整 - 可以应用高效的调整技术，如 $\mu \mathrm{P}$ （Yang 等，2022a）。在架构方面，我们处理跨频率学习的方法采用了一种多尺寸衔接映射，这在一定程度上是启发式的，未来的工作应设计一种更灵活、更优雅的方法。此外，当前架构对高维时间序列的支持有限，可以通过有效的方法扩展 Transformer 输入长度来缓解这个问题。在数据方面，LOTSA 可以通过在领域和频率上增加更多的多样性来进一步增强。最后，将诸如表格或文本输入等多模态纳入是通用预测所开启的一条令人兴奋的新方向。