Learning Optimal Projection for Forecast Reconciliation of Hierarchical Time Series-CSDN博客

系列文章目录

学习分层时间序列预测协调的最佳投影 ICML2024

摘要

分层时间序列预测不仅需要预测准确性，还需要一致性，即预测在整个层次结构中适当地相加。最近的文献表明，通过投影进行协调优于先前的方法，例如自上而下或自下而上的方法。与预先指定投影矩阵（例如正交）的现有工作不同，我们研究从数据中学习最佳倾斜投影以对分层时间序列进行一致预测的问题。除了保持无偏性的特性之外，倾斜投影还隐式地考虑了层次结构，并为各个时间序列分配了不同的权重，与平等对待基本预测误差的正交投影相比，具有显着的适应性。我们研究两大类投影，即欧几里得投影和一般斜投影。我们建议将协调步骤建模为神经预测器架构中的可学习的、结构化的投影层。所提出的方法允许在端到端框架中有效学习最佳投影，其中神经预测器和投影层都是同时学习的。对现实世界分层时间序列数据集的实证评估表明，所提出的方法比现有的最先进方法具有优越的性能。

一、引言

分层时间序列是指遵循分层聚合结构的时间序列的集合。预测分层时间序列因其在各个领域的决策中的关键作用而受到越来越多的关注（Dai et al., 2017）。例如，在零售业，不同粒度级别（例如产品、商店、州、国家）的需求预测对于库存控制和收入管理至关重要（Seeger 等，2016）。在能源和公用事业领域，个体、电网和区域层面的准确用电量预测对于电网的高效运行至关重要（Taieb 等，2017；2021）。

对于分层时间序列的预测，除了准确性之外，确保一致性也很重要，即每个聚合组的预测与组成该组的预测相同。当独立学习各个时间序列时，无法保证这些预测能够满足层次结构指定的聚合约束。以前的方法通过仅预测层次结构的单个级别，然后以自上而下的方法（Athanasopoulos et al., 2009; Gross & Sohl, 1990; Das et al., 2023）或自下而上的方法（Kahn）进行协调来解决一致性问题。，1998），或结合使用两者，称为中间出方法（Hollyman 等人，2021）。这种方法有两个相关问题。首先，每个时间序列的模型参数的学习独立于随后的协调方法。其次，由于此类方法仅利用层次结构中的部分数据，因此忽略了其他级别中存在的有价值的信息。

预测协调文献中的一些显着进展试图通过解决回归问题来组合各个级别的预测，结果表明其性能优于先前的方法（Hyndman 等人，2011 年；Wickramasuriya 等人，2019 年）。帕纳吉奥泰利斯等人。（2021）将这些调节方法作为投影的具体实例提供了几何解释。特别是，Panagiotelis 等人。（2021）表明 Hyndman 等人提出的方法。 (2011) 是正交投影，而 Wickramasuriya 等人的 MinT 方法。（2019）是广义欧几里得投影的一个特例。通过预测进行调节具有理想的特性，例如保持无偏性，即如果初始预测也是无偏的，则调节后的预测也是无偏的。

倾斜投影（例如广义欧几里德投影）在建模方面提供了更大的灵活性，因为标准正交投影方法隐式地平等对待各个基本预测误差，而忽略层次结构。然而，实现倾斜投影非常困难。以MinT（Wickramasuriya et al., 2019）为例，尽管理论上有封闭式解决方案，但它需要估计预测误差的协方差，导致其在实践中无法实现，不诉诸近似。

在本文中，我们试图通过提出一种新颖、灵活且易于处理的框架来解决实施分层时间序列预测协调的倾斜投影的挑战。我们的贡献是三重的。

1.通过投影预测分层时间序列的现有工作仅考虑预定义的投影矩阵。据我们所知，这是第一个提出可学习投影方法的工作，其中我们将倾斜投影作为神经预测器架构中的结构化层集成。这允许在端到端框架上有效学习倾斜投影，在该框架中，神经预测器和投影层同时学习，同时生成通过构造一致的预测。所提出的利用结构化层进行协调的方法非常灵活，我们证明它可以应用于分层时间序列的点预测和概率预测。
2. 我们考虑两种类型的倾斜投影。第一个是广义欧几里得投影，我们从分层时间序列中学习对称的正定矩阵。为了强加这样的结构，我们执行矩阵分解并实现对称、正定、密集的神经网络层。我们还考虑一般的倾斜投影，其中我们只需要投影矩阵满足幂等性，这是通过正则化实现的。一般倾斜投影由于其对神经网络结构的最小约束而提供了更高程度的适应性，而广义欧几里德投影则提供了可解释性的额外好处，因为学习矩阵捕获了应用于各个时间序列的预测误差的不同权重，会计对于层次结构。相比之下，利用正交投影的最先进方法不是从数据中学习投影，而是简单地将该矩阵指定为单位矩阵，即有效地将各个时间序列中的误差视为相等。
3. 我们使用真实世界的数据集，通过对点预测方法和概率预测方法进行广泛的实证评估，验证了我们方法的卓越性能。具体来说，我们将顺序框架和端到端框架的现有最先进的协调方法进行比较。我们还尝试了不同的神经预测器。我们提出的方法在所有数据集和层次结构的不同级别中始终优于基准，突出了使用可学习的倾斜投影进行层次时间序列预测的优势。

在这里插入图片描述

图 1. n = 9 时间序列的树形层次结构时间序列示例，底部为 m = 6，r = n −m = 3 聚合时间序列。

2. Reconciled Hierarchical Forecasting

2.1. Notations and preliminaries

遵循 Hyndman 等人中的符号。 (2011)，我们将分层时间序列定义为由时间 t 索引的 n 个变量的集合，其中 t = 1，. 。。，T。我们将包含在时间 t 层次结构中所有变量的观测值的 n 维向量表示为 $\boldsymbol{y}_t\in\mathbb{R}^n$ ，其中 $y_{t,i}\in\mathbb{R}$ 作为时间 t 时第 i 个单变量时间序列的值。我们将层次结构底部的时间序列称为维度 m 的底层序列，将序列的其余部分称为维度 n −m 的聚合级序列。基于这个定义，yt可以表示为 $[a_t\boldsymbol{b}_t]^T$ ，其中 $b_t\in\mathbb{R}^m$ 和 $a_t\in\mathbb{R}^{n-m}$ 分别表示t时刻底层序列和聚合层序列的向量。

我们假设每个单独时间序列的索引是由从左到右的层次结构的级别顺序遍历给出的。每个层次时间序列结构可以通过聚合矩阵 $S=\{0,1\}^{n\times m}$ 来描述，其定义满足：

在这里插入图片描述其中 $S_{sum}\in\mathbb{R}^{r\times m}$ 是求和矩阵，Im ∈ $\mathbb{R}^{m\times m}$ 是单位矩阵。

为了说明这些概念，请考虑以下具有图 1 所示层次结构的示例。我们有 at = $[y_1,y_2,y_3]_t^T \in \mathbb{R}^3$ 且 $\boldsymbol{b}_{t} = [b_{1},b_{2},b_{3},b_{4},b_{5},b_{6}]_{t}^{T} \in \mathbb{R}^{6}$ 。此外， $S_{sum}=\begin{bmatrix}1&1&1&1&1&1\\1&1&1&0&0&0\\0&0&0&1&1&1\end{bmatrix}$ 。值得注意的是，除了树结构之外，还有其他层次结构的例子，包括时间层次结构（Athanasopoulos et al., 2017）、跨时间聚合结构（Spiliotis et al., 2020）等。

我们感兴趣的数量是预测时间范围 h 的层次结构中的每个时间序列，即所有时间 t = T + 1,…。。。，T+h。预测分层时间序列的典型方法遵循两步程序：（i）独立预测每个时间序列以获得多元时间序列τ时间步长的基础预测，用 $\boldsymbol{\hat{y}}_{T+\tau} \in \mathbb{R}^n$ 表示，它们不一定一致，以及 (ii) 通过调节产生调整后的预测 $\tilde{y}_{T+\tau}$ ，这要求预测遵守聚合约束——一种称为一致性的属性。

定义 2.1。 m 维线性子空间 S ⊆ $R_n$ 的线性聚合约束对于所有 y ∈ S 都成立，被定义为相干子空间。

定义 2.2。如果 $\hat{\boldsymbol{y}}_{T+\tau}\in\mathcal{S}$ ，则多元时间序列 τ 时间步长的预测 $\tilde{\boldsymbol{y}}_{T+\tau}$ 是一致的。

定义 2.3。令 $\xi$ 为映射， $\xi : \mathbb{R}^n \to \mathcal{S}$ 。预测 $\tilde{\boldsymbol{y}}_{T+\tau}=\xi(\boldsymbol{\hat{y}}_{T+\tau})$ 协调了与映射相关的预测。

我们知道的所有调节方法都考虑用线性映射来代替 $\xi$ ，其中基本预测乘以以 S 作为图像的 n × n 矩阵。具体来说，协调预测总是通过将基本预测 $\hat{\boldsymbol{y}}_{T+\tau}$ 与矩阵 SP 相乘来实现，其中 $P\in\mathbb{R}^{m\times n},\text{i.e., }\tilde{\boldsymbol{y}}_{T+\tau}=SP\boldsymbol{\hat{y}}_{T+\tau}$ 。

当调节矩阵定义为 P = $[\mathbf{0}_{m\times r}|\mathbf{1}_{m\times m}]$ 时，它代表自下而上的方法。另一方面，当调节矩阵定义为 $P=[\boldsymbol{p}_{m\times1}|\mathbf{0}_{m\times(n-1)}]$ 时，其中 p 是总和为 1 的向量，按比例分解顶层序列与底层序列，我们得到了自上而下的方法。

2.2. Coherent Reconciliation via Projection

在分层预测的文献中，一些著作考虑了一种特定类型的协调，其中 SP 是 S 上的投影矩阵（Hyndman 等人，2011；Wickramasuriya 等人，2019；Panagiotelis 等人，2021）。

定义 2.4。当幂等性成立时，矩阵 SP 是（到 S 上）的投影矩阵，即 (SP)2 = SP。

海德曼等人。 (2011) 提出使用 $P=(S^{T}S)^{-1}S^{T}$ ，这是所谓的 OLS 协调问题的解决方案。维克拉马苏里亚等人。 (2019) 提出 P = $\begin{aligned}(S^TW_\tau^{-1}S)^{-1}(S^TW_\tau^{-1})\end{aligned}$ ，也称为 MinT 方法，其中 $W_{\tau}$ 是 τ 时间步长预测误差的协方差矩阵 $\boldsymbol{\hat{\epsilon}}_{T+\tau}=\boldsymbol{y}_{T+\tau}-\boldsymbol{\hat{y}}_{T+\tau}$ 。作者表明，当预测无偏时，P 的选择可以最小化预测误差的方差之和，并产生无偏的协调预测。然而，缺点是当τ > 1时，误差协方差矩阵 $W_{\tau}$ 很难获得，只能使用近似值。

最近，Panagiotelis 等人。（2021）提供了一种几何解释，其中包含这些众所周知的协调方法作为投影的具体实例。特别是，作者表明 MinT 投影矩阵是广义欧几里得投影 $\min_{\boldsymbol{y}\in\mathcal{S}}||\boldsymbol{\hat{y}}_{T+\tau}-\boldsymbol{y}||_W$ 的特例，其中损失函数是关于矩阵 W 的广义欧几里德范数，即 $||v||_W^2=\boldsymbol{v}^TWv$ ，假设 W 是可逆对称矩阵。如果 W 是先验已知的，则广义欧几里得投影问题的解为 $\tilde{y}_{T+\tau}=SP\boldsymbol{\hat{y}}_{T+\tau}$ ，其中 $P=(S^{T}WS)^{-1}(S^{T}W)$ 。同时，作者还证明了 Hyndman 等人提出的协调矩阵 $P = (S^{T}S)^{-1}S^{T}$ 。 (2011) 只是一个正交投影，其中 W = I。为了说明倾斜投影相对于正交投影的优势，请考虑图 2 中所示的以下示例。

示例：我们考虑多元时间序列 y = (y1, y2) ∈ R2。假设对于 τ = 1，实际值为 y1 = (1, 1)，多元时间序列模型的基本预测为 $\hat{\boldsymbol{y}}_1=(2,3)$ 。使用正交投影协调方法时的协调预测，即根据欧几里德范数的协调预测（ $||\cdot||_{W}$ ，其中 $W=\begin{bmatrix}1&0\\0&1\end{bmatrix}$ ，因此 P = [0.5, 0.5]）为 $\boldsymbol{\tilde{y}}_{L_2}=(2.5,2.5)$ 且相应的均方根误差 (RMSE) 为 0.5。另一方面，如果我们可以学习矩阵 $W=\begin{bmatrix}2&0\\0&-1\end{bmatrix}$ ，或者等效地 P = [2, −1]，那么学习到的一般（倾斜）投影将产生协调的预测 $\tilde{\boldsymbol{y}}_{obl}=(1,1)$ 的完美 RMSE 为 0。

在这里插入图片描述
图 2. 通过正交（红色）和倾斜投影（绿色）进行预测调节的示例。

文献中现有的方法首先预先指定投影矩阵（即矩阵 P），然后进行协调。在下一节中，我们提出了一种从数据中学习最佳倾斜投影矩阵的新方法。我们没有执行连续的两阶段过程（如 Wickramasuriya 等人（2019）或 Ben Taieb & Koo（2019）中所述），而是学习最佳投影矩阵并在单个端到端模型中生成协调的预测。

在这里插入图片描述
图 3. 所提出的点预测和概率预测端到端架构的表示。虚线框中的组件仅在概率预测期间使用。我们将协调矩阵 P 建模为可学习的结构化投影层。 P、 $f_{\theta}$ 和 θt 在训练期间同时学习。

3. Learning Optimal Oblique Projection

为了在训练期间学习最佳倾斜投影作为单个端到端框架的一部分，我们将矩阵 P 建模为神经预测器架构中的可学习、结构化、密集层，用于分层时间序列预测。所提出的端到端架构如图 3 所示。请注意，虽然可学习投影层可应用于点预测方法和概率预测方法，但学习分布参数并执行采样的步骤（如虚线框所示）图 3) 仅适用于概率设置。由于分层时间序列领域的绝大多数文献都是关于逐点预测的，因此我们在本节中重点关注这一设置。稍后在第 4 节中，我们将讨论如何调整概率预测框架，并在第 5 节中展示两种设置的实验结果。

3.1. Proposed Learnable Projections

在这项工作中，我们重点学习两类投影，即广义欧几里得投影和广义的一般斜投影。

对于广义欧几里得斜投影，我们在 $P=(S^{T}WS)^{-1}(S^{T}W)$ 上施加以下结构，其中 $\in \mathbb{R}^{n\times n}$ 是对称、正定、密集的神经网络层。为了建模对称性，我们设置 W = (Q+QT)/2，其中 Q 是可学习的正定密集神经网络层。通过执行此分解，矩阵 W 始终是对称的，而我们只需要学习单个矩阵 Q。在图 4 中，我们演示了保留对称属性的 W 的建议分解。为了对 Q 的正定要求进行建模，我们执行 Lezcano-Casado (2019) 提出的类特征值分解。

对于一般的倾斜投影，我们将 P 建模为具有输入维度 n 和输出维度 m 的任意密集层。我们在约束 (SP)2 = SP 下训练完整的模型（神经预测器 + 投影）。为了施加幂等性，我们引入拉格朗日乘子 λ 来惩罚约束 PS = I 的 Frobenius 范数 $PS-I||_{F}$ ，其中 $I\in\mathbb{R}^{m\times m}$ 是单位矩阵。满足此约束意味着 SP 是 S 上的一般投影矩阵，因为如果 PS = I，则 $SP)^{2} = SPSP = S(PS)P = SIP = SP.$ 。表 1 提供了对两种提议的调节方法进行比较的摘要。

3.2. End-to-End Learning

形式上，我们提出的方法解决了以下优化问题：

在这里插入图片描述
其中 $f_{\theta}$ 是用于获得基本预测的神经预测器，θ 是其可训练参数集，投影约束取决于投影的类型（参见表 1）。通过将投影表示为神经网络层，我们可以有效地利用现有的现成框架，使用 SGD 同时高效地学习神经预测器和投影层。此外，所提出的架构使得神经预测器的结构和数据的性质能够同时通知最终的预测。

在这里插入图片描述

3.3. Theoretical Guarantees of Reconciled Forecasts via Projection

利用可学习的倾斜投影来协调分层时间序列预测不仅可以提高准确性，而且还为协调后的预测赋予了一组重要的属性。第一个属性是无偏性保持属性，它扩展到两个提议的倾斜投影。我们首先陈述以下引理。

引理 3.1（Rao（1974））。位于投影图像中的任何向量都会通过该投影映射到其自身。

这个引理意味着，如果 SP 是 S 上的投影矩阵，那么对于每个 v ∈ S，我们有 SPv = v。我们现在正式陈述我们提出的投影的无偏性保持属性，同时我们在第 A 节中提出证明。附录。

命题3.2。对于无偏基础预测 $\hat{y}_{\tau}$ ，由所提出的倾斜投影产生的协调点预测也是无偏预测。

直观上，这个属性意味着如果神经预测器的预测是无偏的，那么协调后的预测将保持无偏。此外，除了无偏性之外，广义欧几里得投影还具有一些额外有趣的属性，这些属性增强了其可解释性和透明度。这些属性将原始欧几里德投影的已知属性扩展到广义欧几里德投影的设置。我们在下面的命题中陈述第一个性质。

命题3.3。广义欧氏投影对不同的预测分配不同的权重，即变换空间，然后对加权后的预测应用正交投影。

直观上，广义欧几里得投影首先通过将涉及 W1/2 的所有向量和矩阵相乘来变换空间，然后应用正交投影。因此，通过检索矩阵 W，我们可以确定投影赋予层次结构中每个时间序列的准确权重，以减少总体误差。此外，如以下命题所示，相对于 W 导出的范数，广义欧几里得投影绝不会增加协调预测的误差。

命题3.4。相对于 W 定义的范数，广义欧几里得投影绝不会增加协调预测的误差。

这两个证明都可以在附录 A 部分找到。值得注意的是，尽管广义欧几里德投影具有这些吸引人的特性，但值得注意的是，感兴趣的损失函数并不总是由 W 导出的范数。此外，广义欧几里德投影在矩阵 P 上强加了特定的结构这可能并不总是必要或必需的。另一方面，一般投影是最灵活的，因此也是最有表现力的投影，因为它在可学习层上施加了最少的结构，以便 SP 成为 S 上的投影。在实验部分，我们还测试了协调方案其中 P 是不受约束的（因此不是投影），我们凭经验展示了使用结构化投影层进行协调的优势。

4. Adaptation to Probabilistic Forecasting

与点预测相比，在概率预测中（Gneiting & Katzfuss，2014；Salinas et al.，2020），目标是准确估计层次结构中每个序列 i 的条件预测 CDF，即 $F_{T+\tau,i}(y_{i}|\boldsymbol{y}_{1},\ldots,\boldsymbol{y}_{T})$ = $\mathbb{P}[y_i\leq y_{T+\tau,i}|y_1,\ldots,y_T]$ 。所提出的方法可以很容易地扩展以产生一致的概率预测。

遵循 Rangapuram 等人提出的方法。（2021）对于训练和推理，我们使用多元预测器的输出来对时间步 t 处的预测分布的参数 θt 进行建模（通常预测分布假设为高斯分布，即 $\Theta_t=\{\boldsymbol{\mu}_t,\boldsymbol{\Sigma}_t\}$ ，但它可以扩展到其他分布）而不是基本预测。给定估计的分布参数 θt，我们通过使用重新参数化技巧从预测分布中绘制一组 N 个蒙特卡罗样本来生成概率基础预测。然后，我们通过我们提出的可学习投影层执行前馈传递来执行投影步骤，最后，我们从样本中计算足够的统计数据，并使用它们来计算在训练期间最大化的（对数）似然损失函数（或任何其他相关损失函数）。与点预测的公式（2）类似，我们的方法解决了以下优化问题
在这里插入图片描述
该公式最大化了学习分布的对数似然。 $\Theta_t^{c}$ 是在 $SP\boldsymbol{z}_t$ 上计算的充分统计量， $z_{t} \sim p(\Theta_{t})$ 其中 $\Theta_{t}$ = $g(f_\theta(\boldsymbol{y}_{1:t-1}))$ 和 g(·) 是计算假设基础分布的充分统计量的函数来自神经预测器的输出。根据我们对预测分布的假设，可以分析地表达 p(·) 和 g(·)。请注意，在我们的例子中，投影矩阵仅影响分布的均值（和方差）。在下面的实验部分中，为了评估所提出方法的性能，我们对点和概率分层时间序列预测进行了广泛的实验。

5. Experiments

5.1. Datasets

我们在 Rangapuram 等人使用的公开可用的分层数据集上评估了我们提出的方法。（2021）。我们考虑劳工数据集（澳大利亚统计局，2020），其中包含 1978 年 2 月至 2020 年 12 月的澳大利亚月度就业数据；交通数据集（Cuturi，2011），其中包含有关旧金山车道占用率的信息； Wiki 数据集（Ben Taieb & Koo，2019），包含从 2015 年 7 月到 2016 年 12 月期间每日查看的 145,000 篇维基百科文章。我们还在旅游数据集（澳大利亚旅游研究中心，2005）上测试了我们的方法，该数据集呈现了地理层次结构对 1998 年至 2006 年澳大利亚旅游流量的季度观察，以及 TourismLarge 数据集，该数据集是基于地理和旅行目的的更大、更详细的旅游版本（Wickramasuriya 等，2019）。对于每个数据集，我们使用表 2 中提供的预测长度。对于给定的预测范围 h，我们假设手头的多元时间序列的总长度为 T + h，用于训练的时间序列的总长度为 T。

5.2. Metrics

为了评估点预测的准确性，我们使用定义为 $\sqrt{\frac1{nh}\cdot\sum_{\tau=1}^h||\boldsymbol{y}_{T+\tau}-\tilde{\boldsymbol{y}}_{T+\tau}||_2^2}$ 的均方根误差 (RMSE) 和加权平均绝对值百分比误差 (wMAPE) 定义为 $\frac{1}{nh}\cdot\frac{\sum_{\tau=1}^{h}||\boldsymbol{y}_{T+\tau}-\tilde{\boldsymbol{y}}_{T+\tau}||_{1}}{\sum_{\tau=1}^{h}||\boldsymbol{y}_{T+\tau}||_{1}}$ 。为了评估预测分布的准确性，我们使用总连续排名概率得分（CRPS；Gneiting & Ranjan (2011)）。给定多元时间序列 yt 的估计预测 CDF $\hat{F}_{t}$ 、单变量时间序列 i 的 CDF $\hat{F}_{t,i}$ 以及真实观测值 $y_{t,i}$ ，总 CRPS 定义为 $\mathrm{CRPS}_{sum}(\hat{F}_t,\boldsymbol{y}_t) = \sum_i\int_0^1\mathrm{QS}_q(\hat{F}_{t,i}^{-1},y_{t,i}) dq$ ，其中 QSq 是第 q 个分位数的分位数得分，即 $\mathrm{QS}_q\big(\hat{F}_{t,i}^{-1},y_{t,i}\big) = 2\big(\mathbb{1}\big\{y_{t,i} \leq \hat{F}_{t,i}^{-1}(q)\big\} - q\big)\big(\hat{F}_{t,i}^{-1}(q) -y_{t,i}$ 。在实验中，我们使用 GluonTS（Alexandrov 等人，2020）的总 CRPS 实现，所有分位数从 0.05 到 0.95，步长为 0.05。

5.3. Models

我们使用两个骨干模型作为神经预测器 fθ 来测试我们的方法，即 TimesNet（Wu 等人，2022）和 Autoformer（Wu 等人（2021））。对于点预测，我们使用均方误差 (MSE) 作为损失函数，而对于概率预测，我们学习高斯分布的参数集 $\Theta_t=\{\boldsymbol{\mu}_t,\boldsymbol{\Sigma}_t\}$ ，其中 µ ∈ Rn 对应于 mean 和 $\boldsymbol{\Sigma}_t\in\mathbb{R}^{n\times n}$ 对应对角协方差矩阵，使用高斯负对数似然作为损失函数。我们选择 TimesNet 和 Autoformer 模型作为神经预测主干，因为它们在各种数据集中的预测精度很高。

5.4. Benchmarks

我们将我们的方法与顺序和端到端性质的几个基准进行比较。我们使用 TimesNet 和 Autoformer 作为骨干神经预测器，并执行交叉验证来找到每个数据集的最佳参数集。为了对神经预测器执行交叉验证，我们在前 T − h 时间步长上进行训练，并在接下来的 h 时间步长上进行验证。对于 TimesNet，我们使用 Wu 等人提出的超参数。（2022）进行短期预测，我们使用 Olivares 等人提出的默认超参数选择方法。（2022a）。对于 Autoformer 模型，我们再次使用 Olivares 等人提出的默认超参数选择方法。（2022a）。对于这两种模型，对于一般倾斜投影族，我们使用 λ = 104 的拉格朗日乘子，因为该值足够大以保证协调。在附录 C 部分中，我们提出了一项广泛的实验研究，调查不同拉格朗日乘子对学习投影矩阵的影响，并说明为什么所选值会产生经过认证的投影矩阵。作为基线模型，我们考虑 Naive 和 SeasonalNaive 基准（Meyer，2002；Garza 等人，2022）。

对于顺序基准，我们首先训练 TimesNet 和 Autoformer (AF) 以生成各自的基础预测。然后，我们将各种调节方法应用于基本预测。具体来说，我们使用自下而上 (BU)、自上而下（TD；预测比例分解策略）、MinT-ols、MinT-shr、MinT-var 和 ERM 调节方法。 MinT 方法强制要求 $(S^TW_\tau^{-1}S)^{-1}(S^TW_\tau^{-1})$ 。在 MinT-ols 中，使用 OLS 估计器，即 $W_{\tau}$ = I。在 MinT-shr 中， $W_{\tau}$ 是收缩估计器，其中 $W_{\tau}$ = $\alpha)W_s + \alpha W_d$ ，其中 $W_{s} = \frac{1}{T}\sum_{t=1}^{T}\hat{\boldsymbol{\epsilon}}_{t+1}(\hat{\boldsymbol{\epsilon}}_{t+1})^{T}$ , $\begin{aligned}W_d = diag(W_s) \text{and} \alpha \in (0,1]\end{aligned}$ 。最后，在 MinT-var 中， $W_{\tau}$ 是误差方差的对角矩阵（α = 0 的收缩估计器）。ERM 对应于经验风险最小化协调方法，其中 $\begin{aligned}P=\arg\min_P\frac{1}{(T-T_1-h+1)n}\sum_{t=T_1}^{T-h}||\boldsymbol{y}_{t+h}-SP\boldsymbol{\hat{y}}_{t+h}||_2^2\end{aligned}$ ，其中 T − T1 − h + 1 是验证集中的观测值数量，我们使用整个训练样本来计算 P（即 T1 = 1）。和奥利瓦雷斯等人（2022b）。

5.5. Results

对于每个数据集，我们运行 10 次独立模拟。我们在表 3 中报告了 RMSE 的平均值和标准差，而由于篇幅限制，我们在表 4 中报告了 wMAPE 的平均值和标准差，在附录 B 部分的表 5 中报告了用于概率预测的 CRPS 的平均值和标准差。

我们观察到，在所有情况下，我们提出的端到端协调方法都能在同一骨干模型中产生最准确的预测。在这两种骨干神经预测器中，TimesNet 在两个数据集（Labour 和 Wiki）中表现最好，AF 在 Traffic 数据集中表现最好，而在 Tourism 和 TourismLarge 数据集中，两个模型的表现大致相同。值得注意的是，Naive 和 SeasonalNaive 基线在交通和劳动力数据集上表现出足够好的准确性。

在这里插入图片描述

5.6. Insights on the Resulting Projection Matrices

实验揭示了对学习的投影矩阵的结构的有趣见解，特别是关于学习的投影的类型。已知正交投影的谱范数为 1，倾斜投影的谱范数大于 1，这意味着谱范数越大，投影距离正交的距离就越远。通过检查实验中谱范数的分布（参见附录的表 6 和表 7），我们观察到较高的谱范数与更难预测的数据集一致，即表现出最高的 RMSE。对于此类数据集，我们的方法生成的投影远非正交。从本质上讲，这意味着学习的投影会为层次结构中较难预测的各个序列分配更高的权重，以减少总体误差。

我们还在附录 E 部分中包含了所得正交矩阵、广义欧几里得矩阵和一般投影矩阵的可视化。对于我们实验中的所有数据集，我们观察到正交投影矩阵是对称且稀疏的，而对于广义欧几里德和一般投影，矩阵不是对称的并且更密集，因为它包含有关每个分配的权重的更多信息预测误差。此外，可以看出，所有三个矩阵类别都保留了层次结构，因为在所有矩阵中都观察到 S 的恒定模式。

6. Related Literature

最近有关分层预测的工作都集中在实施端到端框架上。兰加普拉姆等人。 (2021) 是第一个提出端到端模型的人，该模型由神经预测器和正交投影组成。虽然 Rangapuram 等人。（2021）仅考虑概率预测，我们的论文还考虑点预测。更重要的是，我们提出了如何学习倾斜投影而不是预先指定的正交投影。 Theodosiou & Kourentzes (2021) 引入了一种深度学习方法，通过将基础预测的生成和端到端方法的协调相结合来增强时间层次学习。本文并不关注投影，而是提出了两种执行协调步骤的方法。达斯等人。（2023）提出了一种端到端的神经预测模型，该模型遵循经典的自上而下协调策略的原理，并学习根时间序列的分布以及每个父时间序列的分割比例。奥利瓦雷斯等人。 (2023)提出了一种结合神经网络和统计模型的模型，用于学习分层多元时间序列结构的联合分布。即使在这种设置中，模型参数是根据随后的协调方法学习的，但协调要么无法保证（Theodosiou＆Kourentzes，2021），要么是预先定义的（Rangapuram等人，2021；Olivares等人，2023））或没有重要的理论保证（例如保持公正性）（Das et al., 2023）。

表 3. 测试所有模型的分层数据集的 RMSE。每个数据集和每个模型实现的最佳 RMSE 以粗体突出显示，而第二好的以斜体突出显示。 Naive 和 SeasonalNaive 的预测始终一致，因此在使用传统调节方法（BU、TD、MinT）时会产生相同的预测。因此，由于空间限制，我们省略了它们。
在这里插入图片描述

7. Conclusion

在这项工作中，我们提出了一种从数据中学习最佳协调步骤的新方法。与现有的最先进的方法相比，现有的最先进的方法对相干子空间采用预定义的协调步骤，我们提出的方法在训练期间学习最佳投影。这是通过将投影建模为用于分层时间序列预测的神经预测器架构中的可学习的结构化投影层来实现的。在此框架中，我们使用两大类倾斜投影；广义欧几里得和一般投影。我们提出的方法有效地解决了根据层次结构不同地权衡各个时间序列的预测误差的挑战。我们通过对现实世界的分层数据集进行广泛的实验来评估我们提出的方法，在这些实验中，我们展示了我们的方法在点预测和概率预测方面与最先进的协调方法相比的优越性能。