SIN: Selective and Interpretable Normalization for Long-Term Time Series Forecasting

最新推荐文章于 2024-10-02 22:56:59 发布

萧宛亦

最新推荐文章于 2024-10-02 22:56:59 发布

阅读量56

点赞数

文章标签：大数据人工智能深度学习机器学习 transformer

原文链接：https://openreview.net/pdf?id=cUMOVfOIve

版权

系列文章目录

SIN：长期时间序列预测的选择性和可解释的归一化 ICML2024

文章目录

系列文章目录
摘要
一、引言
二、 Related Work
三、 Preliminaries
- 3.1. Time Series Forecasting
- 3.2. Normalization in Time Series
四、 Methodology
五、 Analysis and Experiment
6. Conclusion

摘要

在实际应用中，时间序列数据经常表现出非平稳性，统计数据会随时间变化。这种可变性削弱了深度学习模型的预测准确性，这些模型是根据历史数据训练的，但部署用于未来预测。缓解此问题的常用方法包括对数据进行归一化以抵消统计漂移，然后对预测进行反归一化。然而，现有的方法通常采用启发式归一化技术，该技术不能完全说明序列的独特特性。我们的文件解决了这方面的关键问题：哪些统计数据应该删除和恢复？我们认为，选择的归一化统计量应同时表现出局部不变性和全局变异性，以确保其正确性和有用性。为此，我们提出了选择性和可解释性规范化方法，称为SIN。该方法最大化给定回顾窗口与其后续未来值之间的协方差，从而识别用于归一化的关键统计量，并同时学习对应的归一化变换。该可解释框架可以用来解释一些流行的规范化方法的成功和局限性。通过整合SIN，我们展示了几种流行预测模型的性能改进，从而验证了我们的方法的实用性。

一、引言

时间序列预测在包括能源在内的许多领域中发挥着关键作用（Kardakos等人，2013年）、交通（Kadiyala和Kumar，2014年）和医疗保健（Morid等人，2023年）的报告。近年来，深度学习已成为该领域的主导力量，并带来了与传统统计方法的重大转变（Box et al.，2015年）到各种神经网络（Hochreiter和Schmidhuber，1997年; Cho等人，2014年; Rangapuram等人，2018年; Bai等人，2018年; Franceschi等人，2019年; Zhou等人，2021年; Wu等人，2021 a; Zhou等人，2022; Liu等人，第2022条b款）。与传统的统计方法相比，这些方法的性能得到了提高，特别是在处理具有长期相关性的高维序列时。
在这里插入图片描述
图1.正规化方法会从输入中移除统计数据，并将统计数据还原为模型的预测。此过程可缓解全局发生的统计数据漂移。以前的方法通常使用启发式归一化，忽略了每个时间序列的唯一统计量。相比之下，我们的方法通过使用学习的归一化方法克服了局限性。

然而，深度学习模型在时间序列预测中的有效性往往会受到时间序列固有的非平稳性的阻碍（Hyndman & Athanasopoulos，2018; Petropoulos et al.，2022年）的报告。非平稳性的特点是随时间变化的统计属性，如均值和方差，提出了一个艰巨的挑战。在历史数据上训练的模型可能与表现出不同分布的未来系列作斗争（Kim等人，2021年; Han等人，2024年）的报告。

为了应对这一挑战，归一化方法已成为一个关键步骤，如图1所示。通过从序列中去除局部统计量，归一化减轻了可见和不可见数据之间的分布漂移的影响，增强了模型从过去的观察到未来部署的概括能力（Passalis等人，2020年; Kim等人，2021年; Fan等人，2023年）的报告。然而，标准化的有效性取决于两个关键决定：标准化统计数据的选择和标准化方法。传统的方法经常求助于启发式技术，例如将序列移动到零均值（Kim等人，2021年），但这些方法可能不能完全捕捉到时间序列的独特方面和动态。

认识到现有方法的局限性，本文重新评估的作用，规范化和重点的关键问题：哪些统计数据应删除和恢复？我们指出了统计应该具有的两个重要属性-局部不变性和全局可变性。局部不变性属性指示统计数据在回顾历史和预测未来之间应保持不变或缓慢变化，使得移除和恢复操作有效。全局变异性表示统计数据应该随着时间的推移而具有较大的方差，这对基础模型的学习具有挑战性，需要进行归一化以防止对训练数据的过度拟合。

为此，我们提出了选择性和可解释的规范化（SIN）来学习如何规范化。SIN利用偏最小二乘法（PLS），这是一种以处理高维数据并揭示解释变量之间协方差的潜在结构的能力而闻名的统计方法。通过最大化相邻的过去和未来之间的协方差，SIN有效地识别关键的统计数据进行规范化，并设计最佳的规范化策略。这种双重功能可确保所选统计量既具有局部不变性又具有全局可变性，同时还提供可解释的归一化转换。我们的实证分析表明，虽然平均值往往是协方差在许多时间序列中最具解释性的统计量，但它并不是普遍最优的，正如正弦波在解释协方差方面的重要作用所证明的那样。我们的SIN方法熟练地学习和应用这些相关的统计数据进行归一化。当集成到各种当代模型中时，我们的SIN方法在预测性能上有了很大的提高。我们的贡献概述如下：

1.我们重新考虑时间序列的规范化过程，并确定统计数据应具有的两个属性-局部不变性和全局可变性。

2.我们提出了选择性和可解释的标准化（SIN）来学习通过偏最小二乘选择和执行标准化，以最大化历史和未来之间统计数据的协方差。实验结果表明，它的有效性，提高了各种最近的预测模型的性能。

3.SIN是可解释的，并且是流行的归一化方法的推广，如移动到零均值。这些方法在不同类型的系列上的成功和局限性可以在我们的框架中得到解释。

二、 Related Work

时间序列预测。时间序列预测是一个重要的研究领域，在工业和学术界都有应用。由于神经网络的强大表示能力，深度预测模型得到了快速发展（Lim & Zohren，2020; Wu et al.，2020年; 2021 b年; Cirstea等人，2018年; Cui等人，2021年）的报告。两种广泛使用的时间序列预测方法是递归神经网络（RNNs）和卷积神经网络（CNNs）。RNN基于马尔可夫假设对连续的时间点建模（Hochreiter & Schmidhuber，1997; Cho等人，2014年; Rangapuram等人，2018），而CNN使用诸如时间卷积网络（TCN）的技术来提取沿着时间维度的变化信息（Bai等人，2018年; Franceschi等人，（2019年版）。然而，由于RNN中的马尔可夫假设和TCN中的局部接收特性，这两种模型都无法捕捉序列数据的长期相关性。最近，Transformer模型用于长期时间序列预测任务的潜力已经引起了人们的注意，这是由于它们能够通过注意机制提取长期相关性（Zhou等人，2021年; Wu等人，2021 a; Zhou等人，2022年）的报告。然而，Zeng等人（2023）强调，变压器的有效性低于简单的线性模型。Han等人（2024）的进一步分析将该现象归因于缺乏抵抗测试时分布漂移的稳健性。

时间序列的非平稳性。非平稳时间序列是统计特性（如均值和方差）随时间变化的序列。它是统计建模和预测的一个重要方面，特别是在经济学、金融学和环境科学等领域。非平稳时间序列通常表现出趋势性、季节性或变化的波动性，使其分析更加复杂（Madsen，2007）。传统方法通常对时间序列进行平稳化处理，使其更具有可预测性。例如，Box & Jenkins（1968）使用差分法，通过减去前一个观测值，使非平稳时间序列平稳。分解方法对序列中的趋势和季节性进行建模，然后将其移除以获得平稳序列（Cleveland等人，1990年; Dagum和Bianconcini，2016年; Wu等人，2021 a; Zhou等人，2022年）的报告。即使这些模型可以捕获可见序列内的非平稳性，它们也容易受到不可见序列中固有分布漂移的影响（Kim等人，2021年; Han等人，2024年）的报告。

时间序列预测中的正态化。与传统的机器学习中的漂移挑战不同，在时间序列任务中，目标紧跟在输入之后，因此目标和输入高度相关。基于此，归一化技术成为近年来研究的热点。这些方法努力减少非静态元素并将数据调整为一致的分布。DAIN（Passalis等人，2020年）推出了一种创新的非线性网络。该网络擅长于自适应地归一化每个输入实例。ST范数（Deng等）通过提供双重标准化模块，重点关注数据的时间和空间维度，做出了贡献。然而，随后的研究突出了一个关键的见解：非平稳因素不仅仅是噪声，而是准确预测的组成部分。删除这些元素可能会导致预测不达标。为了解决这个问题，雷文（Kim等人，2021）提出了一种新的对称归一化方法。它涉及到规范化输入序列，然后对模型的输出序列应用反规范化，利用实例规范化（Ulyanov等人，（2016年版）。基于这一概念，非固定变压器（Liu等人，2022c）在自注意框架内引入了一种创新去静止注意机制。通过整合非平稳因素，这种包含显著增强了基于变压器的模型的性能。该领域的最新进展见Fan et al.（2023），该研究确定了时间序列数据中的空间内和空间间分布偏移。提出的解决方案侧重于学习分布系数以有效地解决这些偏移。最后，SAN（Liu等人，2023）进一步扩展了规范化概念。它超越了实例级别，在切片级别应用归一化，从而为处理非平稳时间序列数据开辟了新的途径。

然而，这些方法以启发式的方式应用归一化，通常通过减去平均值并除以标准差。然而，这些随机选择的统计量不足以完全描述时间序列数据的局部不变性。认识到以前的方法的局限性，我们提出了一种新的方法来选择统计量和学习归一化变换。

三、 Preliminaries

3.1. Time Series Forecasting

时间序列预测处理在每个时间步包含一个或多个变量或通道的时间序列数据。给定历史值 $\mathcal{X}\in\mathbb{R}^{L\times C}$ ，其中L表示回顾窗口的长度，C是通道的数量。目标是预测未来值 $\mathcal{Y}\in\mathbb{R}^{H\times C}$ ，其中H > 0是预测范围。预测模型的目标是最小化预测风险 $\mathcal{R}$ ：

在这里插入图片描述
$\text{e}$
是回归损失，通常是MSE损失（Zhou et al.，2021年; Wu等人，2021 a; Zhou等人，2022年）的报告。

3.2. Normalization in Time Series

时间序列预测中的一个主要挑战是由数据的非平稳性引起的分布漂移。在历史数据上训练的预测模型，在面对呈现独特分布的看不见的数据时，可能表现不佳。与一般的机器学习场景不同，在时间序列预测中，目标输出与输入密切相关。因此，归一化方法被普遍应用于通过移除并随后将统计特性从历史输入转移到未来预测来解决分布漂移。形式上，给定历史输入，归一化方法首先用特定函数g计算统计量 $\Theta_{t}$ ：
在这里插入图片描述
然后使用归一化函数h从输入中去除统计信息：

预测模型基于标准化输入 $\tilde{\chi}_{t}$ 预测标准化未来值 $\tilde{y}_{t}$ ：

在这里插入图片描述
最后，使用反归一化函数 $h^{*}$ 来基于归一化值和统计数据获得最终预测值 $\hat{\mathcal{Y}}_{t}$ ：

在这里插入图片描述
传统的标准化方法主要应用统计学，例如计算均值和方差，来计算这些统计量。然而，这种启发式方法可能无法充分利用每个时间序列数据集的独特特征。

四、 Methodology

上一节描述了基于归一化的方法的框架，以减轻时间序列预测的分布漂移。在本节中，我们首先重新思考归一化的作用，并讨论转移的统计量应该具有的两个属性-局部不变性和全局可变性。然后，基于这一思想，我们提出了一种简单的方法，称为选择性和可解释的归一化（SIN）学习规范化和反规范化对的偏最小二乘法。最后，我们解释如何使用学习的归一化进行预测。

4.1. Properties for Normalization

归一化的关键思想是将输入历史的统计数据转换为未来的预测。这对统计数据的属性提出了独特的要求。在这里，我们确定了统计学应该拥有的两个重要属性，即局部不变性和全局可变性。

4.1局部不变性（Local Invariance）给定相似性函数sim、统计计算函数g以及一组回顾序列 $x_{t}$ 和对应的未来 $y_{t}$ ，g的局部不变性被测量为 $\sum_tsim(x_t,y_t)$

在这里插入图片描述
图2.选择性和可解释的归一化（SIN）方法的图示。SIN首先通过最大化回顾窗口和未来之间的统计的局部不变性和全局可变性来学习归一化方法。然后，我们使用学习的归一化方法从原始序列中去除统计量，并将其恢复为预测值。此过程捕获时间序列中的不变性，并使预测模型不易受未知数据的分布漂移的影响。SIN使用简单的线性模型，使归一化可解释，并有助于揭示每个时间序列的特征。

保持较大的局部不变性，保证了时间序列预测的归一化和反归一化运算的正确性。在预测窗口内，统计数据应保持不变，以使其能够准确地从历史数据转移到未来的预测。然而，局部不变性本身不足以使归一化具有充分的功效。例如，函数g（·）= 0实现了完美的局部不变性，但对时间序列预测精度没有任何贡献。因此，需要一个额外的属性：

定义4.2（全局可变性）。给定统计量计算函数g和一组子序列 $x_{t}$ ，g的全局变异性被测量为统计量 $Var[g(x_t)]$ 的方差。

保持全局可变性较大，确保了归一化函数在根据给定历史预测未来值时的有用性。这些全局变化的统计数据对预测模型提出了挑战，以捕获并将模型置于过拟合的风险中。因此，设计良好的标准化方法可以消除这些全局变量统计数据，从而降低误解看不见的数据系列的风险。

4.2. Learning Normalization

基于前面概述的有效归一化所必需的属性，我们引入了一种简单的方法来确定归一化的最佳统计量。考虑到历史输入值和未来值可能在序列长度上不同，并且需要不同的计算方法，我们定义了两个统计函数， $g_{x}$ 用于输入，戈伊用于未来值。为了简单起见，我们假设 $g_{x}$ 是由单位向量 $u\in\mathbb{R}^L$ 参数化的线性投影。换句话说， $g_x(\boldsymbol{x})=\boldsymbol{u}^\top x$ 。类似地， $g_{y}(\boldsymbol{y})=\boldsymbol{v}^{\top}\boldsymbol{y},\boldsymbol{v}\in\mathbb{R}^{H},\|\boldsymbol{v}\|=1$ 。首先，我们最大化局部不变性，如定义4.1所示。我们选择负欧几里德距离作为相似性度量。因此，局部不变性损失采用以下形式：

在这里插入图片描述
为了根据定义4.1最大化这些统计量的方差，全局变异性损失具有以下形式：

在不失一般性的情况下，可以安全地假设时间序列沿均值为零的序列沿着居中。因此，将两种损失加在一起将导致简化的目标：

在这里插入图片描述

这里，我们定义 $X\quad=\quad(x_1,x_2,\ldots,x_T)^\top$ ， $Y\quad=\quad(y_1,y_2,\ldots,y_T)^\top$ 作为子序列的集合。1等式（8）是一个框架，旨在最大化X和Y的计算统计量之间的协方差。为了简单和便于解释，我们在这里只使用线性投影。然而，该框架可以通过核方法或神经网络容易地扩展到非线性场景（Lindgren等人，（1993年）。方程（8）还对应于经典的偏最小二乘（PLS）问题，其找到预测变量和可观测变量到新空间的线性投影。在新的空间中，最大程度地解释了两个变量之间的协方差（Abdi，2010）。许多方法可用于解决PLS问题（Dayal & MacGregor，1997; Trygg &Wold，2002）。在此，我们应用PLS-SVD方法，该方法可以有效地计算投影u和v。具体地，协方差矩阵的奇异值分解（SVD）采用以下形式：

在这里插入图片描述

其中U、V是正交矩阵。对角矩阵R2度量每个左奇异向量对和右奇异向量对的重要性。PLS-SVD算法只是把左上/右上奇异向量作为x和y上的线性投影。

在实验中，我们发现奇异值急剧衰减到零，并且奇异值大于τ = 0.05×max{L，H}的投影通常表现出有意义的模式和更好的结果。因此，我们选择奇异值大于τ的奇异向量作为投影函数。将所选择的奇异向量表示为 $\tilde{U},\tilde{V}$ ，学习的归一化函数采用以下形式：

在这里插入图片描述

对于每个通道，我们独立地学习归一化方法。

讨论很容易看出，通过设置u = $\frac{1}{\sqrt{L}}\mathbf{1}_{L},\boldsymbol{u}=\frac{1}{\sqrt{H}}\mathbf{1}_{H}$ ，其中 $1_{n}$ 是n维的全1向量，SIN严格等于实例归一化中的均值偏移方法。SIN也包括离散余弦变换，通过设置 $u=\frac c{\|c\|},c=\{\cos(\frac{\pi k}L+a)\}_{k=1}^L$ 。在5.2节中，我们将说明这些变换对不同序列的贡献不同。均值偏移、离散余弦变换和SIN的比较结果见附录C。

4.3. Forecasting with Normalization

规范化。一旦我们从前面的小节中学习了归一化方法 $g_{x}$ 和 $g_{y}$ ，我们就将归一化方法应用到预测任务中，以帮助模型提高预测性能。为了避免符号混淆，我们省略了每个系列的通道符号，因为我们独立地对每个通道应用归一化。给定一个回顾窗口X，将单个通道的级数表示为 $x\in\mathbb{R}^{L}$ 。我们首先通过 $g_{x}$ 计算统计量：

在这里插入图片描述

然后我们通过从统计量中减去重建来归一化序列：

在这里插入图片描述

这里反函数 $g_x^{-1}$ 被计算为原始空间的线性投影，即 $g_x^{-1}(\Theta_x)$ = $\min_{\boldsymbol{U}^\star}\|\Theta_x\boldsymbol{U}^\star-\boldsymbol{x}\|=\Theta_x\tilde{\boldsymbol{U}}$ 。这种标准化从序列中删除了局部不变和全局变量统计信息，留下了对预测模型变化不大的动态分量。该方法充分利用了时间序列的动态预测能力，同时降低了由高方差特征引起的过拟合风险。

反规格化。所学习的统计计算函数在历史-未来对之间是局部不变的。因此，统计数据可以很容易地从过去转移到未来。遵循Kim等人的标准化实践，2021）中，我们使用简单的仿射模型将统计量从x转移到y。具体地说，该模块被参数化为 $\phi$ ，y的统计量按以下形式计算：

在这里插入图片描述

其中，圈点是元素级乘积。然后，给定模型预测值 $\tilde{y}$ ，我们通过以下等式恢复统计数据：

在这里插入图片描述
在这里，我们将逆变换 $g_{x}^{-1}$ 和 $g_{y}^{-1}$ 的尺度与 $\sqrt{\frac HL}$ 对齐。

五、 Analysis and Experiment

最后数值模拟并通过实验验证了方法的有效性.本文首先对学习变换进行了分析，揭示了每个时间序列数据集的特征。然后，我们证明了我们的方法可以在各种数据集上改进预测模型。

5.1. Setup

数据集。我们在11个广泛使用的真实数据集上进行了广泛的实验，这些数据集涵盖了五个主流的时间序列预测应用，即能源、电力、交通、经济和天气。数据集包括：（1）ETT（电力Transformer温度）（Zhou等人，2021年）由2个小时级数据集（ETTh）和2个15分钟级数据集（ETTm）组成。每个数据集包含2016年7月至2018年7月的7个电力变压器油和负荷特征。(2)交通量描述了道路占用率。它包含了2015年至2016年弗朗西斯科高速公路传感器记录的每小时数据。(3)电力收集了321个客户2012年至2014年的小时用电量。(4)汇率（Lai等人，2018）收集了8个国家1990年至2016年的每日汇率。(5)天气包括21个天气指标，如气温和湿度。在德国，2020年的数据每10分钟记录一次。(6)ILI描述了出现流感样疾病的患者比例和患者数量。其中包括了美国疾病控制和预防中心2002年至2021年的每周数据。(7)太阳能（Lai等人，2018）记录了2006年137座光伏电站的太阳能发电量，每10分钟采样一次。（8）PEMS（Liu等人，2022a）包含5分钟窗口收集的加州公共交通网络数据。
在这里插入图片描述

在这里插入图片描述
图3.在两个典型数据集上学习的SIN变换的可视化。(1)上层是典型的渠道。(2)左中是每个通道的奇异值。(3)右中和左下图显示了左奇异向量和右奇异向量（回顾窗口和未来上的变换向量）。(4)在局部不变性损失和全局变异性损失的情况下，将学习的SIN变换与常用的均值漂移方法进行比较。

预测模型。SIN是一种模型不可知的方法，可以与任意预测模型集成。为了证明该方法的有效性，我们选择了几种基于不同体系结构的主流模型，并评估了它们在长期多变量时间序列预测中的性能：Informer（Zhou et al.，2021）、自动成型机（Wu等人，2021 a）和FEDMormer（Zhou等人，2022年）的报告。我们按照FEDformer 2的官方代码中提供的实现和设置来实现这些模型。

实验细节。统计量转移模块是一个简单的仿射模型，参数为∈ Rm，其中m是所选奇异向量的个数。我们使用ADAM（Kingma & Ba，2017）作为所有实验的默认优化器，并报告均方误差（MSE）和平均绝对误差（MAE）作为评价指标。MSE/MAE越低，表示性能越好。所有的实验都由PyTorch（Paszke等人，2019年），并在单个NVIDIA RTX 3090 24 GB GPU上使用固定随机种子进行了三次运行。

5.2. Interpretable Analysis

我们的SIN使用一个简单的线性投影模型的归一化变换，这使得我们的方法可解释检查每个时间序列的特征。在本小节中，将学习到的变换在不同的序列上进行可视化，并在这些可视化下进行比较。

转换的可视化。在此，我们以L = 96，H = 192的情况进行实验。为了理解SIN的学习变换和每个时间序列数据的属性，我们选择性地在两个典型的时间序列数据上可视化以下内容：（1）上图是所选通道上的单变序列的图。此通道在图的左上角较高，其线上有标记。(2)左中是以降序排列的奇异值。我们将重点介绍这些渠道的一个典型示例。注为均值移动的地平线是以u′和v′为单位向量的情形。均值移位线位于（u′）X Yv′，它与Lloc inv+Lglo var成比例。（3）右中和左下分别表示前三个左奇异向量和右奇异向量。对应奇异值大于τ = 0.05 * max{96，192}的左/右奇异向量被突出显示。(4)右下图示出了局部不变性、全局可变性的值，以及两个损失与均值偏移和由顶部1个奇异向量对表示的学习的SIN变换的组合。结果显示在3.从图中，我们得到了以下结论。

表1.对于PEMS数据集，预测长度为H ∈ {12，24，48，96}的长期多元预测误差;对于其他数据集，预测长度为H ∈ {96，192，336，720}的长期多元预测误差。我们将回溯长度固定为T = 96。根据所有预测长度平均所有结果。所有预测长度的结果见附录F。
在这里插入图片描述

在这里插入图片描述

图4.通过均值偏移和SIN归一化后在列车和试验数据上的分布。我们的SIN方法可以学习将数据转换为更正态分布。

SIN对不同的数据集采用不同的归一化变换。图3显示了两个典型的数据集-主要是季节性系列的流量和主要是趋势系列的汇率。两个数据集的谱（奇异值）显示出不同的模式。对于季节序列，谱通常由两个奇异值支配。这两个值对应于具有相同频率但不同相位的两个不同谐波。这些波代表了该系列的主要周期。例如，每小时对交通数据进行采样，因此交通的主要周期是24，与SIN学习的周期一致雅阁。对于趋势序列，频谱由第一奇异值主导（所有通道> 99%）。相应的奇异向量近似为常数向量，等价于均值平移操作。SIN可以自动地对不同的时间序列采取不同的策略。

均值转移的成功与局限。均值漂移是实例归一化中的一个重要操作，它是许多现有方法的必要预处理。这个变换是我们的框架中的一个特例，它将u和v设置为常向量。从我们的可视化中，我们可以将此操作与SIN框架进行比较。在像汇率这样的趋势数据集上，均值偏移操作特别有用，因为它几乎达到了此类数据集的最大奇异值。它也接近于SIN学习到的转换。序列的平均值实现了较低的局部不变性损失和全局变异性损失。因此，均值偏移是趋势序列的有益归一化。然而，对于像交通量这样的季节性序列，仅仅改变均值可能无助于提高预测性能。如流量序列的频谱所示，均值偏移仅对协方差的很小部分有贡献。这背后的原因是，尽管均值漂移是局部不变的，但它不是全局多样的。在下一节的表2中，我们还展示了与实例归一化相比，SIN方法实现了更好的性能提升，尤其是在季节性序列上。

SIN产生更多的“正态”分布。此外，我们比较了数据分布后，被归一化的均值漂移操作和我们的SIN。分布图见图4。从图中，我们可以看到，在趋势序列（Exchange）上，SIN产生了与均值漂移归一化相似的归一化分布。然而，在季节性序列（交通量）上，SIN产生的分布更接近正态分布，显示了我们自适应方法的优势。

表2.SIN学习归一化法与启发式方法雷文的比较。预测模型是FEDformer，我们报告了典型季节性和趋势数据集（交通、太阳能和交易所）的结果。SIN模型能够自适应地选择较好的归一化方法，在季节性数据集上取得了较好的性能。

在这里插入图片描述

5.3. Main Results

我们在表1中报告了多变量预测结果。PEMS数据集的预测范围为H ∈ {12，24，48，96}，而其他数据集的预测范围为H ∈ {96，192，336，720}。对于输入序列长度，我们遵循传统协议，并为所有模型固定L = 96。完整结果见附录F。如表所示，我们清楚地发现，在基准数据集的大多数情况下，我们提出的SIN框架可以大幅提升这些模型。SIN方法的改进可以归因于第5.2节中分析的原因。SIN根据数据集的特征自动选择合适的归一化方法，并将数据转换为更正态的分布。在两个趋势数据集上（例如，交换）和季节性数据集（交通，PEMS），SIN提高了所有模型在所有情况下的预测性能。在交换率方面，SIN将所有模型的性能提高到0.45 MSE左右。这是一个72%的改进线人。在交通方面，SIN将Autoformer从0.615提高到0.539（12.3%），并将FED former从0.605提高到0.519（14.2%）。在四个PEMS数据集上，SIN也显示出比原始Autoformer的巨大改进。在PEMS 07上，显示了70%的改善

5.4. Comparison to Heuristic启发式 Normalization

在第5.2节中，我们已经分析了我们的SIN方法和启发式均值移位归一化，该方法简单地将均值从回顾窗口转移到特征预测。在分析中，我们省略了实例归一化中的缩放操作以及雷文中的仿射模块（Kim等人，2021年）的报告。在本节中，我们将比较SIN方法和雷文方法，两者的主要区别在于规范化和反规范化操作。我们在三个典型的数据集上进行了实验，其中两个数据集由季节序列组成，一个数据集主要由趋势序列组成。预测误差见表2。该表显示了我们的方法在自适应地处理不同类型的序列方面的优越性。在季节序列上，我们的方法可以在所有的时间范围内获得一致的更好的结果。在太阳能数据集上，SIN的性能大大优于雷文，大约提高了35.5%。太阳能的改善也是20%。而在趋势数据集（Exchange）上，SIN实现了与雷文类似的结果，因为所学习的变换几乎与实例归一化相同。在季节性数据集上的上级性能和在趋势数据集上的相似性能是我们在5.2节中分析的经验证据。