Adaptive Normalization for Non-stationary Time Series Forecasting: A Temporal Slice Perspective

萧宛亦

已于 2024-05-30 11:07:58 修改

阅读量67

点赞数 1

文章标签：人工智能 transformer

于 2024-05-17 11:07:07 首次发布

原文链接：https://openreview.net/pdf?id=5BqDSw8r5j

版权

系列文章目录

非平稳时间序列预测的自适应归一化:一个时间切片的视角 NeurIPS 2023

文章目录

系列文章目录
摘要
一、引言
二、相关工作
- 2.1时间序列预测
- 2.2非平稳时间序列预测
三、方法
四、实验
五、结论

摘要

深度学习模型由于其捕获序列依赖性的强大能力而逐步推进了时间序列预测。然而，由于现实世界的数据存在非平稳性，这意味着数据分布随着时间的推移而迅速变化，因此做出准确的预测仍然具有挑战性。为了缓解这种困境，已经进行了一些努力，通过标准化操作来减少非平稳性。然而，这些方法通常忽略了输入序列和水平序列之间的分布差异，并假设同一实例中的所有时间点具有相同的统计属性，这种方法过于理想，可能导致次优的相对改进。为此，我们提出了一种新的切片级自适应归一化，称为SAN，这是一种新的方案，可以通过更灵活的归一化和反归一化来增强时间序列预测。SAN包括两个关键的设计。首先，SAN试图以局部时间片(即子序列)为单位消除时间序列的非平稳性，而不是以全局实例为单位。其次，SAN采用轻微网络模块独立建模原始时间序列统计特性的演变趋势。因此，SAN可以作为一个通用的模型无关插件，并更好地减轻时间序列数据的非平稳性质的影响。我们在四种广泛使用的预测模型上实例化了所提出的SAN，并在基准数据集上测试了它们的预测结果，以评估其有效性。此外，我们还报告了一些有见地的发现，以深入分析和理解我们提出的SAN。我们的代码是公开的。https://github.com/icantnamemyself/SAN

提示：以下是本篇文章正文内容

一、引言

时间序列预测在现实世界中变得越来越普遍。预测的进步促进了各种应用，如能源消耗规划[33]、临床医疗保健分析[16]、财务风险评估[15]和云资源分配[2]。最近，基于深度学习的方法由于其捕获序列依赖性的强大能力，在很大程度上推进了预测和其他任务[23,27,3,42]。

然而，由于时间序列点随时间的快速演变(即时间序列的非平稳性)[31]，对时间序列预测进行准确预测仍然具有挑战性。这种非平稳性可能导致不同时间跨度之间的差异，并阻碍深度学习模型的泛化。为了减轻非平稳性的影响，通过归一化将这些动态因素从原始数据中去除已被提出作为一种可行的解决方案[28]。

近年来，这一研究课题已经有了一些开创性的努力[17,25,10]。虽然这些归一化方法显著提高了预测性能，但我们在现有的解决方案中发现了两个局限性。一方面，现有方法大多忽略了输入序列与水平序列之间的分布差异，简单地利用输入序列的统计性质对输出结果进行反规格化处理。此外，以往的研究假设同一实例内的所有时间点在归一化处理过程中具有相同的统计属性，因此广泛采用全局实例归一化。这种粗粒度的设置是不合适的，因为时间序列点会随着时间的推移而迅速变化[6,20]，特别是在输入序列和水平序列可能跨越相当长的时间的长期预测情景中。例如，由于假日或电力消耗数据的温度峰值等事件，数据分布可能会发生突然变化。

为了更好地说明我们的观点，我们在图1中绘制了一个预测样本。虽然在时间上是相关的，但输入序列的平均值与地平线的平均值有显著差异(从0.75到1.5)，表明可能存在普遍分布差异。而且，这种分布转移可以在更细粒度的切片级别上快速发生，这违反了现有归一化方法的基本假设。因此，这些方法有可能通过使用不正确的统计数据进行归一化而破坏输入序列的每个片段的本能模式，同时由于对未来统计数据的估计不佳，也会导致最终预测结果的预测偏移。

为了克服这些限制，我们提出了一种通用的非平稳时间序列预测归一化框架，称为切片自适应归一化(SAN)。SAN对细粒度时间片(或斑块[26])中的非平稳性进行建模，这些时间片比单个数据点更具信息量，可以视为时间序列数据的基本单位[4,14]。具体地说，输入序列首先被分割成不重叠的等大小的片段，然后根据它们的统计量进行规范化，并输入到预测模型中。同时，我们使用统计预测模块，根据输入的统计数据预测未来切片的分布。最后，将非平稳信息恢复到统计量估计良好的预测模型输出中。通过对切片级特征进行建模，SAN能够消除局部区域的非平稳性。此外，统计预测模块独立建模统计属性的演变趋势，SAN采用更精确的统计数据进行自适应反规范化。因此，将非平稳预测任务分为统计预测和平稳预测，实际上简化了非平稳预测任务。此外，SAN是一个模型不可知的框架，可以应用于任意的预测模型。在广泛使用的基准数据集中进行了充分的实验。结果表明，该方法大大提高了各类主流预测模型的性能，优于先进的归一化方法。
在这里插入图片描述

图1:能源消耗的预测实例及其每日平均值(MeanByDay)的说明。我们还在图中绘制了输入序列的平均值和水平序列的平均值。

综上所述，我们的主要贡献如下:

•我们提出SAN，这是一种用于非平稳时间序列预测任务的通用归一化框架，它通过从时间切片的角度对非平稳性质进行建模来区分。这样，SAN可以更好地去除输入序列中的非平稳因素，同时保持输入序列的不同模式。

•我们为SAN设计了一个灵活的统计预测模块，该模块独立建模统计属性的演变趋势。通过显式学习估计未来分布，SAN可以通过分而治之的方法简化非平稳预测任务。

•我们在九个真实世界的数据集上进行了充分的实验。结果表明，该方法可以应用于各种主流预测模型，并大大提高了预测性能。此外，SAN和最先进的规范化方法之间的比较表明了我们提出的框架的优越性。

二、相关工作

2.1时间序列预测

近几十年来，时间序列预测得到了广泛的研究。最初，ARIMA[1,40]建立了一个自回归模型，并以移动平均方式进行预测。虽然理论上可以保证，但这种传统方法通常需要具有理想属性的数据，这与现实场景不一致。随着数据可用性和计算能力的提高，出现了许多基于深度学习的模型，它们总是遵循序列到序列的范式。递归神经网络(RNNs)首先通过总结时间序列中的过去信息来捕获时间依赖性[30,32,37]。这种架构自然会受到有限的接收场和递归推理模式[43]引起的误差积累问题的困扰，两者都会降低预测精度。为了进一步提高最终预测的性能，已经引入了许多先进的架构来捕获远程依赖关系，例如自注意机制和卷积网络[19,21,24]。此外，为了利用时间序列数据的特点，近期的研究还将趋势季节分解、时频转换等传统分析方法整合到神经网络中[36,44]。此外，最近的一项研究指出，经过分解增强的简单线性网络也能达到竞争性能[39]。此外，基于切片的方法在长时间序列预测任务中显示出更高的准确性[26,41]。

2.2非平稳时间序列预测

大多数时间序列预测方法优先考虑设计能够有效捕获时间依赖性的强大架构，但往往忽略了数据的非平稳性质。考虑到基于深度学习的模型的基本假设是训练集和测试集的数据都遵循相同的分布，这种差异肯定会降低模型对未来时间预测的精度。此外，训练集中实例之间的分布差异可能会引入噪声，使学习任务更难收敛。为了应对这些挑战，人们探索了各种固定方法。

DDG-DA[22]以域自适应的方式预测数据的演化分布。Du等人提出了一种自适应RNN，通过分布表征和分布匹配来减轻非平稳因素的影响。此外，基于归一化的方法也得到了普及，因为它们旨在从原始数据中去除非平稳因素，并将所有数据归一化为一致的分布。DAIN[28]引入了一个非线性网络来学习如何自适应规范化每个输入实例，ST-norm[7]从时间和空间的角度提出了两个规范化模块。后来的研究人员指出，非平稳因素对准确预测至关重要，简单地去除它们可能会导致预测不佳。因此，他们提出了RevIN[17]，这是一种对称的归一化方法，首先对输入序列进行归一化，然后通过实例归一化[34]对模型输出序列进行反规格化。基于类似的结构，Non-stationary Transformers[25]提出了去平稳注意，将非平稳因素纳入了自注意中，比基于transformer的模型有了显著的改进。此外，最近的一项研究[10]发现了时间序列中空间内和空间间的分布变化，并提出了通过学习分布系数来缓解这些问题的方法。

尽管现有的归一化方法是有效的，但它们不恰当地假设在归一化处理过程中，同一实例中的所有时间点共享相同的统计属性。与它们不同的是，我们提出的方法侧重于进一步思考数据的本质，即，分布在紧凑的时间片上是不一致的，而且这种不一致不仅仅是基于每个实例的。

三、方法

我们提出了一种通用的模型不可知的时间序列预测归一化框架，称为切片自适应归一化(SAN)来解决上述不一致问题。考虑时间序列 $X=\{\boldsymbol{x}^{i}\}_{i=1}^{N}$ 及其水平序列 ${Y}=\{\boldsymbol{y}^{i}\}_{i=1}^{N}$ 的输入集，期望SAN能够去除非平稳因素，帮助预测模型基于观测到的输入序列进行更准确的预测。在本节中，我们将介绍整个框架的详细工作流程，并解释它如何处理非平稳时间序列数据。为了提供更好的清晰度，我们在表1中总结了关键符号，整个框架可以参考图2。
表1:关键的数学符号。
在这里插入图片描述

3.1归一化

与现有的非平稳时间序列预测[17]的归一化方法类似，SAN首先对输入序列进行归一化以去除非平稳因素，然后通过反规格化将其恢复到输出序列。不同的是，SAN在每个片的基础上应用这种操作，而不是在整个输入序列上。与全局实例规范化相比，这种局部化操作能更好地维护每个切片的本能模式。框架首先基于t将输入 $x_i$ 分割为M个不重叠的切片 $\{\boldsymbol{x}_{j}^{i}\}_{j=1}^{M}$ ，然后计算每个切片的均值和标准差为:

在这里插入图片描述
其中 $\mu_{j}^{i},\sigma_{j}^{i}\in R^{V*1}\mathrm{~and~}x_{j,t}^{i}$ 为切片 $\boldsymbol{x}_{j}^{i}$ 在第t个时间步长的值。之后，SAN将原始输入序列的每个片段按照各自的统计数据归一化为:

这里我们用·来表示元素积，而λ是一个小常数。最后，SAN将所有切片按其原始时间顺序恢复，并将处理后的不含非平稳因子 $\boldsymbol{\bar{x}}^{i}$ 的序列作为预测模型的新输入。

3.2统计预测

如图2所示，除了主干预测模型gθ(∗)外，SAN还引入了一个独特的统计预测模块fφ(∗)，以更好地估计未来的分布。与现有的利用原始输入序列的统计数据对骨干模型的整个输出进行反规范化的工作不同，SAN面临着每片归一化的自然挑战:如何估计未来每个片的演化分布。为了简化和提高效率，我们使用具有适当激活函数(例如，Relu()用于标准差以确保非负性)的两层感知器网络，该网络根据输入统计数据和平稳化序列学习预测未来分布。

统计预测的质量决定了SAN的整体性能，因为我们依赖于对未来分布的准确估计来恢复每个实例的非平稳性质。在我们的分布建模中，均值决定了给定切片的近似尺度，标准差代表了分散程度，其中小切片的尺度在预测任务中可能更重要。因此，我们的目标是在分析均值分量性质的基础上进一步完善均值分量的建模方法。

在这里插入图片描述
图2:建议的SAN框架的说明。SAN是一种与模型无关的对称归一化框架，从切片的角度去除和恢复时间序列数据中的非平稳因素。SAN以两阶段的方式进行训练。首先将统计预测模块优化为收敛 $l_{sp}$ (convergence)，学习基于切片输入均值 $\mu^{i}$ 和标准差 $\boldsymbol{\sigma}^{i}$ 来预测未来的统计数据。第二阶段是传统的训练预测模型( $l_{fc}$ )的过程，其中统计预测模块被冻结，并作为插件发挥作用。

详细地说，我们认为输入序列的总体均值 $\rho^{i}=\frac{1}{L_{in}}\sum_{1}^{L_{in}}x^{i}\in R^{V*1}$ 是目标序列均值 $\hat{\rho}^{i}=\frac{1}{L_{out}}\sum_{1}^{L_{out}}\boldsymbol{y}^{i}\in R^{V*1}$ 的最大似然估计，因为它们是时间相关的。即 $\rho^{i}\approx\hat{\rho}^{i}.$ 这种性质在现有的研究中被广泛接受[17,25]，因为它们使用整个输入序列的统计量对输出进行反规范化。基于上述假设，我们在我们的方法中引入了残差学习[13]技术，让模块学习未来切片均值 $\hat{\mu}^{i}$ 与整体输入均值 $\rho^{i}$ 之间的差异，而不是预测具体的值。这种方法降低了对未来趋势有先验知识的方法建模的难度。此外，为了解释不同的变量在尺度变化中表现出不同的模式，我们进一步使用初始化为一向量的两个可学习向量 $\boldsymbol{W}_1,\boldsymbol{W}_2\in R^V$ 来表示每个变量的个人偏好权重，使预测以加权和的方式计算。统计预测过程可表述为:
在这里插入图片描述这里 $\boldsymbol{\mu}^i=[\mu_1^i,\mu_2^i...\mu_M^i]\in R^{V*M}$ 表示输入的M个切片的所有平均值， $\boldsymbol{\hat{\mu}}^{i}\in R^{V*K}$ 表示未来K个切片的预测平均值。同样的符号也适用于标准差。利用预测统计量与真实值之间的均方误差(MSE)作为损失函数(lsp)，通过反向传播训练网络。

在这项工作中，我们主要侧重于从切片的角度提出和建模时间序列的非平稳性质。如何为统计预测设计强大的深度模型的挑战留给未来的探索。

3.3 Denormalization

在统计预测的同时，SAN将归一化序列输入预测模型，该模型负责产生内部输出 $\bar{y}^{i}$ 。最后，SAN对主干给出的输出进行反规格化，恢复非平稳因素，以获得准确的预测结果。

对称地，SAN以每片为基础执行，如图2所示。对于内部输出 $\bar{y}^{i}$ ，我们首先将其分成K个不重叠的切片 $\{\bar{\boldsymbol{y}}_{j}^{i}\}_{j=1}^{K}$ 。那么根据我们预测的统计量，任意切片的反规范化操作可以定义为如下公式:
在这里插入图片描述
最后，通过按时间顺序恢复所有的切片，我们可以得到整个框架的最终预测值 $\hat{\boldsymbol{y}}^{i}$ ，这将在稍后用于损失计算( $l_{fc}$ )和性能评估。

3.4两阶段训练模式

虽然整体框架简单明了，但我们发现培训过程需要仔细考虑。由于SAN的规范化流程是对骨干模型的约束，因此整个学习过程实际上是一个双层优化问题[12]。上层的目标是时间序列预测的性能，下层的目标是非规范化输出与真实值之间的分布相似度。正式地说，原来的整体培训过程可以描述为:
在这里插入图片描述
这里我们省略了数据的转换过程，为简洁起见，只保留计算所需的原始输入。

我们提出了一种两阶段的SAN训练范式，通过简化底层优化目标，使其能够专注于估计未来的分布，而不是减少某个模型的非规范化输出与基本事实之间的分布差异。具体来说，我们使用随机梯度下降优化 $\phi^*=\arg\min_\phi\sum_{(\boldsymbol{x}^i,\boldsymbol{y}^i)}l_{sp}(\phi,(\boldsymbol{x}^i,\boldsymbol{y}^i))$ 。这将原来的非平稳预测任务解耦为一个统计预测任务和一个平稳预测任务。在实践中，统计预测模块首先被训练成收敛，然后在训练预测模型的第二阶段将其冻结并作为插件处理。训练算法见附录C.2。

这样的解决方案具有一些令人满意的品质:首先是简单。两阶段模式允许模型体系结构和训练过程的简洁且易于遵循的设计。第二是有效性。统计预测模块对整个训练集进行了优化，使其收敛，期望对未来的分布产生可靠的预测。因此，预测模型可以处理学习归一化数据中的无标度模式的简单任务。这两个优点极大地满足了我们为非平稳时间序列预测任务设计一个简洁而有效的框架的最终目标。第三，也是最重要的是灵活性。虽然对于双层次优化问题已经有很多先进的方法[5,11]，但它们的上、下目标总是高度相关的。相反，我们的建议完全解耦了这些部分，使SAN成为一个模型不可知的框架，无需特殊设计和进一步调优即可迁移到各种场景。

四、实验

在本节中，我们在广泛使用的基准数据集中进行了充分的实验，并与最先进的方法进行了比较，以证明我们提出的SAN框架的有效性。

4.1实验设置

我们在实验中使用了9个数据集，下面是它们的简要描述。(1) ETT3[43]记录了2016年7月至2018年7月电力变压器的油温和负荷特征。它由4个子数据集组成，其中etms每小时采样一次，etms每15分钟采样一次。(2) electry4包含321个客户2016年7月至2019年7月的用电量数据。(3) Exchange5[19]收集了8个国家从1990年到2016年的每日汇率。(4) Traffic6为2015 - 2016年862个传感器记录的旧金山高速公路小时交通负荷。(5) Weather7由21个天气指标组成，包括2021年每10分钟收集一次的气温和湿度。(6) il8记录了2002年至2021年美国疾病控制与预防中心每周流感样疾病患者与总患者的比例。关于这些数据集的详细信息列在表中。我们还在表中报告了ADF检验(Augmented Dickey-Fuller test)[9]结果，它评估了时间序列的平稳性。按照标准协议，我们按照时间顺序将每个数据集分成训练集、验证集和测试集。ETT数据集的分割比例为6:2:2，其他数据集[38]的分割比例为7:1:2。此外，我们在训练数据统计的基础上对它们进行z-score归一化处理，以在同一尺度上测量不同的变量。注意z-score归一化无法处理非平稳时间序列，因为在归一化期间统计量是固定的[28]。
表2:各数据集的统计信息。
在这里插入图片描述
骨干模型 SAN是一个模型不可知的框架，可以应用于任意时间序列预测模型。为了证明该框架的有效性，我们选择了一些基于不同架构的主流模型，并评估了它们在多变量和单变量设置下的性能:基于线性模型的DLinear[39]，基于变压器的Autoformer[38]和FEDformer[45]，以及基于扩展卷积的SCINet[24]。我们遵循DLinear9和sciet10官方代码中提供的实现和设置来实现这些模型。

我们使用ADAM[18]作为所有实验的默认优化器，并报告均方误差(MSE)和平均绝对误差(MAE)作为评估指标。MSE/MAE越低，性能越好。对于SAN中的统计预测模块，为了简单起见，我们使用了一个简单的两层感知器网络，其隐藏大小与骨干模型的嵌入大小相同。统计预测模块的详细实现可参考附录C.1。所有实验均由PyTorch[29]实现，并在单个NVIDIA RTX 3090 24GB GPU上使用固定随机种子进行了三次运行。

对于每个数据集的切片长度的选择，我们采用了一个启发式的想法，即现实世界的时间序列数据在人为定义的或实际的周期(每天、每周等)内表现出相似的变化模式。结合基准数据集的频率，我们建立了{6,12,24,48}的范围作为切片长度，以便大多数设置覆盖有意义的时间跨度。例如，我们为ETTh1、Electricity和Traffic等数据集选择了24个切片长度，频率为1小时。这确保了每个时间片都包含一天内的数据，并保证候选数据的最佳性能。在这里，我们承认我们的方法的一个限制是，目前的设计不能处理不可分割的长度，因此我们将切片长度设置为6，这大约代表一个星期的周期，而不是Exchange数据集中的7。我们在附录B.5中介绍了对切片长度影响的消融研究。
4https://archive.ics.uci.edu/ml/datasets/ElectricityLoadDiagrams20112014
5https://github.com/laiguokun/multivariate-time-series-data
6http://pems.dot.ca.gov
7https://www.bgc-jena.mpg.de/wetter/
8https://gis.cdc.gov/grasp/fluview/fluportaldashboard.html
9https://github.com/cure-lab/LTSF-Linear
10https://github.com/cure-lab/SCINet
表3:多变量设置下的预测误差。粗体值表示性能更好。
在这里插入图片描述

表4:SAN与现有规范化方法之间的比较。最好的结果以粗体突出显示。
在这里插入图片描述

4.2主要结果

我们在表3中报告了多元预测结果。ILI数据集的预测视界为Lout∈{24,36,48,60}，其他数据集的预测视界为Lout∈{96,192,336,720}。对于输入序列长度，我们遵循传统协议，将Autoformer、FEDformer和SCINet对于所有数据集(ILI数据集Lin = 36)的Lin = 96固定，并将DLinear扩展为336 (ILI数据集Lin = 96)。附录中提供了ETT数据集和单变量结果的完整基准。

如表所示，我们清楚地发现，在大多数基准数据集的情况下，我们提出的SAN框架可以大大提高这些模型。我们把这种改善归因于两个方面。首先，SAN减轻了非平稳因素的影响，这从三个典型的非平稳数据集(Exchange, ILI和ETTh2，由ADF测试结果确定)上的性能可以看出。具体而言，在DLinear的所有实验预测长度下，SAN在Exchange数据集中实现了7.67%的平均MSE降低，在ILI数据集中实现了11.13%的平均MSE降低，在ETTh2数据集中实现了21.29%的平均MSE降低。这一结论同样适用于其他骨干模型，而且增强效果更为明显。其次，即使在长期预测场景中，预测难度随着预测时间的延长而显著增加，SAN也会通过一种新的统计预测模块对骨干模型施加约束，以产生更可靠的结果。例如，当预测720个时间步长时，SCINet伴随着SAN在ETTh2数据集上实现了70.37%的MSE降低，在Electricity数据集上实现了20.77%的MSE降低。这些改进使SCINet可以与其他预测模型相媲美，并表明SAN可以帮助稳定长期预测情景的输出。

图3:采用不同归一化方法增强FEDformer对ETTm2数据集样本的长期预测结果可视化。

4.3与归一化方法的比较

在本节中，我们将SAN与三种最先进的非平稳时间序列预测归一化方法进行比较:RevIN[17]、非平稳变压器(NST)[25]和Dish-TS[10]。在第4.2节中相同的实验设置下，我们报告了Autoformer和FEDformer在每个数据集的所有预测长度上的平均MSE评估以及表4中的相对改进。由于NST只能适用于基于变压器的模型，其他模型没有那么复杂，而其他方法则更加灵活，可以应用于任意预测模型。

在现有的规范化方法中，SAN的性能是最好的。改进效果显著，平均MSE降低了10.71%。除了Weather之外，SAN的性能始终优于基线模型，并且在Exchange和ILI等典型非平稳数据集(由ADF测试确定)中的改进更为明显。比较表明，从时间切片的角度来看，SAN可能比考虑整个实例更有效地去除非平稳因素。此外，所提出的两阶段训练模式至关重要，因为它使SAN在很大程度上优于Dish-TS，而后者忽略了双层优化的本质。然而，SAN的这种特殊能力可能会导致过度平方化问题[25]，从而导致Weather数据集的性能下降。所有案例的详细结果和进一步讨论载于附录B.6。

4.4定性评价

在时间序列预测中，除了指标的准确性外，预测结果的质量也至关重要。图3显示了ETTm2数据集上的一个示例预测，使用FEDformer作为SAN、RevIN、NST或Dish-TS增强的主干。输入长度为96，预测长度设置为336。很明显，SAN产生了更现实的预测，而它的同行甚至无法捕捉到未来数据的规模。我们猜测RevIN和NST的质量差是由于它们粗糙的非正规化方式造成的。虽然输入序列的平均值可以被认为是未来数据的最大似然估计，但与输入相比，非平稳数据集的分布可能会发生显著变化。因此，简单地用输入序列统计对骨干模型的输出进行反规范化可能会导致不匹配，就像在RevIN和NST预测中看到的那样，两者的尺度相似。对于Dish-TS，该方法虽然试图学习未来分布，但忽略了双层优化的本质，其纠缠的学习模式限制了统计量的估计精度，最终导致性能不佳。相反，SAN从切片的角度对时间序列的动态特性进行建模，并引入独立的统计预测模块来学习预测未来分布，通过两阶段训练模式进行反规范化。通过这种方式，我们在统计预测的基础上自适应调整预测结果的尺度和偏差，捕捉未来数据的趋势。因此，尽管输入的平均值相当低，但SAN仍然产生与基本事实一致的更高预测。

五、结论

在本研究中，我们着重于利用一种新的切片视图来缓解时间序列数据的非平稳性。我们提出了用于时间序列预测的SAN框架，这是一种模型不可知的方法，通过去除非平稳因素来标准化输入，并通过在每片基础上的反规范化将其恢复到输出。此外，SAN还利用一种新颖的统计预测模块，将非平稳预测分解为两个子任务，从而简化了预测模型的性能。为了证明SAN的优势，我们在一个广泛使用的基准数据集上进行了实验，发现SAN显著改善了主流预测模型，并且优于最先进的归一化方法。我们希望SAN可以作为时间序列预测的基础组件，并促进从切片角度对时间序列建模的进一步研究。

萧宛亦

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Adaptive Normalization for Non-stationary Time Series Forecasting: A Temporal Slice Perspective

深度学习模型由于其捕获序列依赖性的强大能力而逐步推进了时间序列预测。然而，由于现实世界的数据存在非平稳性，这意味着数据分布随着时间的推移而迅速变化，因此做出准确的预测仍然具有挑战性。为了缓解这种困境，已经进行了一些努力，通过标准化操作来减少非平稳性。然而，这些方法通常忽略了输入序列和水平序列之间的分布差异，并假设同一实例中的所有时间点具有相同的统计属性，这种方法过于理想，可能导致次优的相对改进。
复制链接

扫一扫