目录
前言
通过因子化时间和通道混合进行多元时间序列预测。【论文】
一、关键设计
1.总体框架
MTS-Mixers的架构包括一个虚线框内的模块,该框定义了一个具有k个堆叠块的通用框架,用于捕捉时间和通道交互。提出了三种具体实现,分别利用注意力、随机矩阵或因子化 MLP 来捕捉时间和通道依赖关系。包括一个可选的输入嵌入,用于位置或日期特定编码,实例归一化指的是RevIN。
2.时间因子化
受到原始序列和下采样序列可能保持相同时间特征的启发,我们应用下采样来减轻时间冗余,以便更好地利用点间依赖关系。

其中:s表示下采样子序列的数量,[·]表示切片操作。merge(·)表示我们将 s个交错子序列
按照原始顺序合并成
。在这里,我们给出了一个s = 2时的时间因子化示例。
3.通道因子化
从张量的角度来看,我们注意到时间序列通常具有低秩特性。不同通道之间的冗余在于每个通道描述的信息可能是一致的。受到Hamburger的启发,我们应用矩阵分解来降低噪声。
![]()
其中:
表示噪声,
表示去噪后的信道依赖性。在实践中,使用具有小隐藏状态(小于c)的通道MLP可以实现与传统分解方法相当甚至更好的性能。
二、主要结果
我们在十个基准测试中使用96-to-x设置进行了详细实验,在预测任务中取得了很好的表现。有关更多详细信息,请参阅我们的论文。
ILI的预测长度为{24,36,48,60},其他的预测长度则为{96,192,336,720}。最佳结果以粗体突出显示。
问:为什么DLinear的结果与原始工作相差很大?
答:我们的结果与DLinear原始论文中报告的结果之间的差异原因在于,他们使用了与我们不同的实验设置(“336-to-x”相比于我们的“96-to-x”)。我们选择了统一的设置以进行公平比较,并没有故意降低他们的结果。
三、次要建议
长期时间序列预测的最近研究已确定两种有效技术可显著提高预测性能。其中一种技术在RevIN中实现,涉及在将输入数据提供给模型之前对其进行归一化,并在最终预测时进行反归一化,如下所示:
rev = RevIN(num_channels)
x = rev(x, 'norm') # [B, S, D]
pred = model(x) # [B, L, D]
pred = rev(pred, 'denorm')
除了传统的诸如编码器-解码器 Transformer 型模型之外,DLinear、Crossformer 和 PatchTST 等最近的研究通过使用更长的回顾周期来提高长期时间序列预测的数值精度。然而,需要注意的是,这在实际预测任务中可能并不实用。我们希望这些见解能帮助指导您的工作,避免可能的误区。
引用:
@article{Li2023MTSMixersMT,
title={MTS-Mixers: Multivariate Time Series Forecasting via Factorized Temporal and Channel Mixing},
author={Zhe Li and Zhongwen Rao and Lujia Pan and Zenglin Xu},
journal={ArXiv},
year={2023},
volume={abs/2302.04501}
}
总结
这是MTS-Mixers的官方实现,用于通过因子化时间和通道混合进行多元时间序列预测。MTS-Mixers框架包含k个堆叠模块,用于捕捉时间和通道交互。提出了三种具体实现:利用注意力机制、随机矩阵操作和因子化MLP来捕捉时间和通道依赖关系。包含一个可选输入嵌入,用于位置或日期特定编码,实例归一化指的是RevIN。时间因子化部分受到原始序列和下采样序列可能具有相同时间特性的启发,我们应用下采样来减轻时间冗余,以便更好地利用点间依赖关系。通道因子化部分,我们注意到时间序列通常具有低秩特性,不同通道间的冗余在于每个通道描述的信息可能是一致的。受到Hamburger的启发,我们应用矩阵分解来降低噪声。我们在十个基准测试中使用96-to-x设置进行了实验,在预测任务中取得了良好的性能。关于DLinear结果与原始工作差距较大的原因,是因为他们使用了不同的实验设置。此外,我们讨论了长期时间序列预测的最近研究成果,以及如何通过归一化和反归一化技术来提高预测性能。虽然近期的研究如DLinear、Crossformer和PatchTST已经通过使用更长的回顾期提高了长期时间序列预测的数值精度,但这在实际预测任务中可能并不实用。
345

被折叠的 条评论
为什么被折叠?



