TIMEMIXER论文笔记✍
📅发表时间:2024
🔢期刊会议:ICLR
🎯方向分类: Time Series Forecasting
⚙️Motivation:
由于时间序列在不同的采样尺度下呈现不同的模式,从多尺度混合的角度分析时间变化。围观和宏观的信息分别体现在精细和粗尺度上。未来的变化是由多个尺度的变化共同决定的。因此,在本文中,我们尝试从多尺度混合的新颖视角来设计预测模型,该模型能够同时利用多尺度序列的解耦变化和互补预测能力。
✨ 创新点
PDM(Past-Decompose-Mixing)
PDM将分解应用于多尺度序列,进一步将分解后的季节成分和趋势成分分别在由细到粗和由粗到细的方向上混合,依次聚合微观季节和宏观趋势信息。
FMM(Future-Multipredictor-Mixing)
FMM 进一步集成了多个预测变量,以在多尺度观测中利用互补的预测功能。
🔬 Introduction
时间序列分析的常见范式:序列分解和多周期分析
本文发现时间序列的采样尺度不同时会观察到不同的时间变化,例如每小时记录的交通流量呈现一天中不同时间的交通变化,而对于每日采样的序列,这些细粒度的变化消失,但出现与节假日相关的波动。
🔨Related works
four paradigms for deep model:
RNN 、CNN(TCN) 在时间维度上做卷积:共同问题感受野受限导致长期预测能力不佳transformer类和MLP 类
Specfic designs
series decomposition
①moving average
②multiple kernel average
multi-periodicity
①N-BEATS使用多个三角函数拟合时间序列
②FiLM将时间序列映射到Legendre Polynomials空间中,其中不同的基函数对应原始序列中不同的周期成分
③TimesNet采用傅里叶变换将时间序列映射成不同的周期
other multi-scale design
①Pyraformer:金字塔式注意力
②SCINet:一棵二叉下采样树
他们的未来预测不会同时利用从过去的观察中提取的不同尺度的信息。
Mixing Networks
混合是一种有效的信息整合方式,已应用于计算机视觉和自然语言处理。
🔁 Method步骤简述
首先通过平均下采样生成多尺度序列,然后PDM采用可分解的设计,通过将分解的多尺度季节性和趋势分量分别在细到粗和粗到细方向上混合,更好地应对季节性和趋势变化的独特属性。
在预测阶段FMM继承了多个预测器从而利用多尺度互补预测能力
🙋♀️ 模型架构
the multiscale representations of input series
首先对过去的观察数据进行下采样,通过平均池化最终得到多尺度时间序列的集合表示变量的数量。最低级别的序列 x 0 是输入序列,包含最精细的时间变化,而最高级别的序列 x M 代表宏观变化。然后将这些多尺度序列投射到嵌入层得到深层特征 X 0= Embed ( X )
PAST DECOMPOSABLE MIXING
由于季节项和趋势项在时间序列分析中具有不同的属性,分别对应于短期和长期变化或平稳和非平稳动态。PDM中将季节成分和趋势成分分别在不同尺度进行融合,序列分解块来自Autoformer的序列分解块
这里P代表序列长度或观测长度,M是尺度个数,L是PDM的层数
Seasonal Mixing
较大的周期可以看作是较小周期的聚合,例如由七个每日变化形成的交通流周周期,说明了详细信息在预测未来季节变化中的重要性。
自下而上混合——>精细序列补充较粗尺度
在第 m 个尺度上以残差方式实现季节性信息的自底向上交互,可以被形式化为:
Bottom-Up-Mixing(·)被实例化为两个线性层,沿时间维度具有GELU 激活函数,输入维度:P/2m-1,输出维度:P/2m
Trend Mixing
和季节项相反,对于趋势项微观的趋势变化会引入噪声
自上而下混合——>较粗尺度指导精细尺度
在第 m 个尺度上以残差方式实现趋势性信息的自上到下交互,可以被形式化为:
Top-Down-Mixing(·)是具有中间 GELU 激活函数的两个线性层,输入维度:P/2m+1,输出维度:P/2m
FUTURE MULTIPREDICTOR MIXING
下采样混合经过L个PDM块之后得到XL={xL0,…,xLM},由于不同尺度的序列呈现出不同的主导变化,因此它们的预测也呈现出不同的能力。为了充分利用多尺度信息,我们建议聚合来自多尺度序列的预测,并将 Future-Multipredictor-Mishing 块呈现为
Predictorm(⋅) 指的是第m尺度序列的预测器,首先采用单层线性层直接对长度为F的未来进行回归,从长度为 P/2m的过去信息中提取,然后将深层表示投影到C个变量上。注意FMM是一个集合体,不同的预测器基于来自不同尺度的过去信息,使得FMM能够整合混合多尺度序列的补充预测能力。
📌Experiment
Datasets
Long-term forecasting
所有结果都是从 4 个不同的预测长度(即 {96, 192, 336, 720})取平均值。将所有实验的输入长度固定为 96。
short-term forecasting
multiple variates(输入96输出12)
single variate(预测6/48)
消融实验
Seasonal and trend mixing visualization
Multipredictor visualization
精细时间序列的预测结果更关注时间序列的详细变化,并更精确地捕获季节模式。相比之下,如图4©∼(e)所示,通过多次下采样,粗尺度序列的预测更关注宏观趋势。
Efficiency analysis
Analysis on number of scales
当 M 增加时,预测长度较短的性能增益会下降。相反,对于较长的预测长度,随着 M 的增加,性能提高更多我们将长期预测的M设置为3,短期预测的M设置为1,以权衡性能和效率。