TIMEMIXER论文笔记✍

谁是胖虎啊啊啊啊啊

已于 2024-04-17 16:17:13 修改

阅读量1.1k

点赞数 9

文章标签：论文阅读

于 2024-04-17 16:05:59 首次发布

本文链接：https://blog.csdn.net/wrj4055/article/details/137876318

版权

TIMEMIXER论文笔记✍

📅发表时间：2024
🔢期刊会议：ICLR
🎯方向分类： Time Series Forecasting

⚙️Motivation：

由于时间序列在不同的采样尺度下呈现不同的模式，从多尺度混合的角度分析时间变化。围观和宏观的信息分别体现在精细和粗尺度上。未来的变化是由多个尺度的变化共同决定的。因此，在本文中，我们尝试从多尺度混合的新颖视角来设计预测模型，该模型能够同时利用多尺度序列的解耦变化和互补预测能力。

✨ 创新点

PDM(Past-Decompose-Mixing）

PDM将分解应用于多尺度序列，进一步将分解后的季节成分和趋势成分分别在由细到粗和由粗到细的方向上混合，依次聚合微观季节和宏观趋势信息。

FMM(Future-Multipredictor-Mixing)

FMM 进一步集成了多个预测变量，以在多尺度观测中利用互补的预测功能。

🔬 Introduction

时间序列分析的常见范式：序列分解和多周期分析

本文发现时间序列的采样尺度不同时会观察到不同的时间变化，例如每小时记录的交通流量呈现一天中不同时间的交通变化，而对于每日采样的序列，这些细粒度的变化消失，但出现与节假日相关的波动。

🔨Related works

four paradigms for deep model:

RNN 、CNN(TCN) 在时间维度上做卷积：共同问题感受野受限导致长期预测能力不佳transformer类和MLP 类

Specfic designs

series decomposition

①moving average

②multiple kernel average

multi-periodicity

①N-BEATS使用多个三角函数拟合时间序列

②FiLM将时间序列映射到Legendre Polynomials空间中，其中不同的基函数对应原始序列中不同的周期成分

③TimesNet采用傅里叶变换将时间序列映射成不同的周期

other multi-scale design

①Pyraformer：金字塔式注意力

②SCINet：一棵二叉下采样树

他们的未来预测不会同时利用从过去的观察中提取的不同尺度的信息。

Mixing Networks

混合是一种有效的信息整合方式，已应用于计算机视觉和自然语言处理。

🔁 Method步骤简述

首先通过平均下采样生成多尺度序列，然后PDM采用可分解的设计，通过将分解的多尺度季节性和趋势分量分别在细到粗和粗到细方向上混合，更好地应对季节性和趋势变化的独特属性。

在预测阶段FMM继承了多个预测器从而利用多尺度互补预测能力

🙋‍♀️ 模型架构

在这里插入图片描述

the multiscale representations of input series

首先对过去的观察数据进行下采样，通过平均池化最终得到多尺度时间序列的集合表示变量的数量。最低级别的序列 x₀ 是输入序列，包含最精细的时间变化，而最高级别的序列 x_M代表宏观变化。然后将这些多尺度序列投射到嵌入层得到深层特征 X₀= Embed ( X )

PAST DECOMPOSABLE MIXING

由于季节项和趋势项在时间序列分析中具有不同的属性，分别对应于短期和长期变化或平稳和非平稳动态。PDM中将季节成分和趋势成分分别在不同尺度进行融合，序列分解块来自Autoformer的序列分解块
在这里插入图片描述

这里P代表序列长度或观测长度，M是尺度个数，L是PDM的层数

Seasonal Mixing

较大的周期可以看作是较小周期的聚合，例如由七个每日变化形成的交通流周周期，说明了详细信息在预测未来季节变化中的重要性。

自下而上混合——>精细序列补充较粗尺度
在这里插入图片描述

在第 m 个尺度上以残差方式实现季节性信息的自底向上交互，可以被形式化为：
在这里插入图片描述

Bottom-Up-Mixing（·）被实例化为两个线性层，沿时间维度具有GELU 激活函数，输入维度：P/2^m-1,输出维度：P/2^m

Trend Mixing

和季节项相反，对于趋势项微观的趋势变化会引入噪声

在这里插入图片描述

自上而下混合——>较粗尺度指导精细尺度

在第 m 个尺度上以残差方式实现趋势性信息的自上到下交互，可以被形式化为：

在这里插入图片描述

Top-Down-Mixing(·)是具有中间 GELU 激活函数的两个线性层，输入维度：P/2^m+1,输出维度：P/2^m

FUTURE MULTIPREDICTOR MIXING

在这里插入图片描述

下采样混合经过L个PDM块之后得到XL={x^L₀,…,x^L_M}，由于不同尺度的序列呈现出不同的主导变化，因此它们的预测也呈现出不同的能力。为了充分利用多尺度信息，我们建议聚合来自多尺度序列的预测，并将 Future-Multipredictor-Mishing 块呈现为
在这里插入图片描述

Predictorm(⋅) 指的是第m尺度序列的预测器，首先采用单层线性层直接对长度为F的未来进行回归，从长度为 P/2^m的过去信息中提取，然后将深层表示投影到C个变量上。注意FMM是一个集合体，不同的预测器基于来自不同尺度的过去信息，使得FMM能够整合混合多尺度序列的补充预测能力。

📌Experiment

Datasets

在这里插入图片描述

Long-term forecasting

所有结果都是从 4 个不同的预测长度（即 {96, 192, 336, 720}）取平均值。将所有实验的输入长度固定为 96。

在这里插入图片描述

short-term forecasting

multiple variates(输入96输出12)

在这里插入图片描述

single variate（预测6/48）

在这里插入图片描述

消融实验

在这里插入图片描述

Seasonal and trend mixing visualization

在这里插入图片描述

Multipredictor visualization

在这里插入图片描述

Efficiency analysis

在这里插入图片描述

Analysis on number of scales

在这里插入图片描述

当 M 增加时，预测长度较短的性能增益会下降。相反，对于较长的预测长度，随着 M 的增加，性能提高更多我们将长期预测的M设置为3，短期预测的M设置为1，以权衡性能和效率。

谁是胖虎啊啊啊啊啊

关注

9
点赞
踩
22

收藏

觉得还不错? 一键收藏
1
评论
TIMEMIXER论文笔记✍

TimeMixer论文笔记✍
复制链接

扫一扫

TIMEMIXER论文笔记✍

TIMEMIXER论文笔记✍

⚙️Motivation：

✨ 创新点

PDM(Past-Decompose-Mixing）

FMM(Future-Multipredictor-Mixing)

🔬 Introduction

🔨Related works

four paradigms for deep model:

Specfic designs

series decomposition

multi-periodicity

other multi-scale design

Mixing Networks

🔁 Method步骤简述

🙋‍♀️ 模型架构

the multiscale representations of input series

PAST DECOMPOSABLE MIXING

Seasonal Mixing

Trend Mixing

FUTURE MULTIPREDICTOR MIXING

📌Experiment

Datasets

Long-term forecasting

short-term forecasting

multiple variates(输入96输出12)

single variate（预测6/48）

消融实验

Seasonal and trend mixing visualization

Multipredictor visualization

Efficiency analysis

Analysis on number of scales

“相关推荐”对你有帮助么？