多变量时间序列预测建模-- SageFormer 【论文笔记】

本文链接：https://blog.csdn.net/weixin_54335478/article/details/132521407

基于Transformer的多变量时间序列预测算法，核心是利用token表征建立多变量的图结构关系。

一、背景
Transformer在多元时间序列应用的工作中，大多都忽略多变量之间的关系，将多变量独立的输入到Transformer中编码。之前的部分工作证明，各个变量独立建模的Transformer模型效果更好。
比如，多元时间序列预测：“独立预测 or 联合预测？” 中，就详细分析了独立建模和联合建模的差异。

同时，A TIME SERIES IS WORTH 64 WORDS: LONG-TERM FORECASTING WITH TRANSFORMERS（ICLR 2023）
这篇文章中提出的Transformer多元时间序列建模方法PatchTST中，也使用的是各个通道独立建模的方式：

However, 多变量之间的关系是可以带来信息增益的，问题在于如何学习到各个变量的关系，将其有效的引入模型中，同时又能避免冗余的信息干扰模型训练过程。

二、SageFormer原理

为了解决多变量关系建模的问题，清华大学提出了SageFormer，是一种全新的建模多变量时间序列关系方法。如下图中的b和c所示，b是一般的多变量联合建模方式，将多变量每个时间步的信息融合到一起输入到一个Transformer中；c则是完全不考虑多变量间关系，每个序列独立的输入到Transformer中。而本文提出的方法，为每个序列前加入一个全局token，用来提取各个变量序列自身的信息，然后利用图学习的方式进行多变量关系的抽取。

模型结构主要有3个部分：全局token、动态图学习、时空网络。
        输入序列采用PatchTST的方式处理成多个patch，在每个变量序列前方添加多个全局token，这些token用来提取每个序列的全局信息。
        同时，利用每个序列随机初始化的embedding端到端学习各变量之间的图结构。
        最后，在时空网络部分，使用图学习根据学到的图结构，对全局token的表征进行空间上的汇聚，汇聚得到的结果过一次时序维度上的Transformer产出最终的编码，其中时空网络部分会迭代多次，每次是一层图汇聚加上一层时间维度Transformer。