论文解读16——Non-stationary Transformers: Exploring the Stationarity in Time Series Forecasting

在这里插入图片描述

好久没有更新文献解读了,好像上一篇总结文献还是在上学期刚开学……当然上学期事儿确实多了点,没来得及记录的就趁暑假补吧 o_0

这篇是2022年NeurIPS关于时间序列预测的文章,看标题知道,这又是来改进Transformer的吧。

1、问题提出

在以往的时间序列预测中,对于非平稳序列,都是直接进行平稳化来减弱原始序列的非平稳性,从而更好地进行下一步预测。而这篇针对非平稳时间序列预测提出,直接的平稳化操作会使原始序列失去原始序列的非平稳特性,阻碍深度模型的预测能力,文章中称为“过平稳化”。

  • 以一个不平稳时间序列为例,将其分为均值、方差不同的三段,分别通过原始Transformer、平稳化的Transformer以及该文提出的Non-stationary Transformer观察注意力图,发现b图过平稳化使得模型在三段序列中学到几乎相似的注意力,模型无法捕捉到序列的时间依赖性。
    在这里插入图片描述

故该文提出了一个通用框架:

  • Series Stationarization:序列平稳化来减弱原始序列的非平稳性
  • De-stationary Attention:去平稳注意力避免过平稳化,使模型能捕捉时间依赖,提高预测性能

2、Series Stationarization

序列平稳化模块包含两个阶段:归一化和反归一化

  • Normalization
    第一阶段对输入的每个变量进行归一化,消除量纲差异,提高平稳性
    在这里插入图片描述
  • De-normalization
    第二阶段使用序列原本的均值和方差进行反归一化,恢复归一化时丢失的分布信息
    在这里插入图片描述

然而,尽管反归一化尽可能地还原了原始序列的分布,但在模型内部,尤其是注意力捕捉模块,依然得到的是平稳化后的序列输入,这也是Transformer学习到不易区分的注意力图的主要原因。因此需要深入模型内部进行改进,也就有了De-stationary Attention模块。

3、De-stationary Attention

该模块的 核心 在于:使用平稳化后的输入来近似非平稳化时原始输入本应得到的注意力

理论推导如下:

  • 根据Transformer的注意力计算公式
    在这里插入图片描述
  • 以及平稳化后的序列
    在这里插入图片描述
  • 可以求得平稳化后的Q’K’乘积
    在这里插入图片描述
    因我们想要近似的是非平稳化时的注意力,对以上式子移项并代入注意力公式得
    在这里插入图片描述
  • 其中 Qμk 和 μQμk 分别在σx2Q’K’的每一列和元素上重复操作,根据softmax平移的不变性有
    在这里插入图片描述
  • 令τ=σx2、Δ=KμQ,称为去平稳化因子,使用多层感知器来投影学习
    在这里插入图片描述
  • 最终的去平稳注意力公式
    在这里插入图片描述

4、实验

数据集

  • (1)Electricity:2012 - 2014年321个客户每小时用电量。
  • (2)ETT:2016年7月至2018年7月电力变压器采集的石油停运因素与电力负荷的时间序列。ETTm1 /ETTm2每15分钟记录一次,ETTh1/ETTh2每小时记录一次。
  • (3)Exchange:8个国家1990 - 2016年的每日汇率面板数据。
  • (4)ILI:2002年至2021年美国疾病控制与预防中心每周报告的流感样疾病患者与一周总患者的比例。
  • (5)Traffic:2015年1月至2016年12月在旧金山湾区高速公路上由862个传感器测量的每小时道路占用率。
  • (6)Weather:2020年每10分钟采集的21个气象指标的气象时间序列。

Baselines

  • 多变量预测:Autoformer、Pyraformer、Informer、LogTrans、Reformer、LSTNet
  • 单变量预测:N-HiTS、N-BEA TS、Autoformer、Pyraformer、Informer、Reformer、ARIMA

平稳性检验
在这里插入图片描述

实验结果

  • 多变量预测
    在这里插入图片描述
  • 单变量预测:在两个强非平稳性数据集下
    在这里插入图片描述
  • 将文中框架扩展到其他Transformer变体
    在这里插入图片描述
    每一个模型都超过之前的SOTA,且该框架几乎没有增加任何参数和计算复杂度
  • 消融实验
    在这里插入图片描述
    b、c从不同角度增强了Transformer预测非平稳序列的能力,c去平稳注意力框架预测精度更高。
  • 平稳化模块对比
    在这里插入图片描述
    跟添加了额外参数的平稳化方法RevIN相比,简单的无参数平稳化方法已经有足够的效果。
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
静态变压器是指通过探索时间序列预测中的静态性。在时间序列分析和预测中,静态性是指时间序列的平均值、方差和自协方差在时间上都保持不变。然而,许多实际应用中的时间序列数据往往是静态的,其平均值、方差和自协方差在时间上变化。 静态变压器是为了解决这个问题而提出的一种方法。通过探索时间序列静态性,可以更好地捕捉时间序列数据中的动态特征和趋势。静态变压器采用了一种自适应的方式来处理时间序列数据,使得模型能够随着时间的推移自动调整参数和权重。 静态变压器的核心原理是通过引入可学习的静态参数,将时间序列的静态性和静态性相结合。这样,模型可以根据数据的变化自动调整参数和权重,以适应时间序列的动态特征。通过这种方法,静态变压器能够更准确地预测静态时间序列数据的未来趋势和变化。 静态变压器在时间序列预测领域具有广泛的应用。它可以应用于金融市场预测、经济指标预测、天气预测等各个领域。与传统的静态模型相比,静态变压器具有更好的适应性和预测能力,能够更准确地捕捉时间序列数据中的动态特征和趋势,提高预测的准确性和精度。 总之,静态变压器是一种通过探索时间序列静态性来提高预测精度的方法。它通过引入可学习的静态参数,使得模型能够根据数据的变化自动调整参数和权重,更准确地预测静态时间序列数据的未来趋势和变化。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值