论文精读--Autoformer

最新推荐文章于 2024-04-19 10:21:22 发布

云龙弓手

最新推荐文章于 2024-04-19 10:21:22 发布

阅读量3.2k

点赞数 3

分类专栏：精读论文文章标签：深度学习人工智能

本文链接：https://blog.csdn.net/weixin_43909400/article/details/126707027

版权

精读论文专栏收录该内容

1 篇文章 1 订阅

订阅专栏

1. 论文简介

标题：Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting

作者：Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long（Tsinghua University）

发表刊物：NeurIPS 2021

论文下载地址：https://arxiv.org/abs/2106.13008

作者代码地址：GitHub - thuml/Autoformer: About Code release for "Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting" (NeurIPS 2021), https://arxiv.org/abs/2106.13008

2. 背景及意义

长距离的时序预测问题，传统的transformer及其改版在计算注意力机制时通常使用以下公式：

$Attention\left( {Q,K,V} \right) = SoftMax\left( {\frac{{Q{K^T}}}{{\sqrt {{d_k}} }}} \right)V$

导致每次计算时都要将Q与每一个K做相似度计算，而过长的输入迫使模型只能采用稀疏点积取代逐个点积，从而丢失部分信息。

针对此问题，本文提出Auto-Correlation，以子序列之间的相关性计算取代点与点之间的相关性计算，从而直接捕捉子序列直接的关系，提高对历史数据的利用率。

此外，本文将传统transformer直接对输入原始数据处理，修改成季节性-趋势性分解后进行处理，并将注意力机制着重点放在捕捉季节性信息。

3. 研究方法

3.1. 整体框架

本文提出基于子序列相关性的Auto-Correlation块和基于时序分解的Series Decomp块，分别代替传统transformer中的Self-Attention块和Layer Norm块

3.2. Encoder

结构流程

原始原始数据经过Auto-Correlation得到带权和，与自身相加后通过Series Decomp去除趋势性信息，经过前馈网络与自身相加后再次去除趋势性信息，作为全局的季节性信息表示传递给Decoder

公式表达

${\cal S}_{en}^{l,1},\_ = SeriesDcomp\left( {Auto - Correlation\left( {{\cal X}_{en}^{l - 1}} \right) + {\cal X}_{en}^l} \right)$

${\cal S}_{en}^{l,2},\_ = SeriesDcomp\left( {FeedForward\left( {{\cal S}_{en}^{l,1}} \right) + {\cal S}_{en}^{l,1}} \right)$

${\cal X}_{en}^l = Encoder\left( {{\cal X}_{en}^{l - 1}} \right)$

3.3. Decoder

结构流程

季节性信息部分：原始数据（预测部分的季节信息以0填充）的季节信息经过Auto-Correlation与自身相加后，经分解得到季节性信息作为Q，与Encoder传递的K/V经Auto-Correlation得到全局历史信息加权和，与自身相加、分解后把季节信息经过前馈网络再与自身相加，最后分解提取季节信息，得到最终季节预测。

趋势性信息部分：原始数据（预测部分的趋势信息以历史均值填充）的趋势信息，通过季节信息通道三次时序分解得到的趋势信息加权聚合，得到最终趋势预测

公式表达

${\cal S}_{de}^{l,1},{\cal T}_{de}^{l,1} = SeriesDecomp\left( {Auto - Correlation\left( {{\cal X}_{de}^{l - 1}} \right) + {\cal X}_{de}^l} \right)$

${\cal S}_{de}^{l,2},{\cal T}_{de}^{l,2} = SeriesDecomp\left( {Auto - Correlation\left( {{\cal X}_{en}^N,{\cal S}_{de}^{l,1}} \right) + {\cal S}_{de}^{l,1}} \right)$

${\cal S}_{de}^{l,3},{\cal T}_{de}^{l,3} = SeriesDecomp\left( {FeedForward\left( {{\cal S}_{de}^{l,2}} \right) + {\cal S}_{de}^{l,2}} \right)$

${\cal T}_{de}^l = {\cal T}_{de}^{l - 1} + {{\cal W}_{l,1}}*{\cal T}_{de}^{l,1} + {{\cal W}_{l,2}}*{\cal T}_{de}^{l,2} + {{\cal W}_{l,3}}*{\cal T}_{de}^{l,3}$

3.4. Auto-Correlation

时延序列

选择时延时长 $\tau$ ，将原始序列的前 $\tau$ 个数据点转移到末尾（如上右图）

子序列相关性（基于随机过程理论）

与Self-Attenetion中的相关性计算类似，通过QK之间的计算，结果越大，表明序列之间的相关性越大，经过SoftMax之后可得到非负且和为1的权重

$Sxx\left( f \right) = {\cal F}\left( {{{\cal X}_t}} \right){{\cal F}^*}\left( {{{\cal X}_t}} \right) = \int_{ - \infty }^\infty {{{\cal X}_t}{e^{ - i2\pi tf}}dt} \overline {\int_{ - \infty }^\infty {{{\cal X}_t}{e^{ - i2\pi tf}}dt} }$

$Rxx\left( {f,\tau } \right) = {{\cal F}^{ - 1}}\left( {Sxx\left( f \right)} \right) = \int_{ - \infty }^\infty {Sxx\left( f \right){e^{i2\pi f\tau }}d\tau }$

${{\cal R}_{Q,K}}\left( \tau \right) = Rxx\left( {\left( {Q,K} \right),\tau } \right)$

时延聚合

与Self-Attenetion中的加权和类似，将SoftMax输出的权重与时延子序列相乘相加得到时延子序列的加权和，即聚合感兴趣的历史信息

${\tau _1},...,{\tau _k} = \arg Topk\left( {{{\cal R}_{{\cal Q},{\cal K}}}\left( \tau \right)} \right)$

${\widehat {\cal R}_{{\cal Q},{\cal K}}}\left( {{\tau _1}} \right),...,{\widehat {\cal R}_{{\cal Q},{\cal K}}}\left( {{\tau _k}} \right) = SoftMax\left( {{{\cal R}_{{\cal Q},{\cal K}}}\left( {{\tau _1}} \right),...,{{\cal R}_{{\cal Q},{\cal K}}}\left( {{\tau _k}} \right)} \right)$

$Auto - Correlation\left( {{\cal Q},{\cal K},{\cal V}} \right) = \sum\limits_{i = 1}^k {Roll\left( {{\cal V},{\tau _i}} \right)} {\widehat {\cal R}_{{\cal Q},{\cal K}}}\left( {{\tau _i}} \right)$