【time series】时间序列领域的Transformer综述论文笔记

xyy ss

已于 2022-08-06 17:59:26 修改

阅读量2.5k

点赞数 1

分类专栏：时间序列(time series) 文章标签： transformer 深度学习人工智能

于 2022-08-06 17:56:11 首次发布

本文链接：https://blog.csdn.net/weixin_45057858/article/details/126194408

版权

论文名称:Transformers in Time Series: A Survey
论文年份:2022/5/7
论文作者:阿里巴巴达摩院
论文下载:https://arxiv.org/abs/2202.07125
论文源码:https://github.com/qingsongedu/time-series-transformers-review这里是引用

【时序】时间序列领域的Transformer综述论文笔记

Abatract
part 1. Introduction
part 2.Preliminaries of the Transformer
part 3. Taxonomy of Transformers in Time Series(分类)
part Network Modifications for Time Series(时间序列的网络修改)
part 5.Application of Time Series Transformer
5.1 Transformers in Forecasting
5.2 Transformers in Anomaly Detection
5.3 Transformers in Classification
part 6.Experimental Evaluation and Discussion
part 7.Future Research Opportunities
part 8.Conclusion

Abatract

Transformer的发展

网络结构角度
应用角度:通过常见的任务(包括预测、异常检测和分类)对时间序列Transformer分类

Transformer在时间序列中的表现

稳健分析
模型规模分析
季节趋势分解

未来的研究方向的讨论和建议

part 1. Introduction

Transformer 对序列数据的长距离依赖和交互有强大建模能力，Transformer及其变体成功应用于各种事件序列任务，如预测、异常检测和分类等。其中季节性或周期性是时间序列的重要特征，如何有效的模拟长期和短期的时间依赖性并同时捕获季节性是一个挑战。
本文旨在通过总结时间序列Transformer的主要发展来填补这一空白,本文首先简要介绍了时间序列Transformer的基本概念,然后从网络修改和应用领域两方面提出了时间序列Transformer的新分类方法，网络的修改方面主要讨论了底层(模块)和高层(架构)的改进,在应用方面，分析了三个主要的应用场景的优势和局限性。最后讨论了时间序列Transformer未来可能的发展方向:时间序列Transformer的归纳偏差，时间序列Trasformer和GNN，时间序列的与训练Transformer以及时间序列的NAS Transformer。

part 2.Preliminaries of the Transformer

2.1 Vanilla Transformer

Vanilla Transformer采用编码器-解码器结构,遵循最具竞争力的神经序列模型.编码器和解码器都由多个相同的块组成。每个编码器块由多头自注意模块和位置前馈网络(FFN)组成,每个解码器块在多头自注意模块和位置前馈网络(FFN)之间插入交叉注意模型。

2.2 Input Encoding and Positional Encoding

与LSTM或RNN不同，Transformer没有递归和卷积。相反,它利用添加在输入嵌入中的位置编码来建序列信息。我们在下面总结了一些位置编码。
Absolute Positionl Encoding
在vanilla Transformer中,对于每个位置索引t，编码向量由在这里插入图片描述
其中wi为每个维度的手工频率。另一种方法是学习一套更灵活的位置嵌入每个位置。
Relative Positional Encoding
根据输入元素之间的成对位置关系比元素的位置关系更有利的直觉,提出了相对位置编码方法。例如,其中一种方法是在注意键机制中添加可学习的相对位置嵌入.除了绝对位置编码和相对位置编码,还有使用混合位置编码的方法将它们结合在一起.通常,位置编码被添加到令牌嵌入中并提供给Transformer。

2.3 Multi-head Attention

结合Query-Key-Value(QKV)模型,给出了Transformer使用的 the scaled dot-product attention
在这里插入图片描述

图1:从网络修改和应用领域的角度,transformer用于时间序列建模的分类

2.4 Feed-forward and Residual Network

点式前馈网络是一个全连接模块
在这里插入图片描述

式中H0为前一层的输出，W1∈RDm×Df, W2∈RDf ×Dm, b1∈RDf, b2∈RDm为可训练参数。在更深层次的模块中，在每个模块周围插入一个剩余连接模块，然后是层规范化模块。也就是说,
在这里插入图片描述
其中Self Attn(.)表示自注意模块，LayerN orm(.)表示层正常操作。