iTransformer,即“倒置Transformer”,是对传统Transformer在时间序列预测应用中的一种创新视角。它通过将每个变量的整个时间序列独立地Embedding为一个token,并用注意力机制进行多元关联,同时利用FNN(前馈神经网络)进行序列表示,从而在时间序列预测中取得了显著的性能提升。以下是一个简单的例子,用于对比iTransformer与传统Transformer的处理方式。
例子概述
假设我们有一个简单的多变量时间序列数据集,包含两个变量:温度(T)和湿度(H),每个变量都有连续10天的观测数据。我们的目标是预测未来几天的温度和湿度。
传统Transformer处理方式
- Embedding:
- 传统Transformer会将每个时间步(例如,每天的数据)视为一个token,并将每个时间步上的所有变量(温度和湿度)一起嵌入到一个高维向量中。这样,每个token都包含了该时间步上所有变量的信息。
- 自注意力机制:
- 嵌入后的token通过自注意力机制进行交互,捕捉时间步之间的依赖关系。然而,由于每个token都包含了多个变量的信息,因此注意力机制在捕捉变量之间的相关性时可能不够精细。
- 前馈网络:
- 经过自注意力层后,数据被送入前馈网络进行进一步处理,以生成最终的预测结果。
iTransformer处理方式
- Embedding:
- 在iTransformer中,每个变量的整个时间序列(例如,温度或湿度的10天数据)被独立地嵌入为一个token。这样,温度和湿度分别有两个token,每个token都包含了该变量在整个时间序列上的信息。
- 自注意力机制:
- 这些变量token通过自注意力机制进行交互,以捕捉不同变量之间的相关性。由于每个token都代表了一个变量的完整时间序列,因此注意力机制能够更精细地捕捉变量之间的长期依赖关系。
- 前馈网络(FNN):
- 经过自注意力层后,每个变量token的序列表示由共享的前馈网络进行编码,以提取序列内的全局特征。前馈网络能够处理不同长度的序列,并生成用于预测的序列表示。
对比总结
传统Transformer | iTransformer | |
---|---|---|
Embedding | 每个时间步(包含所有变量)嵌入为一个token | 每个变量的整个时间序列嵌入为一个token |
自注意力机制 | 捕捉时间步之间的依赖关系,但变量之间的相关性可能不够精细 | 捕捉变量之间的相关性,由于每个token是变量的完整时间序列,因此相关性捕捉更精细 |
前馈网络 | 处理多变量混合的token表示,生成最终预测 | 处理未混合的变量token表示,保留各变量的独立信息,便于更精确的预测 |
优点
- 更精细的相关性捕捉:iTransformer通过将每个变量的时间序列独立嵌入为token,并通过自注意力机制进行交互,能够更精细地捕捉变量之间的相关性。
- 保留变量独立性:前馈网络处理未混合的变量表示,保留了各变量的独立信息,有助于更精确的预测。
- 提升预测性能:实验结果表明,iTransformer在时间序列预测任务中通常能够取得比传统Transformer更好的预测性能。
通过上述例子和对比,我们可以看到iTransformer在处理多变量时间序列数据时的独特优势和性能提升。