对比iTransformer与传统Transformer

最新推荐文章于 2024-08-05 20:48:45 发布

好吃番茄

最新推荐文章于 2024-08-05 20:48:45 发布

阅读量155

点赞数 2

文章标签： transformer 人工智能 embedding python

本文链接：https://blog.csdn.net/weixin_52153243/article/details/140936231

版权

iTransformer，即“倒置Transformer”，是对传统Transformer在时间序列预测应用中的一种创新视角。它通过将每个变量的整个时间序列独立地Embedding为一个token，并用注意力机制进行多元关联，同时利用FNN（前馈神经网络）进行序列表示，从而在时间序列预测中取得了显著的性能提升。以下是一个简单的例子，用于对比iTransformer与传统Transformer的处理方式。

例子概述

假设我们有一个简单的多变量时间序列数据集，包含两个变量：温度（T）和湿度（H），每个变量都有连续10天的观测数据。我们的目标是预测未来几天的温度和湿度。

传统Transformer处理方式

Embedding：
- 传统Transformer会将每个时间步（例如，每天的数据）视为一个token，并将每个时间步上的所有变量（温度和湿度）一起嵌入到一个高维向量中。这样，每个token都包含了该时间步上所有变量的信息。
自注意力机制：
- 嵌入后的token通过自注意力机制进行交互，捕捉时间步之间的依赖关系。然而，由于每个token都包含了多个变量的信息，因此注意力机制在捕捉变量之间的相关性时可能不够精细。
前馈网络：
- 经过自注意力层后，数据被送入前馈网络进行进一步处理，以生成最终的预测结果。

iTransformer处理方式

Embedding：
- 在iTransformer中，每个变量的整个时间序列（例如，温度或湿度的10天数据）被独立地嵌入为一个token。这样，温度和湿度分别有两个token，每个token都包含了该变量在整个时间序列上的信息。
自注意力机制：
- 这些变量token通过自注意力机制进行交互，以捕捉不同变量之间的相关性。由于每个token都代表了一个变量的完整时间序列，因此注意力机制能够更精细地捕捉变量之间的长期依赖关系。
前馈网络（FNN）：
- 经过自注意力层后，每个变量token的序列表示由共享的前馈网络进行编码，以提取序列内的全局特征。前馈网络能够处理不同长度的序列，并生成用于预测的序列表示。

对比总结

	传统Transformer	iTransformer
Embedding	每个时间步（包含所有变量）嵌入为一个token	每个变量的整个时间序列嵌入为一个token
自注意力机制	捕捉时间步之间的依赖关系，但变量之间的相关性可能不够精细	捕捉变量之间的相关性，由于每个token是变量的完整时间序列，因此相关性捕捉更精细
前馈网络	处理多变量混合的token表示，生成最终预测	处理未混合的变量token表示，保留各变量的独立信息，便于更精确的预测

优点

更精细的相关性捕捉：iTransformer通过将每个变量的时间序列独立嵌入为token，并通过自注意力机制进行交互，能够更精细地捕捉变量之间的相关性。
保留变量独立性：前馈网络处理未混合的变量表示，保留了各变量的独立信息，有助于更精确的预测。
提升预测性能：实验结果表明，iTransformer在时间序列预测任务中通常能够取得比传统Transformer更好的预测性能。

通过上述例子和对比，我们可以看到iTransformer在处理多变量时间序列数据时的独特优势和性能提升。

好吃番茄

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对比iTransformer与传统Transformer

假设我们有一个简单的多变量时间序列数据集，包含两个变量：温度（T）和湿度（H），每个变量都有连续10天的观测数据。我们的目标是预测未来几天的温度和湿度。传统TransformerEmbedding每个时间步（包含所有变量）嵌入为一个token每个变量的整个时间序列嵌入为一个token自注意力机制捕捉时间步之间的依赖关系，但变量之间的相关性可能不够精细捕捉变量之间的相关性，由于每个token是变量的完整时间序列，因此相关性捕捉更精细前馈网络处理多变量混合的token表示，生成最终预测。
复制链接

扫一扫