itransformer和transformer的embedding 的区别

在iTransformer模型中,Embedding层与传统Transformer模型中的Embedding层存在显著的区别。这些区别主要体现在对时间序列数据的处理方式以及如何利用Transformer组件来捕捉时间序列中的信息。

传统Transformer的Embedding

在传统的Transformer模型中,Embedding层通常用于将离散的输入(如单词或标记)映射到连续的向量空间中。在时间序列预测的上下文中,如果采用传统的Transformer架构,通常会将同一时间戳下的多个变量(或称为特征)打包成一个token进行Embedding。然而,这种方式可能会带来一些问题,因为不同变量可能具有不同的物理意义和延迟效应,将它们简单地打包成一个token可能会丢失这些信息。

iTransformer的Embedding

相比之下,iTransformer采用了一种“倒置”的视角来处理时间序列数据。它不再将同一时间戳下的多个变量打包成一个token,而是将每个变量的整个时间序列独立地Embedding为一个token。具体来说,每个时间序列变量(例如,温度、湿度等)的所有历史观测值被看作是一个独立的序列,这个序列被整体嵌入为一个token。这样,每个token都代表了一个变量在时间维度上的完整信息。

例子对比

假设我们有一个包含温度和湿度的多变量时间序列。

传统Transformer
  • Embedding:在同一时间戳t,将温度和湿度的值打包成一个token [温度_t, 湿度_t],然后对这个token进行Embedding。这样,不同时间戳下的token之间主要反映了时间上的变化,而同一token内的变量之间则没有明确的区分。
  • 问题:可能无法有效地捕捉不同变量之间的延迟效应和相关性。
iTransformer
  • Embedding:将温度的所有历史观测值(例如,温度_1, 温度_2, ..., 温度_n)看作是一个序列,并将其整体嵌入为一个token(称为温度token)。同样,将湿度的所有历史观测值嵌入为另一个token(称为湿度token)。
  • 注意力机制:在Transformer的注意力层中,这些token(每个代表一个变量的时间序列)之间通过注意力机制进行交互,从而捕捉不同变量之间的相关性。
  • FNN:在Transformer的FNN(Feed-Forward Network)层中,每个token(即每个变量的时间序列)独立地通过FNN进行进一步的处理,以学习时间序列内部的表示。

通过这种方式,iTransformer能够更有效地捕捉时间序列数据中变量之间的相关性,并且能够在不改变Transformer基本组件的情况下,通过对数据表示方式的创新,来提升时间序列预测的性能。

  • 28
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值