001_论文笔记

论文指出Transformer在时间序列预测中存在对局部信息不敏感和计算复杂度过高的问题。为了解决这些问题,作者提出了使用因果卷积来捕捉局部上下文,以及采用稀疏注意力机制降低计算复杂性。实验结果表明,这些改进在实际和合成数据集上的预测性能都有所提升,特别是在处理长期依赖关系和大规模时间序列时更具优势。
摘要由CSDN通过智能技术生成

Enhancing the Locality and Breaking the Memory Bottleneck of Transformer on Time Series Forecasting记录对这篇论文的理解

论文提出transformer在预测长时间序列中存在的两个问题:

1、transformer对局部信息不敏感,

2、transformer对于长时间序列的计算复杂度太高

作者提出两种方法利用因果卷积(只使用当前数据以前时间点的值)产生K和Q来捕捉局部信息,提出稀疏注意力机制来减小计算复杂度。

之前的深度神经网络RNN在解决长时间依赖的序列问题上存在梯度爆炸和梯度消失问题。改进的LSTM,用LSTM的语言模型的有效上下文大小平均约为200个标记,但只能清楚地区分附近的50个标记,这表明即使是LSTM也难以捕获长期依赖关系。所以对长期依赖如何建模是非常重要的。

这个和之前的DeepAR(是一种针对大量相关时间序列统一建模的预测算法,该算法使用递归神经网络 (RNN) 结合自回归(AR) 来预测标量时间序列,在大量时间序列上训练自回归递归网络模型,并通过预测目标在序列每个时间步上取值的概率分布来完成预测任务。)的概率预测有点相似。使用的数据集是差不多的。深度神经网络已经被提出用来捕捉相关时间序列中的共享信息,以便进行准确的预测。

对于第一个问题

a中的点只关注与他值相近的点,而没有利用上下文信息即变化趋势,所以使用因果卷积来考虑上下文信息。

作者们提出的改进方法是在计算 Query 和 Key 时采用大小大于1(等于1就是原始Transformer)的卷积核来进行卷积操作,如图中(d)所示,从而实现使注意力关注局部上下文,使得更相关的特征能够得到匹配。

对于第二个问题

 通过稀疏选择只选择一部分点,从而降低计算的复杂性

 

 实验部分使用真实数据集和合成数据集,在合成数据集上验证transformer捕获长期依赖关系的能力。在真实数据集中与其他模型在0.5分位和0.9分分位进行比较。分别进行累积预测和直接预测,卷积自注意力都取得了较好的效果。

 

对于稀疏自注意力通过在数据集上与加不加卷积加不加稀疏进行比较

 

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值