系列文章目录
WFTNET:在长期时间序列预测中利用全局和局部周期性
文章目录
摘要
最近基于 CNN 和 Transformer 的模型尝试利用频率和周期性信息进行长期时间序列预测。 然而,大多数现有工作都是基于傅里叶变换,无法捕获细粒度和局部频率结构。 在本文中,我们提出了一种用于长期时间序列预测的小波傅立叶变换网络(WFTNet)。 WFTNet 利用傅里叶变换和小波变换从信号中提取全面的时频信息,其中傅里叶变换捕获全局周期性模式,而小波变换捕获局部周期性模式。 此外,我们引入了周期加权系数(PWC)来自适应平衡全局和局部频率模式的重要性。 对各种时间序列数据集的大量实验表明,WFTNet 始终优于其他最先进的基线。 代码可在 https://github.com/Hank0626/WFTNet 获取。
Index Terms— Long-term time series forecasting, Fourier transform, wavelet transform
一、引言
长期时间序列预测是一项至关重要的任务,在金融投资[1]、天气预报[2]和交通流量估计[3]等不同领域有着广泛的应用。 然而,由于现实世界时间序列数据固有的复杂性,通常涉及包含全局和局部周期性的复杂时间变化,长期时间序列预测仍然是一个具有挑战性的问题。
最近,基于 Transformer 的模型在时间序列预测中变得越来越重要[4-9]。 然而,这些方法在利用时间信息方面不足,并且难以捕获复杂的周期性模式[10]。 为了应对这些挑战,人们提出了一种基于 CNN 的模型,称为 TimesNet [11]。 TimesNet 明确考虑了多个周期循环的存在,并采用傅立叶变换将一维时间序列转换为二维表示,以便能够分析周期内和周期间的变化。 然而,TimesNet 主要强调全局周期结构,而往往忽视重要的局部周期模式。
小波变换在捕获时间序列数据中的局部周期性方面比傅立叶变换具有独特的优势[7, 12]。 傅里叶变换擅长识别全局周期结构。 关键的挑战在于如何在统一的框架下有效地结合它们的优势。 在本文中,我们提出了一种小波傅里叶变换网络(WFTNet),如图 1 所示。WFTNet 采用 WFTBlock 将 1D 时间序列映射到 2D 空间,同时利用傅里叶变换和小波变换。 具体来说,傅里叶变换用于捕获全局周期性,而小波变换则侧重于局部周期性模式。 为了自适应地平衡全局和局部周期性模式的重要性,我们引入了周期性加权系数(PWC),它测量信号中全局周期性的相对强度。
我们的贡献总结如下:(1)我们提出了 WFTNet,一种用于长期时间序列预测的新颖模型,它结合了 WFTBlock 来有效捕获时间序列数据中的全局和局部周期模式; (2)我们引入PWC来平衡傅里叶变换和小波变换的全局和局部周期性输出的重要性; (3) WFTNet 在各种长期时间序列预测数据集上实现了一致的最新性能。
二、 背景及相关工作
2.1. Discrete离散 Fourier Transform
离散傅立叶变换(DFT)[13]将时间信号从时域转换到频域。 它将信号分解为一系列不同的频率。 具体来说,给定长度为 T 的时间序列信号 x = [ x 0 , . . . , x T − 1 ] \mathbf{x}=[x_{0},...,x_{T-1}] x=[x0,...,xT−1],x 可以变换为一组频率系数:
图 1:WFTNet 的整体架构(左)和 WFTBlock 的细节(右)。 编码器和解码器管理输入标准化、嵌入和输出投影。 WFTBlocks 使用 FFT 表示全局周期模式,使用 CWT 表示局部特征,将 1D 时间序列转换为 2D 表示。
2.2. Continuous Wavelet Transform连续小波变换
连续小波变换 (CWT) 是另一种分析信号时频特性的技术 [12, 15]。 CWT 将信号分解为时域和频域。 因此,它在捕获时间序列数据中的局部周期结构方面要有效得多。 具体来说,对于时间序列信号
x
=
[
x
0
,
.
.
.
,
x
T
−
1
]
\textbf{x}=\begin{bmatrix}x_0,...,x_{T-1}\end{bmatrix}
x=[x0,...,xT−1],变换定义为:
其中s表示尺度因子,τ是平移因子,
Ψ
(
t
)
\Psi(t)
Ψ(t)表示所选的母小波函数,*表示复共轭运算。
Ψ
a
n
d
Ψ
∗
\Psi\mathrm{~and~}\Psi^*
Ψ and Ψ∗ 之间的关系为:
Ψ
s
,
τ
∗
(
t
)
=
1
s
Ψ
(
t
−
τ
s
)
\Psi_{s,\tau}^*(t)=\frac{1}{\sqrt{s}}\Psi\left(\frac{t-\tau}{s}\right)
Ψs,τ∗(t)=s1Ψ(st−τ)
在CWT领域,有多种母小波函数可供使用,例如Haar小波、Daubechies小波和Morlet小波[12]。 Morlet 小波擅长分析信号的时频特性[16],在我们的工作中被认为是主要的小波母函数。 它被定义为 Ψ ( t ) = π − 1 4 e j ω 0 t e − t 2 2 \Psi(t)=\pi^{-\frac{1}{4}}e^{j\omega_0t}e^{-\frac{t^2}{2}} Ψ(t)=π−41ejω0te−2t2,其中 ω0 是中心频率。
2.3. Related Work
CNN 和 Transformer 是长期时间序列预测中常用的基础网络。 CNN 擅长对局部特征进行建模,并应用于 MICN [17]、SCINet [18] 和 TimesNet [11] 等模型中。 Transformer 具有捕获长期依赖关系的能力,因此也被广泛使用,例如 Informer [4]、FEDformer [7] 和 PatchTST [9]。 TimesNet 和 FEDformer 都利用频率信息。 然而,FEDformer 未能充分利用信号中的周期性模式,导致与最新的方法相比,其结果具有竞争力。 在现有的工作中,TimesNet 代表了应用频率分解的性能最好的模型之一。 尽管如此,TimesNet 基于傅里叶变换,因此仅捕获整个时间序列的全局频率,而忽略局部频率变化。
三、METHOD
3.1. Problem Statement
长期时间序列预测的任务从历史序列 X i n = [ x 1 , . . . , x T s ] ⊤ ∈ R T s × C \mathbf{X}_{\mathrm{in~}}= [\mathbf{x}_1,...,\mathbf{x}_{T_s}]^\top \in \mathbb{R}^{T_s\times C} Xin =[x1,...,xTs]⊤∈RTs×C 开始,旨在预测未来序列 X o u t = [ x T s + 1 , . . . , x T s + T p ] ⊤ ∈ \mathbf{X}_{\mathrm{out}}=[\mathbf{x}_{T_{s}+1},...,\mathbf{x}_{T_{s}+T_{p}}]^{\top} \in Xout=[xTs+1,...,xTs+Tp]⊤∈ R T p × C \mathbb{R}^{{T_{p}}\times C} RTp×C。 这里, T s a n d T p T_s\mathrm{~and~}T_p Ts and Tp分别表示过去和未来时间窗口的长度,而C表示时间序列变量的维数。
3.2. Framework
WFTNet 采用由多个小波傅里叶变换块 (WFTBlocks) 以残差方式增强的编码器-解码器框架 [19]。 编码器首先对输入矩阵 X i n \mathbf{X}_{\mathrm{in}} Xin 进行归一化以产生 X n o r m \mathbf{X}_{\mathrm{norm}} Xnorm。 然后,该归一化数据通过数据嵌入过程转换到特征空间 X e n c ∈ R T e × D \mathbf{X}_{\mathrm{enc}}\in\mathbb{R}^{T_{e}\times D} Xenc∈RTe×D,其中 D 代表嵌入维度, T e = T s + T p T_e = T_s + T_p Te=Ts+Tp。 这种嵌入技术综合了值和位置编码,同时应用 dropout 正则化来减轻过度拟合。 编码过程结束后,数据移动通过多个 WFTBlock,这些 WFTBlock 使用 FFT 和 CWT 将 1D 时间序列转换为 2D 空间表示。 这些块利用高效的卷积网络来有效捕获局部和全局周期性模式。 在解码阶段,Xenc 进行线性投影以产生输出时间序列窗口 Xout。 最后的反规范化步骤产生预测的时间序列。 一般来说,WFTNet 提供了一种综合方法来预测多元时间序列数据,综合利用小波和傅立叶变换、卷积结构和高级编码解码技术的优势。
表 1:具有不同输出序列长度 T ∈ {96, 192, 336, 720} 的长期时间序列预测模型的定量评估。 输入序列固定为 96。最佳表现以红色突出显示,次佳以蓝色下划线显示。
3.3. WFTBlock
WFTBlock 旨在从输入的 1D 时间序列 X e n c l \mathbf{X}_{\mathrm{enc}}^l Xencl 执行时频特征提取,其中 X e n c l \mathbf{X}_{\mathrm{enc}}^l Xencl表示第 (l + 1) 个 WFTBlock 的输入。 WFTBlock的架构分为两个主要阶段:特征提取阶段和特征融合阶段。
特征提取阶段:输入时间序列 X e n c l \mathbf{X}_{\mathrm{enc}}^l Xencl被分成两个不同的分支:一个进行傅立叶变换,另一个进行小波变换。
傅里叶变换分支应用 FFT(方程 1)来产生幅度 a = [ a 1 , … , a T e ] \textbf{a}= [a_{1},\ldots,a_{T_{e}}] a=[a1,…,aTe],其中a_i = |C_i|。 前 k 个频率 [ f 1 , … , f k ] [f_1,\ldots,f_k] [f1,…,fk]具有最高振幅 [ a 1 , … , a k ] [a_1,\ldots,a_k] [a1,…,ak] 选择 , 来产生相应的周期 [ p 1 , … , p k ] \begin{aligned}[p_{1},\ldots,p_{k}]\end{aligned} [p1,…,pk],其中 p i = ⌈ 1 f i ⌉ p_{i}=\left\lceil{\frac{1}{f_{i}}}\right\rceil pi=⌈fi1⌉ 。 给定 T e T_{e} Te 和选定的周期 p i p_{i} pi,通过将原始序列分割成长度 p i p_{i} pi的块并按列堆叠它们直到覆盖 T e T_{e} Te元素,生成 2D 频率图 x f i l x_{f_i}^l xfil。 如果 T e / p i T_{e}/p_{i} Te/pi不是整数 [11],则应用零填充来完成最后一列。
小波变换分支采用CWT(方程2)产生时频图 X w l ∈ R T e × s \mathbf{X}_w^l\in\mathbb{R}^{T_e\times s} Xwl∈RTe×s,其中s表示小波尺度。 与从傅立叶变换导出的二维频率图相比,该图提供了卓越的时频定位。 虽然 FFT 提供了频率的全局视图,但 X w l \mathbf{X}_{w}^{l} Xwl的多尺度性质使得能够在时域和频域中精确定位频率分量。 此属性对于分析非平稳时间序列特别有用,其中频率分量及其相应的周期可以随时间动态变化。
两个分支的输出均由时频初始块 [20] 进一步处理,以获取全局和局部周期性特征。
特征融合阶段:在此阶段,傅里叶分支和小波分支的变换输出被组合。 在傅里叶分支中,每个频率分量 X ^ f i l \hat{\mathbf{X}}_{f_i}^l X^fil 使用 softmax 归一化根据其相应的幅度 ai 进行加权: X ^ f l = ∑ i = 1 k S o f t m a x ( a i ) × X ^ f i l \hat{\mathbf{X}}_{f}^{l} = \sum_{i=1}^{k}\mathrm{Softmax}(a_{i}) \times \hat{\mathbf{X}}_{f_i}^l X^fl=∑i=1kSoftmax(ai)×X^fil 。 该加权和实质上提供了原始序列的重要性调整的复合频率表示。 对于小波分支,将专门的条形卷积核应用于输出以压缩尺度维度 s,从而得到 X ^ w l \hat{\mathbf{X}}_{w}^{l} X^wl。
然后使用周期加权系数 (PWC) α 将两个分支的加权输出组合起来:
其中 n 是调节 α 贡献的超参数。
图 2:ECL 和 ETTh2 数据集的归一化平均通道值的可视化。 该图显示与 ETTh2 相比,ECL 具有更强的周期性。
3.4. Periodicity-Weighted Coefficient周期性加权系数
周期加权系数 (PWC),用 α 表示,分别自适应地平衡全局和局部周期性的傅里叶变换和小波变换。 α 量化固有周期性,以对每种变换方法的贡献进行最佳加权。 为了计算 α,我们对时间序列中的每个 C 通道执行傅里叶变换,并确定前 m 个频率内这些通道的最大能量与总能量的平均比率:
其中 a i a_i ai表示傅里叶变换后第i个频率的幅度。
α的适应性使其对于不同的时间序列都有效。 接近 1 的值通过傅立叶特征强调全局周期性,而接近 0 的值则通过小波特征强调局部行为。
四、EXPERIMENTS
在本节中,我们使用均方误差 (MSE) 和平均绝对误差 (MAE) 作为关键性能指标来评估 WFTNet 的性能,这与之前的研究一致 [5,7,8,10,11]。
4.1. Datasets
为了严格验证我们的方法,我们对七个基准时间序列数据集进行了实验:电力变压器温度 (ETT) 及其四个子数据集(ETTh1、ETTh2、ETTm1、ETTm2)[4]、交通、ECL 和天气数据集 [21 ]。 对于每个数据集,我们分配 70% 用于训练,20% 用于测试,其余 10% 用于验证。
表 2:WFTNet 与其仅傅里叶和仅小波变体的性能比较。
4.2. Main Results
如表 1 所示,WFTNet 与其他基线方法进行了全面评估,包括 TimesNet [11]、ETSformer [8]、DLinear [10]、FEDformer [7] 和 Autoformer [5]。 我们的模型在不同的输出序列长度上始终优于这些已建立的方法,强调了其在长期时间序列预测中的有效性。 这些实证研究结果证实了 WFTNet 与现有技术相比的独特优势。
4.3. Significance of PWC
表 2 中提出的消融研究强调了 PWC 在 WFTNet 中的关键作用。 在这个例子中,我们考虑两个数据集:ECL和ETTh2,如图2所示。我们可以清楚地看到ECL比ETTh2具有更强的周期性。 为了清楚起见,“Fourier-Only”是指 WFTNet 的变体,其中仅激活傅里叶变换分支,而“Wavelet-Only”仅使用小波分支。 这些孤立的分支作为专门的比较基线。 傅立叶分支对于 ECL 特别有利,而小波分支对于周期较少的 ETTh2 数据集更有利。 值得注意的是,通过利用 PWC 进行动态特征平衡,WFTNet 在两个数据集的 MSE 和 MAE 方面始终优于这些专业分支,从而验证了 PWC 无缝增强模型准确性的能力。
五、 CONCLUSION
在本文中,我们介绍了用于长期时间序列预测的 WFTNet。 通过 WFTBlock 利用傅里叶变换和小波变换的优势,WFTNet 可以同时捕获时间序列数据的全局和局部周期结构。 所提出的周期加权系数自适应地平衡这些特征,进一步提高模型在具有各种特征的数据集上的性能。 最后,通过广泛的评估证实了WFTNet的优越性,证明了其有效性和鲁棒性。