系列文章目录
不规则多元时间序列预测:一种可变换的修补图神经网络方法 ICML2024
文章目录
摘要
不规则多元时间序列 (IMTS) 的预测对于医疗保健、生物力学、气候科学和天文学等众多领域至关重要。 尽管现有研究通过常微分方程解决时间序列中的不规则性,但对异步 IMTS 之间的相关性进行建模的挑战仍未得到充分探索。 为了弥补这一差距,本研究提出了可变换补丁图神经网络(T-PATCHGNN),它将每个单变量不规则时间序列转换为一系列可变换补丁,其中包含具有统一时间分辨率的不同数量的观测值。 它无缝地促进本地语义捕获和时间序列间相关建模,同时避免对齐的 IMTS 中的序列长度爆炸。 在对齐的修补结果的基础上,我们提出了时间自适应图神经网络,以基于一系列学习的时变自适应图来模拟动态时间间序列相关性。 我们在我们构建的综合 IMTS 预测基准上展示了 T-PATCHGNN 的显着优势,该基准包含涵盖医疗保健、生物力学和气候科学的四个真实世界科学数据集,以及改编自相关研究领域的 17 个竞争基线。1Code and datasets are available at https://github.com/usail-hkust/t-PatchGNN.
一、引言
虽然多元时间序列 (MTS) 的预测已得到广泛研究,但大多数研究重点是定期采样和充分观察的 MTS(Lim & Zohren,2021)。 与不规则多元时间序列 (IMTS) 相关的预测挑战以其不规则的采样间隔和缺失数据为特征,受到的关注明显较少。 事实上,IMTS 在医疗保健、生物力学、气候科学、天文学和金融等广泛的学科领域很普遍(Rubanova 等人,2019 年;De Brouwer 等人,2019 年;Yao 等人,2018 年;Vio 等人,2013;Engle 和 Russell,1998;Zhang 等人,2021a)。 IMTS 的准确预测是支持各种重大活动的基础,从做出明智的决策到有远见的规划。
与常规 MTS 不同,由于序列内部固有的不规则性以及它们之间的异步性,IMTS 的建模和分析更具挑战性(Horn 等人,2020)。 如图 1(a) 所示,给定一组历史 IMTS 观测值和预测查询,IMTS 预测问题旨在准确预测与这些查询相对应的值。 尽管人们在 IMTS 预测方面做出了一些积极的努力(Rubanova 等,2019;De Brouwer 等,2019;Biloˇs 等,2021;Schirmer 等,2022),但这些工作主要集中在处理内部的不规则性。 基于神经常微分方程(ODE)的时间序列(Chen et al., 2018),未能明确考虑多个序列之间的关键相关性。 此外,由于数值积分过程,计算 ODE 求解器的计算成本很高,导致训练和推理阶段的效率较低(Biloˇs et al., 2021;Shukla & Marlin, 2020)。
准确的 IMTS 预测是一项艰巨的任务,它面临三大挑战。 (1)第一个挑战是时间序列内依赖建模的不规则性。 相邻观测值之间不同的时间间隔破坏了时间序列数据的一致流动,使得经典时间序列预测模型(Lim & Zohren,2021)难以准确捕获潜在的时间动态和依赖性(Rubanova 等,2019;Che 等人,2018)。 (2)第二个挑战是跨时间序列相关建模中的异步性。 虽然不同变量的时间序列之间总是存在相当大的相关性,但由于不规则采样或数据缺失,IMTS 之间的观测有时可能会出现严重偏差。
图 1:(a) 不规则多元时间序列预测问题,其中 v1、v2 和 v3 代表三个不同的变量。 (b) 规范的预比对表示导致平均序列长度从 5 增加到 15,爆炸性增长与变量计数成正比。
这种异步性使特定时间点的直接比较和相关性变得复杂,并可能模糊或扭曲时间序列之间的实际关系,从而对时间序列间相关性建模提出重大挑战(Zhang et al., 2021b)。 (3)最后一个挑战是序列长度随着变量的增加而爆炸。 如图1(b)所示,为了促进IMTS建模,当前的研究通常以时间对齐的格式表示IMTS,其中涉及将每个单变量不规则时间序列扩展到与IMTS观测中所有唯一时间戳的计数相对应的统一长度(Che 等人,2018)。 然而,这种规范的预对齐表示可能会导致序列长度与变量的添加成正比地爆炸性增长,这在遇到大量变量时引起了计算和内存开销方面的严重可扩展性问题。
为此,我们提出了一种用于 IMTS 预测的可变换修补图神经网络 (T-PATCHGNN) 方法。 T-PATCHGNN 最初将每个单变量不规则时间序列转换为一系列可转换的 patch,这些 patch 的观测计数各不相同,但保持统一的时间范围分辨率。 IMTS的这一过程具有三个主要优点:(1)每个单变量不规则时间序列的独立修补过程绕过了IMTS的规范预对齐表示,消除了大规模变量IMTS表示中序列长度爆炸的风险; (2)通过将每个单独的观察结果放入具有更丰富上下文的补丁中,可以更好地捕获不规则时间序列的局部语义(Nie et al., 2022); (3) 在可变换补丁之后,IMTS 以一致的补丁级时间分辨率自然对齐。 它解决了异步问题,无缝地促进了后续时间序列间相关性建模。
沿着这条线,引入了可变换时间感知卷积网络,将每个可变换补丁编码为潜在嵌入,随后作为 Transformer 的输入令牌进行时间序列内依赖性建模。 此外,我们提出了时间自适应图神经网络来模拟时间序列间的相关性。 为了明确表示 IMTS 之间的动态相关性,我们学习了一系列基于可学习固有变量嵌入和动态块嵌入构建的时变自适应图,因此,这些图保持与可变换块相同的时间分辨率。 然后,将图神经网络应用于这些学习到的图,以对 IMTS 之间的补丁级动态相关性进行建模。 最后,基于获得的 IMTS 的综合潜在表示,采用多层感知(MLP)输出层来生成预测查询方面的预测结果。
我们的主要贡献总结如下:
• 我们提出了一种新的可变换补丁方法,将IMTS 的每个单变量不规则时间序列变换为一系列可变长度但时间对齐的补丁。 这巧妙地绕过了 IMTS 的规范预对齐表示,同时以一致的时间分辨率对齐 IMTS。 它可以防止对齐的 IMTS 的序列长度与变量的增加成比例地爆炸性增长,同时无缝地促进 IMTS 的局部语义捕获和时间序列相关建模。
• 基于可变换的修补结果,我们提出时间自适应图神经网络来模拟IMTS 内的动态时间序列间相关性。
• 我们建立了IMTS 预测评估基准。 采用来自各个相关研究领域的 17 个最先进的基线模型,即 IMTS 预测、插值、分类和 MTS 预测,在四个公共科学 IMTS 数据集上进行公平比较,这些数据集涵盖医疗保健、生物力学、 和气候科学。 大量实验证明了 T-PATCHGNN 的显着优越性。
2. Related Works
2.1. Irregular Multivariate Time Series Forecasting
IMTS 的现有工作主要集中在分类任务上(Che 等人,2018;Shukla 和 Marlin,2021;Zhang 等人,2021b;2023a;Horn 等人,2020;Shukla 和 Marlin,2018;Li 等人, 2023;巴塔斯等人,2017)。 只有少数前瞻性研究(Rubanova等,2019;De Brouwer等,2019;Biloˇs等,2021;Schirmer等,2022)在IMTS预测方面做出了努力。 具体来说,这些工作主要依赖于神经常微分方程(Chen et al., 2018),并专注于处理时间序列内的连续动态和不规则性。 例如,Latent-ODE(Rubanova 等人,2019)使循环神经网络(RNN)能够具有神经 ODE 指定的连续时间隐藏状态动态。 GRU-ODE-Bayes(De Brouwer et al., 2019)结合神经常微分方程来开发连续时间门控循环单元(GRU),并引入贝叶斯更新网络来处理稀疏观测值。 CRU(Schirmer 等人,2022)通过基于线性随机微分方程和连续离散卡尔曼滤波器演化隐藏状态来处理观测之间的不规则间隔。 然而,由于数值积分计算昂贵,计算 ODE 求解器效率低下。 为了解决这个问题,Neural Flows(Biloˇs et al., 2021)通过神经网络对 ODE 的解曲线进行建模,以减轻神经 ODE 中昂贵的数值求解器的负担。 虽然这些工作在处理不规则时间序列内的不规则性方面做出了巨大的努力,但如何有效地建模异步 IMTS 内的时间序列间相关性仍然没有得到充分探索。
2.2. Irregular Multivariate Time Series Representation
为了以时间对齐的方式表示 IMTS 并方便后续建模,现有工作主要采用预对齐表示方法(Che et al., 2018; Shukla & Marlin, 2021;Zhang et al., 2021b; 2023a; Baytas et al., 2021b; 2023a; 等人,2017;Rubanova 等人,2019;De Brouwer 等人,2021;Schirmer 等人,2022)。 它涉及将 IMTS 中的所有单变量序列扩展为一致的序列长度,该长度等于 IMTS 中所有唯一时间戳的数量,并用掩码项指示缺失值(Che 等人,2018)。 然而,随着变量数量的增加,这种表示方法可能会遇到序列长度爆炸问题,这在第 3.2 节中有详细介绍,从而引发了计算和内存开销方面严重的可扩展性问题。 除了预对齐表示之外,Horn 等人。 (2020)通过将IMTS的观察视为一组由时间、值和变量指标组成的元组,引入了一种更具可扩展性的表示方法,然后总结这些元组以进行IMTS分类。 然而,这种表示方法可能不适合需要对每个变量进行更细致、更清晰分析的预测任务。
2.3. Graph Neural Networks for Multivariate Time Series
图神经网络(GNN)因其强大的能力而被引入 MTS,以对变量之间的复杂相关性进行建模(Li et al., 2018; Yu et al., 2018; Wu et al., 2019; 2020b; Huang et al., 2023 ;易等人,2023;曹等人,2020;刘等人,2022)。 DCRNN (Li et al., 2018) 和 STGCN (Yu et al., 2018) 将 GNN 应用于预定义的图结构,这在某些领域可能很难获得。 因此,一些研究(Wu et al., 2019; 2020b; Huang et al., 2023; Yi et al., 2023; Cao et al., 2020)提出从数据中学习图结构,从而实现变量拓扑的自动建模。 关系。 然而,当涉及 IMTS 时,观测结果有时可能会明显不一致,这给时间序列间相关性建模带来了挑战。 Raindrop(Zhang et al., 2021b)通过在观察出现在任意变量处时传播所有时间戳处的异步观察来解决这个问题,这涉及 IMTS 预对齐,并且可能会遇到序列长度爆炸问题。
与我们相关的另一系列工作应用 GNN 来对缺失数据的常规 MTS 进行建模(Cini et al., 2022; Marisca et al., 2022; Chen et al., 2024),这通常需要有时对齐缺失的 MTS,例如 前面提到的预对齐表示,重点处理数据缺失问题。 然而,我们的工作强调绕过规范的预对齐表示来解决 IMTS 建模中的不规则性和异步挑战。
3. Preliminary
3.1. Problem Definition
定义 1(不规则多元时间序列)。 IMTS 可以表示为 O = { o 1 : L n n } n = 1 N = \begin{array}{rcl}\mathcal{O}&=&\{\mathbf{o}_{1:L_n}^n\}_{n=1}^N&=\end{array} O={o1:Lnn}n=1N= { [ ( t i n , x i n ) ] i = 1 L n } n = 1 N \{[(t_i^n,x_i^n)]_{i=1}^{L_n}\}_{n=1}^N {[(tin,xin)]i=1Ln}n=1N,其中有 N 个变量,第 n 个变量 包含 Ln 个观测值,第 n 个变量的第 i 个观测值由记录时间 t i n t_i^n tin和值 x i n x_i^n xin组成。
定义 2(预测查询)。 预测查询表示为 q j n q_{j}^n qjn ,表示对第 n 个变量进行第 j 次查询,以预测其在未来时间 q j n q_{j}^n qjn 的对应值。
问题 1(不规则多元时间序列预测)。 给定历史 IMTS 观测值 O = { [ ( t i n , x i n ) ] i = 1 L n } n = 1 N \{[(t_i^n,x_i^n)]_{i=1}^{L_n}\}_{n=1}^N {[(tin,xin)]i=1Ln}n=1N,以及一组 IMTS 预测查询 Q = { [ q j n ] j = 1 Q n } n = 1 N \mathcal{Q}=\{[q_j^n]_{j=1}^{Q_n}\}_{n=1}^N Q={[qjn]j=1Qn}n=1N,则 问题是准确预测对应于预测查询的记录值 X ^ = { [ x ^ j n ] j = 1 Q n } n = 1 N \hat{\mathcal{X}}=\{[\hat{x}_{j}^{n}]_{j=1}^{Q_{n}}\}_{n=1}^{N} X^={[x^jn]j=1Qn}n=1N:
其中F(·)表示我们想要学习的预测模型。
3.2. Canonical Pre-Alignment Representation for IMTS IMTS 的规范预对齐表示
为了促进 IMTS 建模,当前研究中已广泛采用预对齐表示方法(Che et al., 2018)作为标准(Che et al., 2018;Shukla & Marlin, 2021;Zhang et al., 2021b; 2023a;Rubanova 等人,2019;De Brouwer 等人,2019;Biloˇs 等人,2022)。 在该方法中,IMTS O由三个矩阵 ( T , X , M ) (\mathcal{T},\mathcal{X},\mathcal{M}) (T,X,M)表示。 T = [ t l ] l = 1 L = ∪ n = 1 N [ t i n ] i = 1 L n ∈ R L \mathcal{T} = [t_l]_{l=1}^L = \cup_{n=1}^N[t_i^n]_{i=1}^{L_n} \in \mathbb{R}^L T=[tl]l=1L=∪n=1N[tin]i=1Ln∈RL表示 O 内所有观测值的按时间顺序排列的唯一时间戳。 X = [ [ x ~ l n ] n = 1 N ] l = 1 L ∈ R L × N \mathcal{X}=[[\tilde{x}_{l}^{n}]_{n=1}^{N}]_{l=1}^{L}\in\mathbb{R}^{L\times N} X=[[x~ln]n=1N]l=1L∈RL×N是与时间戳对应的变量值,其中如果在时间 t l t_{l} tl观察到第 n 个变量的值,则 x ~ l n = x i n \tilde{x}_l^n=x_i^n x~ln=xin ,否则 x ~ l n \tilde{x}_l^n x~ln 将填充“NA”。 M = [ [ m l n ] n = 1 N ] l = 1 L ∈ R L × N \mathcal{M}=[[m_{l}^{n}]_{n=1}^{N}]_{l=1}^{L}\in\mathbb{R}^{L\times N} M=[[mln]n=1N]l=1L∈RL×N 表示掩蔽矩阵,其中如果在时间 t l t_{l} tl 观察到 x ~ l n \tilde{x}_l^n x~ln,则 m l n m_l^{n} mln = 1,否则为零。
我们可以观察到序列长度 L 取决于 O 中唯一时间戳的数量。设 Lavg = 1 N ∑ n = 1 N L n \frac1N\sum_{n=1}^NL_n N1∑n=1NLn和 L m a x = max [ L n ] n = 1 N L_{max}=\max[L_n]_{n=1}^N Lmax=max[Ln]n=1N分别表示 N 的平均观察数和最大观察数 IMTS中的变量,则预对齐表示后的序列长度L理论上落入:
它可能与变量的数量成比例地爆炸性增长,从而在处理大规模变量时带来严重的可扩展性问题。
4. Methodology
T-PATCHGNN 的概述如图 2 所示。在后续章节中,我们依次介绍不规则时间序列修补、时间序列内和时间序列间建模以及 IMTS 预测过程的技术细节。
4.1. Irregular Time Series Patching
在本节中,由于对所有单变量不规则时间序列应用统一的修补操作,因此我们以第 n 个变量进行说明,并为了简化表示而省略上标 n。
4.1.1. TRANSFORMABLE PATCHING
由于时间序列修补在捕获局部语义信息、减少计算和存储器使用以及对较长范围的历史观测进行建模方面的益处,时间序列修补已被证明在MTS预测任务中是有效的(Nie等人,2022年)的报告。标准时间序列修补将常规时间序列分割为一系列子序列级修补,每个修补都由固定数量的连续观测值组成。然而,在IMTS环境中,由于观测之间的时间间隔不同,这种方法将导致补丁跨越不同的时间范围。例如,由五个连续观测值组成的一个面片,在密集采样的情况下可能只持续几分钟,而在稀疏采样的情况下可能会持续几天。补丁时间分辨率的这种变化甚至会加剧IMTS建模中固有的不规则性和异步特性。
为了解决这个问题,我们建议将每个单变量不规则时间序列 o 1 : L \mathbf{o}_{1:L} o1:L划分为一系列具有可变长度连续观测的可变换补丁 [ o l p : r p ] p = 1 P [\mathbf{o}_{l_p:r_p}]_{p=1}^{P} [olp:rp]p=1P,其中P是结果补丁的数量,并且 l 1 = 1 , r P = L l_{1}=1,r_{P}=L l1=1,rP=L。每个可变换补丁跨越具有统一时间范围的补丁窗口大小s(例如,2小时),以保证跨时间和变量的一致时间分辨率。分割可以在两个连续的可变换面片之间重叠或不相交。沿着这条线,得到的IMT片以一致的时间范围分辨率对齐。由于每个单变量不规则时间序列都是独立修补的,这绕过了IMTS上的规范预对齐过程,防止了变量计数增加导致的序列长度爆炸。
4.1.2. PATCH ENCODING
在将每个单变量不规则时间序列转换为一系列可转换的补丁后,我们将每个补丁编码为潜在嵌入,以捕获时间序列中的局部语义。
连续时间嵌入。为了对IMTS中的时间信息进行建模,我们首先采用连续时间嵌入(Shukla &马林,2021)对观测的连续时间进行编码:
其中
ω
d
a
n
d
α
d
\omega_d\mathrm{~and~}\alpha_d
ωd and αd是可学习的参数,Dt是嵌入的维数。线性项捕获随时间演变的非周期性模式,周期项捕获时间序列数据中的周期性,其中
ω
d
a
n
d
α
d
\omega_d\mathrm{~and~}\alpha_d
ωd and αd表示正弦函数的频率和相位。
通过级联结合连续时间嵌入,我们得到补丁中的观测结果:
可转换的时间感知卷积。由于每个可变换补丁本质上是一个亚不规则时间序列,因此我们引入了可变换时间感知卷积网络(TTCN)(Zhang et al.,TTCN采用元滤波器来导出时间感知卷积滤波器,其特征在于自适应生成的参数和匹配输入序列长度的可变换滤波器大小,公式化为:
其中Lp是补丁
z
l
p
:
r
p
\mathbf{z}_{l_{p}:r_{p}}
zlp:rp的序列长度,
f
d
\mathbf{f}_{d}
fd ∈
R
L
p
×
D
i
n
\mathbb{R}^{L_{p}\times D_{in}}
RLp×Din是第d个特征映射的导出滤波器,Din是输入的维数,
F
d
\mathbf{F}_{d}
Fd表示可以由可学习神经网络实例化的元滤波器。通过沿时间维度沿着对导出的滤波器参数进行归一化,TTCN确保了具有不同长度的序列的卷积结果的一致缩放。
图2:T-PATCHGNN概述,它最初将每个单变量不规则时间序列划分为一系列具有不同数量连续观测值的可变换补丁,但保持统一的时间范围分辨率。然后,修补结果可以无缝建模Transformer和时间自适应GNNs,其中包括随时间变化的自适应图结构学习(GSL),实现有效的IMTS的内部和跨时间序列建模。blog表示门控加法操作。
D − 1滤波器基于Eq.(5),我们通过以下时间卷积获得潜在补丁嵌入
h
p
c
∈
R
D
−
1
h_p^c\in\mathbb{R}^{D-1}
hpc∈RD−1:
TTCN适用于编码可变换补丁,因为它提供了通过可变换滤波器适应可变长度序列的灵活性,在不规则时间序列中为不同时间间隔定制参数化,以及在没有额外可学习滤波器参数的情况下对任意长序列建模的能力。
考虑到在稀疏时间序列或高时域分辨率的情况下,某些补丁可能没有观测值,我们还将补丁掩蔽项纳入补丁嵌入:
其中
m
p
m_p
mp等于1,如果补丁有观测值,否则为零,我们有
h
1
:
P
=
[
h
p
]
p
=
1
P
∈
R
P
×
D
\begin{aligned}\mathbf{h}_{1:P}=[h_p]_{p=1}^P\in\mathbb{R}^{P\times D}\end{aligned}
h1:P=[hp]p=1P∈RP×D。
4.2. Intra- and Inter-Time Series Modeling
本节详细介绍如何将可转换修补应用于不规则时间序列,从而无缝地促进时间序列内和时间序列间建模。
4.2.1. TRANSFORMER TO MODEL SEQUENTIAL PATCHES
通过对补丁进行编码,它们可以用作Transformer中的输入令牌(Vaswani等人,2017)来对不规则时间序列中的依赖关系进行建模。添加位置编码 P E 1 : P ∈ R P × D \mathrm{PE}_{1:P}\in\mathbb{R}^{P\times D} PE1:P∈RP×D以指示补丁的时间顺序: x 1 : P t f , n = h 1 : P n + P E 1 : P \mathbf{x}_{1:P}^{tf,n} = \mathbf{h}_{1:P}^{n}+\mathbf{PE}_{1:P} x1:Ptf,n=h1:Pn+PE1:P。之后,通过将它们转换为查询矩阵 q h n = x 1 : P t f , n W h Q \mathbf{q}_{h}^{n}=\mathbf{x}_{1:P}^{{t}f,n}\mathbf{W}_{h}^{Q} qhn=x1:Ptf,nWhQ、关键矩阵 k h n = x 1 : P t f , n W h K \mathbf{k}_h^n=\mathbf{x}_{1:P}^{tf,n}\mathbf{W}_h^K khn=x1:Ptf,nWhK和值矩阵 v h n = x 1 : P t f , n W h V \mathbf{v}_h^n=\mathbf{x}_{1:P}^{tf,n}\mathbf{W}_h^V vhn=x1:Ptf,nWhV来应用多头注意力,其中 W h Q , W h K , W h V ∈ R D × ( D / H ) \mathbf{W}_{h}^{Q},\mathbf{W}_{h}^{K},\mathbf{W}_{h}^{V}\in\mathbb{R}^{D\times(D/H)} WhQ,WhK,WhV∈RD×(D/H)是可学习的参数,并且H是头的数量。采用缩放点积注意力来获得时间序列内建模的输出:
4.2.2. TIME-VARYING ADAPTIVE GRAPH STRUCTURE LEARNING
不同变量的时间序列往往表现出实质性的相关性。从其他变量中获得的洞察力具有很强的形成性,并能显著增强对每个变量的预测。例如,在患者的心率和血压之间存在显著的相关性,其中一个的变化可以指示另一个的变化,从而反映身体的心血管状态(Obrist等,(1978年)。然而,IMTS中的观测值有时会出现明显的不一致,这给时间序列间相关建模带来了障碍。现有工作(Zhang等人,2021b)通过在观测值出现在任意变量时在所有时间戳传播异步观测值来解决这个问题,这也涉及IMTS预对准并且可能遭受序列长度爆炸问题。
幸运的是,在IMTS中应用可转换补丁后,可以无缝地解决IMTS之间的冲突问题。每个变量都有一致数量的补丁,这些补丁与统一的时间范围分辨率对齐。沿着这条线,我们提出了时间自适应图神经网络模型的时间序列间的相关性在IMTS。
为了揭示IMTS的动态相关性,我们提出学习一系列时变的自适应图,这些图与斑块保持相同的时间分辨率。具体而言,受研究(Wu等人,2019; 2020 b)中,我们首先为所有的变量 E 1 s , E 2 s ∈ R N × D g \mathbf{E}_1^s,\mathbf{E}_2^s\in\mathbb{R}^{N\times D_g} E1s,E2s∈RN×Dg维护了两个参数可学习的嵌入字典.这样就学会了捕捉变量的内在特征。虽然上述变量嵌入可以在训练期间被更新,但是它们在推断中是静态的,并且在时间序列的所有时段上保持不变。然而,变量之间的相关性可以沿着时间动态变化(Zhang et al.,2021年b月)。为了解决这个问题,我们通过一个选通加法操作,将补丁嵌入 H p t f = [ h p t f , n ] n = 1 N ∈ R N × D \mathbf{H}_p^{tf}=[\mathbf{h}_p^{tf,n}]_{n=1}^N\in\mathbb{R}^{N\times D} Hptf=[hptf,n]n=1N∈RN×D(这意味着时间序列在补丁级时间分辨率下的时变语义)合并到静态变量嵌入中:
其中
W
k
d
∈
R
D
×
D
g
,
W
k
g
∈
R
(
D
+
D
g
)
×
1
\mathbf{W}_k^d \in \mathbb{R}^{D\times D_g},\mathbf{W}_k^g \in \mathbb{R}^{(D+D_g)\times1}
Wkd∈RD×Dg,Wkg∈R(D+Dg)×1是可学习参数。通过这种方式,我们获得了每个补丁的时间范围的时变自适应图结构,以明确表征IMTS的动态相关性:
4.2.3. GNNS TO MODEL INTER-TIME SERIES CORRELATION
基于学习的图结构,我们引入了GNN(Kipf &Welling,2016; Wu et al.,2020 a; Zhou等人,2020)以区块级分辨率对动态时间序列间相关性进行建模:
其中M是GNN的层数, W m g n n \mathbf{W}_m^{gnn} Wmgnn ∈ R D × D \mathbb{R}^{D\times D} RD×D是第m层的可学习参数。
在实际应用中,我们可以灵活地堆叠多个K个时间序列内和时间序列间的建模块,以有效地解决不同的IMTS建模场景。
4.3. IMTS Forecasting
随后,使用具有线性头部的平坦化层来获得每个变量的最终潜在表示:
其中
W
f
∈
R
P
D
×
D
o
\mathbf{W}^{f}\in\mathbb{R}^{PD\times D_{o}}
Wf∈RPD×Do是可学习的参数。
给定第n个变量的
H
n
∈
H
\mathbf{H}^n\in\mathbf{H}
Hn∈H和一组预测查询
{
[
q
j
n
]
j
=
1
Q
n
}
n
=
1
N
\{[q_j^n]_{j=1}^{Q_n}\}_{n=1}^{N}
{[qjn]j=1Qn}n=1N,MLP投影层用于生成这些查询的预测结果:
该模型通过最小化预测和地面实况之间的均方误差(MSE)损失来训练:
4.4. Analysis on Scalability
由于所提出的可变换修补独立地处理每个单变量不规则时间序列以实现IMTS的对准,因此针对IMTS要处理的平均序列长度等于它们的平均观测数,即,
L
a
v
g
=
1
N
∑
n
=
1
N
L
n
L_{avg}=\frac{1}{N}\sum_{n=1}^{N}L_{n}
Lavg=N1∑n=1NLn。根据等式(1)中的分析(2)显然,通过使用可变换修补,表示为
L
t
p
L_{tp}
Ltp的待处理的平均序列长度用作相对于通过规范预比对表示法导出的所得平均序列长度
L
c
p
r
L_{cpr}
Lcpr的下限:
它可以防止Ltp与变量数量成比例地爆炸性增长,从而随着变量数量的增加增强模型的可扩展性。我们还在第5.4节和附录A.2中提供了经验证据来分析可扩展性。
表1:通过MSE和MAE评价的总体性能(平均值±标准差)。表现最好和次好的结果分别以粗体和下划线突出显示。
5. Experiments
5.1. Experimental Setup
5.1.1. DATASETS
我们涉及四个数据集,包括PhysioNet,MIMIC,人类活动和USHCN,涉及不同的学科领域,如医疗保健,生物力学和气候科学,以全面评估模型在IMTS预测任务中的性能。因此,我们将每个数据集中的所有实例随机分为训练集、验证集和测试集,比例分别为60%、20%和20%。有关这些数据集的详细信息,请参见附录第A.5节。
5.1.2. IMPLEMENTATION DETAILS
所有实验都在具有20核Intel(R)Xeon(R)Platinum 8255 C CPU@2.50GHz和NVIDIA Tesla V100 GPU的Linux服务器上进行。为了确保公平的比较,对于所有比较的模型,我们始终将PhysioNet和MIMIC的隐藏维度设置为64,将Human Activity和USHCN的隐藏维度设置为32。USHCN的批量大小选择为192,其他数据集的批量大小选择为32。我们使用Adam优化器对这些模型进行训练,并在验证损失超过10个epoch时应用早期停止。为了减轻随机性,我们使用五个不同的随机种子执行每个实验,并给出结果的平均值和标准差。
对于T-PATCHGNN的详细设置,我们选择了PhysioNet和MIMIC的补丁窗口大小为8小时,人类活动为300毫秒,USHCN为2个月。为了减少产生的补丁的数量,我们不使补丁分割重叠,并保持一个滑动步长的补丁窗口等于其大小。时间嵌入Dt和变量嵌入Dg的维数被设置为10。将Transformer中的头数H、GNN中的层数M和块数K选择为1。我们采用三层MLP来实例化TTCN和输出投影层中的元滤波器。我们将整个模型训练的学习率设置为0.001。
5.1.3. EVALUATION METRICS
当前的IMTS预测研究主要利用均方误差(MSE)进行评价,其往往受离群值的敏感影响,难以解释(Chai和Draxler,2014)。为了提供更全面的模型性能评估,我们还纳入了平均绝对误差(MAE),这是一种广泛用于经典时间序列预测评估的指标(Lim & Zohren,2021; Fan等人,2023年)的报告。这两个度量的形式定义如下: M S E = 1 N ∑ n = 1 N 1 Q n ∑ j = 1 Q n ( x ^ j n − x j n ) 2 \mathrm{MSE} = \frac{1}{N}\sum_{n=1}^{N}\frac{1}{Q_{n}}\sum_{j=1}^{Q_{n}}\left(\hat{x}_{j}^{n}-x_{j}^{n}\right)^{2} MSE=N1∑n=1NQn1∑j=1Qn(x^jn−xjn)2,MAE = 1 N PN n=1 1 Qn PQn j=1 x n j − xn j。
5.1.4.BASELINES
为了建立一个完整的基准,为研究不足的IMTS预测任务,我们纳入了17个相关的基线,以公平的比较,涵盖的SOTA模型来自(1)MTS预测:DLinear(Zeng等人,2023)、TimesNet(Wu等人,2022)、PatchTST(Nie等,2022年)、Crossformer(Zhang和Yan,2022年)、Graphwavenet(Wu等人,2019),MTGNN(Wu等人,2020 b),StemGNN(曹等人,2020)、CrossGNN(Huang等人,2023年)和FourierGNN(Yi等人,2023),(2)IMTS分类:GRU-D(Che等人,2018)、SEFT(Horn等人,2020),雨滴(Zhang等人,2021 b),Warpformer(张等人,2023 a),(3)IMTS插值:mTAND(Shukla和马林,2021),以及(4)IMTS预测:潜在ODE(Rubanova等人,2019),英国商品研究所(Schirmer等人,2022年)、神经流(Biloˇs等人,2021年)的报告。这些基线的详细信息见附录第A.6节。
5.2. Main Results
表1报告了MSE和MAE在四个数据集上评估的模型预测性能。可以看出,T-PATCHGNN在所有数据集上都保持了最佳性能,甚至超过了第二好的基线10%。此外,我们观察到MTS预测模型,包括基于补丁的模型和基于GNN的模型,并没有达到一致的竞争力的IMTS预测性能。这表明,直接将这两种技术应用于IMTS无法有效地处理具有挑战性的内部和跨时间序列建模。此外,现有的IMTS预测模型没有取得令人满意的性能,可能是因为他们没有有效地模拟时间序列间的相关性,以提高预测性能。我们还测试了这些模型在较长和较短预测窗口上的性能,结果见附录A.1节。
5.3. Ablation Study
最后评估了T-PATCHGNN及其几个变体在四个数据集上的性能.(1)Complete表示没有任何消融的模型;(2)w/o Patch去除可变形补片并采用规范的预对准表示;(3)rp Patch用标准时间序列补片代替可变形补片(Nie等人,2022);(4)w/o VE去除了嵌入在等式中的变量。(9)(5)w/o PE在构建自适应图时删除了补丁嵌入;(6)w/o Transformer删除了模型中的Transformer模块。
表2显示了模型消融的结果。可以看出,与完整模型相比,删除任何组件都可能导致性能下降。从这些结果中,我们观察到w/o Patch对所有数据集都造成了显着的性能下降,这证明了修补不规则时间序列确实可以促进IMTS后续的时间序列内和时间序列间建模。然而,直接使用标准时间序列修补甚至可能导致比在某些数据集中(如PhysioNet)的w/o Patch更差的性能。它验证了我们的说法,标准补丁面临的麻烦与补丁的时间分辨率的变化,这甚至可能加剧固有的不规则性和不规则性的特点,在IMTS建模。通过比较w/o VE和w/o PE的结果,我们发现对于生理信号预测任务(PhysioNet和MIMIC),变量的内在特征比其动态模式更重要。这是有道理的,因为这些信号之间存在显著的语义差异,如果不有效地识别它们,就很难准确地描述它们的相互关系。然而,我们观察到动态补丁嵌入在人体运动和气候预测中起着重要的作用,这表明这些任务中变量的相关性通常可以动态地沿着时间变化。例如,冬季气温下降往往导致积雪增加,但这种相关性不一定适用于夏季。
表3:序列长度爆炸的证据。比对长度表示标准预比对后的序列长度。扩增通过比较IMTS的对齐长度与原始观察数来指示生长倍数。
5.4. Scalability and Efficiency Analysis
表3展示了在跨四个数据集的规范预比对表示之后序列长度爆炸问题的程度。很明显,平均而言,序列长度可以从原始观测数扩展20倍以上,特别是在处理大量变量时。在极端情况下,序列长度可能会与变量的数量成比例地爆炸性增加(通过最大扩增揭示),从而带来重大的可扩展性挑战。然而,我们的可变换修补有效地规避了这个问题,通过处理原始的观察序列,而不需要预对准。
为了进一步研究可转换补丁对模型效率的好处,我们在图3中展示了MIMIC上每个epoch的平均训练时间和每个IMTS实例的平均推理时间。我们可以观察到T-PATCHGNN在训练和推理阶段的效率方面优于所有采用规范预对齐表示的模型。此外,与目前主流的基于ODE的IMTS预测模型相比,TPATCHGNN甚至实现了至少65倍的训练速度和15倍的推理速度。附录A.2中提供了更多关于增加变量后模型可扩展性的分析测试。
5.5. Effect of Patch Size
图4描绘了不同补丁窗口大小对各种数据集的影响。我们可以观察到补丁大小对性能的影响在不同地区的数据集上有所不同。具体而言,对于PhysioNet和MIMIC,性能保持相对稳定,补丁大小较小,当补丁大小达到8小时时达到峰值。这可能归因于许多生理信号的稀疏性质,其中短于四小时的时间跨度可能不包含足够的观察以有效地捕获子系列内的局部模式。然而,随着补丁大小的增加超过这一点,我们观察到模型性能下降。一个过大的补丁大小的结果在一个补丁级的时间分辨率降低,不利地影响了详细的内部和内部的时间序列分析。当涉及到人类活动和USHCN时,相对较小的斑块大小将是首选。由于这些地区的IMTS通常表现出高度动态的模式,相对较小的补丁大小可以使IMTS内的动态更细粒度的建模。
从另一个角度来看,最佳补丁大小可以通过综合考虑预测和观测窗口大小来选择。长期预测和观察通常涉及较大的补丁大小,以更好地捕获补丁内的趋势语义和跨时间序列的长期依赖性(例如,PhysioNet和MIMIC),而短期预测(例如,人类活动和USHCN)更建议选择相对较小的补丁大小,以实现更细粒度的分辨率建模。更多超参数的敏感性分析见附录A.3。
6. Conclusion
本文提出了一种可变换修补图神经网络方法T-PATCHGNN,用于解决IMTS预测问题。T-PATCHGNN通过将每个单变量不规则时间序列转换为一系列具有不同观测计数但保持统一时间范围分辨率的可转换补丁来实现异步IMTS之间的对齐。这种转换使得能够在IMTS内捕获局部语义,并且无缝地促进了时间序列内和时间序列间建模,而无需规范的预比对表示过程,从而防止比对序列长度与增加的变量成比例地爆炸性增长。在可变换修补的基础上,我们提出了时间自适应图神经网络,基于一系列学习的时变自适应图来建模动态时间序列间的相关性。我们证明了T-PATCHGNN在我们建立的综合IMTS预测基准上的显着优越性。