Dish-TS

Dish-TS: A General Paradigm for Alleviating Distribution Shift in Time Series Forecasting

Background

2023 AAAI
Department of Computer Science, University of Central Florida(美国佛罗里达中央大学计算机科学系)
State Key Laboratory of Internet of Things for Smart City, University of Macau(澳门大学智慧城市物联网重点实验室)
Computer Network Information Center, Chinese Academy of Sciences(中国科学院计算机网络信息中心)
一作:Wei Fan 数据挖掘、AI
知名论文:Mining big data: current status, and forecast to the future

0 Abstract

Time Series Forcasting(TSF)问题中分布偏移表明序列分布会随时间改变。现有的针对时间序列分布偏移的工作,大多被分布量化所局限,更重要的,忽视了回顾窗口(lookback)和展望窗口(horizon)之间的潜在分布偏移。本文系统地将TSF中的分布偏移划分为2类。考虑将回顾窗口视为输入空间,展望窗口视为输出空间,则存在:(1)空间内偏移(intra-space):输入空间中分布随时间持续发生偏移;(2)空间间偏移(inter-space):输入空间和输出空间之间发生分布偏移。本文提出 D i s h Dish Dish- T S TS TS作为一个通用神经网络范式,以减轻TSF中的分布偏移。特别地,为了更好的分布评价,,提出coefficient net(CONET),可以是任何神经结构,将输入序列映射成可学习的分布系数。为了减轻intra-space和inter-space偏移,将Dish-TS组织为一个Dual-CONET框架分开学习输入空间和输出空间的分布,这样可以更好地捕获两个空间分布的差异。此外,我们介绍了一种对可迭代CONET学习有效的训练策略。在一些数据集上拓展实验,SOTA。

summury:

  1. TSF中分布偏移2种:intra,inter;
  2. Dish-TS
  3. CONET
  4. 结合为Dual-CONET

1 Introduction

TSF用处多多。有巨大成果,但non-stationarity(时间序列的不平稳性)还是很大的挑战,它表明序列数据随时间改变分布,可以把non-stationarity理解为时间序列中的分布偏移。这个问题导致了很差的泛化,阻碍TSF。
分析大量数据后,本文把TSF中的分布偏移划分为2类(如摘要)。

  1. TSF中空间内的分布量化不可靠。(intra-space)
    时间序列可能在连续变化,但是采集的数据只是传感器按一定频率对连续数据的采样。现有的研究通常是直接对序列进行归一化或重标化,用经验得到的固定统计量量化真实分布,再用这些统计量对序列分布进行归一化。然而,经验统计在表达数据背后的真实分布方面是不可靠的和有限的。比如,以不同频率采样的数据经过上述方法构造的分布可能是不同的,尽管来自同一个时间序列。但,能得到真实分布的采样频率也是难以探测的。所以,如何量化分布和空间内分布偏移还是个问题。
  2. TSF中空间间偏移不可忽视。(inter-space)
    不同于一般问题假设输入空间和输出空间同分布,TSF中需要考虑输入输出空间不同分布。尽管最近的一项研究RevIN试图通过规范化输入和非规范化输出来对齐实例,但它仍然假设回顾和视界具有相同的统计属性;所以分布是一样的。但,事实上它们分布就是不一样的。

为了克服上述限制,提出了通用神经网络范式 D i s h Dish Dish- T S TS TS对抗TS中的分布偏移。它模型无关(model-agnostic),可以配合任意深度TSF模型。 D i s h Dish Dish- T S TS TS包括两阶段过程(two-stage process),预测前规范化输入,预测后非规范化输出。
为了解决分布量化不可靠问题,提出CONET测量序列分布。给出任意序列数据的窗口,CONET会将它映射到2个可学习系数:一个水平(level)系数和一个拓展(scaling)系数为了说明序列的总体规模和功能。通常情况下,CONET可以用在任意神经网络架构上执行线性或非线性的映射,对各种复杂性有足够的建模能力。
为了减轻intra-space偏移和inter-space偏移问题,把 D i s h Dish Dish- T S TS TS组织成一个 D u a l Dual Dual- C O N E T CONET CONET框架,由两个分开的CONET组成:

  1. BACKCONET:生成参数评估输入空间的分布;
  2. HORICONET:生成参数推断输出空间的分布;

D u a l Dual Dual- C O N E T CONET CONET的设置捕获输入和输出空间的不同分布,可以自然地减轻inter-space偏移。
此外,考虑到HORICONET需要推断(或预测)输出空间的分布,由于inter-space的偏移,输出空间的分布更加难以处理, D u a l Dual Dual- C O N E T CONET CONET中进一步引入了一种有效的先验知识诱导训练策略,用于CONET学习。因此,一些其他的输出空间的characteristics也用来为HORICONET提供先验知识的监督。
贡献:

  1. 系统划分TSF中分布偏移为intra-space和inter-space偏移
  2. 提出 D i s h Dish Dish- T S TS TS,在 D u a l Dual Dual- C O N E T CONET CONET上built,联合考虑了intra和inter space shift
  3. 为了实现Dish-TS,我们提供了一个最简单直观的CONET设计实例,并采用先验知识诱导的训练方式来证明该范式的有效性
  4. 实验SOTA

2 Related Work

TSF模型

早期:统计建模。指数平滑,自回归滑动平均模型(ARMA)。
更复杂:结合多个预测模型的结果来提高预测的准确性( Feature-based forecast model averaging)。
深度学习:N-BEATS,Transformer,Autoformer。

TSF分布偏移

规范化(normalization)技术:Adaptive Norm,DAIN,Adaptive RNNs,RevIN。
他们大多数都不考虑inter-space分布偏移。

3 Problem formulations

TSF

( x t : t + H ( 1 ) , . . . , x t : t + H ( N ) ) T = F Θ ( ( x t − L : t ( 1 ) , . . . , x t − L : t ( N ) ) ) (\mathbf{x}_{t:t+H}^{(1)},...,\mathbf{x}_{t:t+H}^{(N)})^{T} = \mathscr{F}_{\Theta}\big((\mathbf{x}_{t-L:t}^{(1)},...,\mathbf{x}_{t-L:t}^{(N)})\big) (xt:t+H(1),...,xt:t+H(N))T=FΘ((xtL:t(1),...,xtL:t(N)))

为了简洁没有写高斯噪声 ϵ t : t + H \mathbf\epsilon_{t:t+H} ϵt:t+H
{ x t − L : t ( i ) } i = 1 N \{\mathbf{x}_{t-L:t}^{(i)}\}_{i=1}^{N} {xtL:t(i)}i=1N是回顾窗口
{ x t : t + H ( i ) } i = 1 N \{\mathbf{x}_{t:t+H}^{(i)}\}_{i=1}^{N} {xt:t+H(i)}i=1N是展望窗口
N是多变量(multivariate)
F Θ : R L × N → R H × N \mathscr{F}_{\Theta}:\mathbb{R}^{L \times N} \rightarrow \mathbb{R}^{H \times N} FΘ:RL×NRH×N是由 Θ \Theta Θ参数化的模型

Distribution Shifts in TS

intra-space shift:

对任意时间步 u ≠ v u \neq v u=v ∣ d ( X i n p u t ( i ) ( u ) , X i n p u t ( i ) ( v ) ) ∣ > δ |d(\mathcal{X}_{input}^{(i)}(u),\mathcal{X}_{input}^{(i)}(v))|>\delta d(Xinput(i)(u),Xinput(i)(v))>δ

δ \delta δ是一个小的阈值
d d d是一个距离函数

inter-space shift

∣ d ( X i n p u t ( i ) ( u ) , X o u t p u t ( i ) ( u ) ) ∣ > δ |d(\mathcal{X}_{input}^{(i)}(u),\mathcal{X}_{output}^{(i)}(u))|>\delta d(Xinput(i)(u),Xoutput(i)(u))>δ

4 D i s h Dish Dish- T S TS TS

Overview

对抗TS中分布偏移有效、灵活的范式。
two-stage:normalizing before forecasting and denormalizing after forecasting。
建立在CONET基础上,CONET将输入序列映射到分布测量(measurement)参数。
组织成 D u a l Dual Dual- C O N E T CONET CONET,包括 B A C K C O N E T BACKCONET BACKCONET(illustrate 输入空间)和 H O R I C O N E T HORICONET HORICONET(illustrate 输出空间)。回顾窗口的数据在进入任何预测模型 F Θ \mathscr{F}_{\Theta} FΘ前都被 B A C K C O N E T BACKCONET BACKCONET的系数转换;输出数据(预测结果)在得到最终预测前都被 H O R I C O N E T HORICONET HORICONET的系数转换。此外, H O R I C O N E T HORICONET HORICONET可以用一个先验诱导知识方式更高效地训练,特别是长序列预测的时候。

D u a l Dual Dual- C O N E T CONET CONET framework

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 Experiment

单变量提升
在这里插入图片描述
多变量提升
在这里插入图片描述
和SOTA的规范化方式比较,Dish-TS更SOTA
在这里插入图片描述
不同的展望窗口长度
在这里插入图片描述
不同 α \alpha α(损失函数中prior-knowledge induced fashion)的影响
在这里插入图片描述
回顾窗口长度
在这里插入图片描述
CONET初始化方式
在这里插入图片描述
分布发生大的偏移时,另外两种方式都不能很好地预测,但Dish-TS可以
在这里插入图片描述

Conclusion

好的,Dish-TS是整个Framework,Dual-CONET是描述它(双重CONET),CONET是中间一个主要组件的名字。
他处理偏移的方式和我之前看的不一样,我之前看的基本都是先最大化分布差异划分分布,再最小化分布在特征空间的距离,提取域不变特征,得到泛化。
这里通过CONET,CONET将数据映射到参数,用这两个参数代表这一段序列服从的分布,那么,相似的序列也会映射到一样的参数,不相似的大概率映射到不同的参数,算是捕获了intra-space的分布差异。然后寻训练过程中因为损失函数中加了一项预测值与真实值映射参数的差异损失,HORICONET可以朝着找到inter-space分布差异的方向优化,也可以算作捕获inter-space分布的差异。即数据预测前去空间内分布差异,之后又加回空间内分布差异同时又考虑了空间间分布差异。
感觉在做分解,把区别于整体分布趋势的项分离出来,然后分离后的看似更接近于相同分布的数据进入模型预测,然后预测完之后又把有区别的部分加回来。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值