论文解读(8)-ST-Norm

很遗憾,论文并没有开放,所以内容只能依靠别人的解释来理解。
ST-Norm: Spatial and Temporal Normalization for Multi-variate Time Series Forecasting - 知乎 (zhihu.com)
笔记:ST-Norm: Spatial and Temporal Normalization for Multi-variate Time Series Forecasting (notion.site)

ST-Norm

  • 这是一篇kdd2021的文章

对MTS的见解: MTS的来源:任何的MTS都是由混合动力系统产生的,其具体动力学通常是未知的。这种动力系统的混合性质,是复杂的外部影响的结果。

对MTS的Insight:上述的外部影响,从时间层面上可以总结为高频和低频,从空间层面上可以总结为全局和局部。这些影响决定了 MTS 的未来走向,因此在时间序列任务预测中,首要(paramount)的事,就是要捕获或量化这些影响。

传统方法的问题: 无法从原始数据中分离(disentangling)出各类影响(高频、低频、局部、全局)产生的成分。

创新性:提出两类正则化模块:时间正则化和空间正则化。他们的从原始数据中分别提炼出高频分量和低频分量。并可以很容易地将这种正则集成到Wavenet 和 Transformer等架构中

Intro

  • 时间往往不是平稳的,而是包含多种动态性的
  • 例如,一个路段的交通量很大程度上受到路况、位置、当前时间、天气的影响。

因此,将这些复杂的动力学建模作为一个单位进行处理

1. MTS

  • 多变量时间序列
    MTS的影响可以分为四类:局部低频影响、全局低频影响、局部高频影响、全局高频影响。

低频、高频是时间层面上的影响,全局、局部是空间层面上的影响。

  • 全局:所有的时间序列都受到的相同的影响(带来相同的动态性)
  • 局部:不同的时间序列上的不同的影响(带来不同的动态性)
  • 低频:平滑变化的影响,或者说在一个时间段内稳定(Stable)。
  • 高频:剧烈变化的影响。

local high-frequency: 交通事故或者拥塞
local low-frequency: 节点的属性(例如区域功能性)
global high-frequency: Time of day
global low-frequency: day of week

什么是动态性?

动态性就是一个物理量随时间演变的模式。假设这个物理量是x(t),那么动态性就可以理解为函数f(t) where f ( t ) = d x d t f(t)=\frac{dx}{dt} f(t)=dtdx。显然,其实只要能够建模出这个f(t),在给定一个初始值,我们就能过作出精准的预测: x ( t 1 ) = x ( t 0 ) + ∫ t 0 t 1 f ( t ) d t x(t_1)=x(t_0)+\int_{t_0}^{t_1}f(t){\rm{d}}t x(t1)=x(t0)+t0t1f(t)dt。 因此,这个动态性函数(模式) f ( t ) = d x d t f(t)=\frac{dx}{dt} f(t)=dtdx,就是解决时间序列预测问题的关键所在。 需要注意的是,现实世界中这个动态性本身也是随着时间变化的。例如工作日是一种动态性,周末是另一种动态性。 在此基础上,MTS更加的独特:每一个变量产生的时间序列的动态性是不同的。 因此,为了实现MTS的准确预测,模型必须能够做到:区分时间上的独特性和空间上的独特性。

假设1:现实世界中的原始数据 X i , t \mathbf{X}_{i,t} Xi,t可以被分解为上述四者的积:
在这里插入图片描述

另外两个在大多数现实世界问题中都成立的假设:

  • 一方面,低频部分在一段悠闲的区间内是稳定(stable)的(包括全局低频和局部低频)
  • 另一方面,在高频部分:全局高频分量很好地支配了局部高频分量。(the global high-frequency component well-dominate the local high-frequency component.)

在这样的假设下,原始数据的**方向(或单位向量)**将会由全局高频 g h gh gh支配:
在这里插入图片描述

全局、高频占据主导,会使得真实世界数据在小范围内的时间和空间上都无法区分。为了验证这一点,下图展示了三个不同属性的变量,在8和9点的记录值(例如居民区、商业区、景区在8、9点的人流量)。
在这里插入图片描述

  • 这里可以看到全局、高频成分是占据主导地位的,因此尽管地点不同,但是斜率都差不多,因此在空间上无法区分——spatial indistinguishablity。在信号角度来看,其实是忽略了local信息。

2. ST-Norm

  • Spatial Norm是在同一个时间片内,重新计算所有节点的值。
  • Temporal Norm是在同一个节点上的一段时间片内,重新计算所有时间片的值。在这个计算过程中,low-frequency被认为是一个常数。
  • 其实Graph-based的一些方法,能够起作用的原因,也可以从上述视角进行解释(和进一步改进)。Graph-based的方法得到的结果如下
    在这里插入图片描述
2.1 框架

在这里插入图片描述

2.2 公式

Temporal Normalization
在这里插入图片描述

在这里插入图片描述

Spatial Normalization
在这里插入图片描述

在这里插入图片描述

这两个Norm本质上是一个放大器,放大原本不太明显的区别。

  • 15
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值