气候网络通过一组异常时间序列的相互作用来表示全球气候系统。网络科学已应用于气候资料,以研究气候网络的动态。对气候数据进行网络动态分析的核心任务是高效地计算和更新历史和实时数据的用户自定义时间窗口的相关矩阵。我们提出了一种基于Pearson相关性的有效计算精确两两时间序列相关性的算法TSUBASA。通过预先计算简单的、低开销的草图,TSUBASA可以在查询时高效地计算任意时间窗口上的精确成对关联。对于实时数据,TSUBASA提出了一种快速增量更新相关矩阵的方法。我们提供了一个详细的时间和空间复杂性分析的TSUBASA。我们的实验表明,与基于dft的近似解相同的空间开销,TSUBASA具有更低的绘制时间,并且在查询时间方面与近似解相同。TSUBASA比历史和实时数据的基线至少快一个数量级。
背景:
气候网络中的节点是地理位置,以时间序列为特征,边缘代表节点之间的信息流。边缘权值表明时间序列的行为之间有一定程度的相关性
研究问题: 给定用户提供的查询窗口,通过计算查询窗口上所有时间序列的两两相关性来构造相关矩阵。Pearson相关是研究两两气候相关关系的主要指标之一
网络建设的核心任务是大规模全对时间序列相关计算问题。交互式网络分析的关键挑战包括:1)完整相关矩阵的精确计算,2)任意大小时间窗的相关计算,3)网络建设和更新历史实时数据的效率,以实现交互性。
框架:
在预处理过程中,将每个时间序列划分为基本窗口。我们一次性勾画出时间序列的基本窗口,并存储收集到的统计信息。在查询时,检索所有时间序列中给定查询窗口对应的基本窗口的统计信息,计算全对相关性,而不需要访问原始数据.
对于实时数据,系统构建初始矩阵和网络,并以大小为𝐵的块接收实时原始数据。新摄取的基本窗口的草图是动态完成的,时间序列的相关性是增量更新,而无需从头计算相关性。
注意:提前预计算整个时间序列的基本窗口信息
1)Exact Pairwise Correlation
将一个系列细分为基本窗口使我们能够以更小的批处理数据,一个等长的基本Windows序列。放宽了这一假设 ,TSUBASA通过考虑变长基本窗口。
使用Lemma 1,我们可以预先计算和存储一次基本窗口的统计信息,并计算用户给定查询窗口在查询时的时间序列相关性。
Approximate Pairwise Correlation
如何扩展我们的模型来近似查询窗口中所有时间序列的相关性
Parallel and Disk-based TSUBASA
所有时间序列对的集合可以被划分为并行处理的组。 TSUBASA采用了类似于并行块嵌套循环连接的方法。每个分区包含一个与所有时间序列配对的时间序列子集,即每个分区是一个相关矩阵中的一组行,并逐行分批处理。
EXPERIMENTS