本文介绍了SPIRIT (Streaming Pattern dIscoveRy In multIple Timeseries)。给定n个数值数据流,我们在每个时间点t观察到它们的所有值,SPIRIT可以增量地发现相关性和隐藏变量,这总结了整个流集合中的关键趋势。它可以快速完成,不需要缓冲流值,也不需要对流进行比较。此外,它是随时、单遍的,并动态地检测变化。发现的趋势还可以用来立即发现潜在的异常,进行有效的预测,更一般地说,可以大大简化进一步的数据处理。实验评估和案例研究表明,SPIRIT可以高效地增量捕获相关性和发现趋势。
一研究问题:
所有这些应用程序都有一个共同点:(i)大量数据以很高的速度到达,这使得传统数据库系统慢得令人望而却步;(ii)用户或更高级别的应用程序需要立即响应,无法承担任何后处理。
除了为数据流管理系统(data stream management systems, DSMS)提供类似sql的支持外,检测协同进化数据流中可能存在的模式和关联至关重要。数据流通常是内在相关的(例如,同一栋建筑的温度、同一网络的流量、同一市场的价格等),可以将数百个数值流简化为少数几个隐藏变量,这些变量紧凑地描述了关键趋势,并极大地降低了进一步数据处理的复杂性。本文提出一种增量完成此工作的方法。
Tracking correlations and hidden variables: SPIRIT
SPIRIT还适应所需的隐藏变量的数量k,以捕获大多数信息。
1)Tracking the hidden variables
第一步,对于给定的k,增量更新k个参与权重向量wi, 1≤i≤k,从而只用少量数字(隐藏变量)总结原始流。
2)Detecting the number of hidden variables
在实践中,我们不知道隐藏变量的个数k。本文建议动态估计k,以保持能量Et的高百分比fE。能量阈值化是确定[26]需要多少主成分的常用方法
阅读者总结:这是一篇很有趣的论文,利用了统计上的方法实现隐藏变量的检测。利用简单的模型解决了很复杂的问题,思想很具有代表性。