随着在线服务的日益普及,事件诊断已成为最大限度地减少服务故障、确保提供高质量服务的关键任务。对于大多数在线服务来说,事件诊断主要是通过分析服务运行时收集的大量遥测数据来进行的。时间序列数据和事件序列数据是遥测数据的两大类。相关分析技术是工程师广泛应用于数据驱动事故诊断的重要工具。尽管它们很重要,但之前很少有研究处理用于事件诊断的两类异构数据之间的相关性:连续时间序列数据和时间事件数据。在本文中,我们提出了一种评估时间序列数据和事件数据之间相关性的方法。我们的方法能够在事件诊断的背景下发现事件-时间序列相关性的三个重要方面:相关性的存在,时间顺序和单调效应。在仿真数据集和两个真实数据集上的实验结果验证了该算法的有效性。
方法:
我们的相关分析问题可以转化为一个多元双样本假设检验问题。双样本检验通常用于检查两个样本是否来自相同的基础分布,假设这是未知的。
THE APPROACH
我们提出了一种基于最近邻的方法算法,分析了这三个方面的相关性,然后分析了所提出的方法的复杂性。
Nearest Neighbor Method
Temporal Order
The Overall Algorithm
选取事件发生前后的序列与随机选取的时间序列求相关性,结果为Dr和Df。如果Dr为True,Df为False,代表E的发生先于S的发生(E -> S)。如果Dr为False,Df为True,或Dr为True,Df为True,代表S的发生先于E的发生(S -> E)
实验