1.概述
对性能变异进行人为的根本原因分析是一件极其耗费时间的事情,因为这要依赖人类专家和数据增长的大小。尽管出现了许多有监督机器学习方法可以自动诊断出HPC系统中的异常,但是它们主要的缺点是:需要人类的操作员理解异常的根本原因以及去标注异常。有监督方法的一个共同缺点就是:需要有大量有标签数据进行训练。在真实环境中却没有很多的有标签的数据。
文章提出了一种半监督的框架Proctor,可以使用少量的、有限的有标签数据对HPC系统进行故障诊断。
2.Proctor框架
说了这么多,Proctor长什么样子呀,直接上图~
Statistical Feature Extraction:
文章使用Tuncer et al.’s easy-to-compute statistical features [40]将多元时间序列转换成适合proctor的数据格式。Statistical Feature Extraction方法独立于monitoring framework之外。
Unsupervised Pretraining
训练autoencoder提取原始时间序列的特征,让autoencoder以无监督的方式去学习正常样本和异常样本的表示。训练autoencoder的目标是学习X和X‘尽可能相似的权重。