无监督异常检测算法的比较
原论文:A comparative evaluation of unsupervised anomaly detection
algorithms for multivariate data
摘要
异常检测是指在数据集中发现与标准不同的意外项目或事件的过程。与标准分类任务相比,异常检测通常应用于未标记数据,只考虑数据集的内部结构。这种挑战被称为无监督异常检测,并在许多实际应用中得到解决,例如在网络入侵检测、欺诈检测以及生命科学和医学领域。在这一领域已经提出了几十种算法,但遗憾的是,研究界仍然缺乏一个比较通用的评估以及公共可用的数据集。在本研究中,我们针对这些不足之处,针对来自多个应用领域的10个不同资料集,评估了19种不同的无监督异常侦测演算法。通过发布源代码和数据集,本文旨在为无监督异常检测研究提供新的研究基础。此外,这一评估首次揭示了不同方法的优缺点。除了异常检测性能、计算量、参数设置的影响以及全局/局部异常检测行为外,还对异常检测性能进行了概述。最后,对典型的现实任务给出了算法选择的建议。
引言
在机器学习中,检测数据集中的“非正常”实例一直是人们非常感兴趣的。这个过程通常被称为异常检测。Grubbs在1969年给出了第一个定义[1]:“一个离群的观测值,或者说离群值,是一个看起来与它发生的样本中的其他成员明显不同的观测值。”。虽然这个定义在今天仍然有效,但是检测这些异常值的动机现在已经大不相同了。当时,检测的主要原因是从训练数据中去除异常值,因为模式识别算