LSHiForest: A Generic Framework for Fast Tree Isolation based Ensemble Anomaly Analysis
异常或离群点检测是大数据分析中的一个主要挑战,因为异常模式在广泛的应用中为决策提供了有价值的见解。最近提出的基于树隔离机制的异常检测方法具有对数时间复杂度,速度非常快,能够高效地处理大数据集。然而,这些方法中潜在的相似性或距离度量还没有被很好地理解。与这些方法不依赖于任何距离度量的说法相反,我们发现它们与某些距离度量有密切的关系。这意味着这种快速隔离机制的当前使用仅局限于这些距离措施,未能推广到其他常用措施。
本文提出了一种通用框架LSHiForest,用于基于树隔离的快速集成异常分析,并使用局部敏感哈希(LSH)森林。该框架具有通用性,可以实例化多种LSH族,快速隔离机制可以扩展到任何定义了LSH族的距离度量、数据类型和数据空间。特别是,具有核化LSH族或基于学习的哈希方案的框架实例可以检测复杂的异常,如本地或包围的异常。形式化地表明,现有的基于树隔离的检测方法是该框架的特殊情况,具有相应的距离度量。在合成数据集和真实数据集上的大量实验表明,该框架可以同时获得较高的时间效率和异常检测质量