异常检测
文章平均质量分 95
youself_jin
这个作者很懒,什么都没留下…
展开
-
五、异常检测——高维数据异常检测
1. 引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。在高维场景下,一个常用的方法是子空间方法。集成是子空间思想中常用的方法之一,可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起原创 2021-01-24 17:22:25 · 551 阅读 · 0 评论 -
四、异常监测——基于相似度的方法
1.概述异常通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。 实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。在普通的数据处理中,我们常常需要保留正常数据,而对噪声和异常值的特性则基本忽略。但在异常检测中,我们弱化了“噪声”和“正常数据”之间的区别,专原创 2021-01-21 19:40:55 · 180 阅读 · 0 评论 -
三、异常检测——线性相关方法
1. 引言真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。 一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。需要明确的是,这里有两个重要的假设:假设一:近似线性相关假设。线性相关假设是使用两种模型进行异常检测的重要理论基础。原创 2021-01-18 18:49:38 · 430 阅读 · 0 评论 -
二、异常检测——基于统计学的方法
基于统计学的异常检测方法1. 概述2. 参数方法2.1 基于正态分布的一元异常点检测2.2 多元异常点检测2.2.1 特征之间相互独立,且符合多元高斯分布2.2.2 多个特征相关,且符合多元高斯分布2.2.3 使用混合参数分布3. 非参数方法4. HBOS(Histogram-based Outlier Score)5. COPOD(Copula-Based Outlier Detection)6. 总结7. 练习1. 概述基于统计学的异常检测方法是对数据的正常性做出假定,它是一种基于模型的方法。它们假原创 2021-01-13 21:19:18 · 1639 阅读 · 0 评论 -
异常检测概述
1. 什么是异常检测异常检测(Outlier Detection),顾名思义,就是识别与正常数据不同,与预期行为差异大的数据。一般情况下,可以把异常检测看成是数据不平衡下的分类问题。1.1 异常的类别**点异常:**指的是少数个体实例是异常的,大多数个体实例是正常的,例如正常人与病人的健康指标;**上下文异常:**又称上下文异常,指的是在特定情境下个体实例是异常的,在其他情境下都是正常的,例如在特定时间下的温度突然上升或下降,在特定场景中的快速信用卡交易;**群体异常:**指的是在群体集合中的个体原创 2021-01-12 09:31:11 · 930 阅读 · 0 评论