![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
异常检测
文章平均质量分 94
XYQLTX
这个作者很懒,什么都没留下…
展开
-
task_05 异常检测—高维数据的异常检测
一、高维数据的异常检测随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在高维空间中,所有点对的距离几乎都是相等的(距离集中),这使得一些基于距离的方法失效。本文主要学习两种集成方法。1.1 Feature Bagging算法主要过程:(1)选择基分类器,在子集上计算异常得分。标准化数据集S,大小为n×dn\times d原创 2021-01-24 17:39:31 · 194 阅读 · 0 评论 -
task_04异常检测—基于相似度的方法
一、基于距离的度量“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。1.1k近邻方法的一种拓展版基于距离的异常检测有这样一个前提假设,即异常点的 kkk 近邻距离要远大于正常点。解决问题的最简单方法是使用嵌套循环。 第一层循环遍历每个数据,第二层循环进行异常判断,需要计算当前点与其他点的距离,一旦已识别出多于 kkk 个数据点与当前点的距离原创 2021-01-21 21:52:29 · 229 阅读 · 1 评论 -
task_3异常检测——线性相关方法
2、数据可视化以breast-cancer-unsupervised-ad数据集为例做一些简单的数据可视化。#coding:utf-8#导入warnings包,利用过滤器来实现忽略警告语句。?这个不知道是干什么用的import warningswarnings.filterwarnings('ignore')import numpy as npimport pandas as pd import matplotlib.pyplot as pltimport seaborn as snsi原创 2021-01-18 21:11:43 · 180 阅读 · 0 评论 -
task_2异常检测方法—统计学习方法
一、基于统计学方法的异常检测主要原理是:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。也就是说,包括两个步骤,第一,给出概率模型,第二,考虑对象有多大可能符合该模型。根据如何指定和学习模型,异常检测的统计学方法可以划分为两个主要类型:参数方法和非参数方法。参数方法:假定正常的数据对象被一个以Θ\ThetaΘ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)f(x,\Theta)f(x,Θ)给出对象xxx被该分布产生的概率。该值越小,xxx越可能是异常点原创 2021-01-15 22:22:40 · 284 阅读 · 0 评论 -
异常检测——task01
一、异常检测1.1 概念异常检测是指识别出与正常数据不同的数据,与预期行为差异大的数据。因此异常检测一般都是不平衡的分类或聚类。1.2 典型应用场景其应用背景有很多,这里主要介绍故障检测。故障是指:当系统的某个特征参数发生了不可接受的偏移时,称系统发生了故障。故障检测就是判断系统是否发生了故障并判断故障的类型和硬件位置;1.3 故障检测的简要介绍故障可以分为两类:一类是预期故障,就是在故障模式库中存在的故障;另一类是非预期故障,这类故障客观存在,但是故障模式库中没有记录。前者往往存在对应的监测记原创 2021-01-12 19:56:27 · 587 阅读 · 1 评论