datawhale-第25期-异常检测
文章平均质量分 79
零露_
这个作者很懒,什么都没留下…
展开
-
异常检测-task5
异常检测——高维数据异常检测主要内容包括:Feature Bagging孤立森林文章目录异常检测——高维数据异常检测1、引言2、Feature Bagging3、Isolation Forests4、总结5、练习参考资料1、引言在实际场景中,很多数据集都是多维度的。随着维度的增加,数据空间的大小(体积)会以指数级别增长,使数据变得稀疏,这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战,对距离的计算,聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性,但是,在原创 2021-05-23 22:04:01 · 90 阅读 · 0 评论 -
异常检测-task4
异常检测——基于相似度的方法(距离与密度)主要内容包括:基于距离的度量基于密度的度量1、概述 “异常”通常是一个主观的判断,什么样的数据被认为是“异常”的,需要结合业务背景和环境来具体分析确定。 实际上,数据通常嵌入在大量的噪声中,而我们所说的“异常值”通常指具有特定业务意义的那一类特殊的异常值。噪声可以视作特性较弱的异常值,没有被分析的价值。噪声和异常之间、正常数据和噪声之间的边界都是模糊的。异常值通常具有更高的离群程度分数值,同时也更具有可解释性。 在普通的数据处理中,我们常常需原创 2021-05-19 20:52:20 · 152 阅读 · 0 评论 -
异常检测-task3
异常检测—task3-线性相关方法1、前言 真实数据集中不同维度的数据通常具有高度的相关性,这是因为不同的属性往往是由相同的基础过程以密切相关的方式产生的。在古典统计学中,这被称为——回归建模,一种参数化的相关性分析。 一类相关性分析试图通过其他变量预测单独的属性值,另一类方法用一些潜在变量来代表整个数据。前者的代表是 线性回归,后者一个典型的例子是 主成分分析。本文将会用这两种典型的线性相关分析方法进行异常检测。 需要明确的是,这里有两个重要的假设: 假设一:近似线性相关假设。线性相关假原创 2021-05-17 21:02:37 · 84 阅读 · 0 评论 -
异常检测-task1
异常检测-task1:异常检测概述与基本实现1 异常检测定义与应用1.1 异常检测定义定义:异常检测(英语:anomaly detection)对不符合预期模式或数据集中其他项目的项目、事件或观测值的识别,通常异常项目会转变成银行欺诈、结构缺陷、医疗问题、文本错误等类型的问题。异常也被称为离群值、新奇、噪声、偏差和例外。有三大类异常检测方法。 在假设数据集中大多数实例都是正常的前提下,无监督异常检测方法能通过寻找与其他数据最不匹配的实例来检测出未标记测试数据的异常。监督式异常检测方法需要一个已经被原创 2021-05-10 15:00:59 · 142 阅读 · 0 评论 -
异常检测-task2
基于统计学方法的异常检测1、概述1.1 基本原理首先假设正常数据服从某一分布,对于异常点,并不符合该分布,由此可以利用统计学方法找到异常点。一般思想为:学习一个拟合给定数据集的生成模型,然后识别该模型低概率区域中的对象,把它们作为异常点。1.2 主要类型参数方法假定正常的数据对象被一个以Θ\ThetaΘ为参数的参数分布产生。该参数分布的概率密度函数f(x,Θ)f(x,\Theta)f(x,Θ)给出对象xxx在该分布下的概率。该值越小,xxx越可能是异常点。非参数方法并不假定先验分布,而是通原创 2021-05-13 21:06:33 · 72 阅读 · 0 评论 -
异常检测 task_0
异常检测 task_01 datawhale论坛与项目介绍论坛:http://datawhale.club/在论坛如何提问:http://datawhale.club/t/topic/728/2项目介绍:http://datawhale.club/t/topic/1425学习任务:https://github.com/datawhalechina/team-learningPPT简介:https://datawhale.feishu.cn/docs/doccnY7uZLRKtxWpU5oazEf原创 2021-05-09 20:36:43 · 138 阅读 · 0 评论