《数据挖掘导论》学习 | 第十章异常检测

最新推荐文章于 2021-05-11 17:42:42 发布

蕴玉山辉，怀珠川媚

最新推荐文章于 2021-05-11 17:42:42 发布

阅读量723

点赞数

分类专栏：数据挖掘导论文章标签：数据科学数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44813180/article/details/105858454

版权

数据挖掘导论专栏收录该内容

5 篇文章 3 订阅

订阅专栏

目录

第十章异常检测

第十章异常检测

预备知识

异常的成因

数据来源于不同的类
自然变异
数据测量和收集误差

异常检测方法

基于模型的技术：与事先建立的数学模型不能完美拟合的对象
基于邻近度的技术：基于距离的离群点检测技术
基于密度的技术：对象的密度估计可以相对直接地计算

类标号的使用

监督的异常检测：存在正常类和异常类的数据集
非监督的异常检测：没有类标号
半监督的异常检测：训练数据包含被标记的正常数据，但是没有关于异常对象的信息

问题

用于定义异常的属性个数
全局观点与局部观点
点的异常程度：异常或离群点得分
评估
有效性

统计方法

离群点是一个对象，关于数据的概率分布模型，具有低概率
问题：

识别数据集的具体分布
使用的属性个数
混合分布

检测一元正态分布中的离群点

在这里插入图片描述

多元正态分布的离群点

在这里插入图片描述

异常检测的混合模型方法

在这里插入图片描述

基于邻近度的离群点检测

一个对象的离群点得分由到它的k-最近邻的距离给定

基于密度的离群点检测

基于密度的离群点：一个对象的离群点得分是该对象周围密度的逆
在这里插入图片描述
使用相对密度的离群点检测

基于聚类的技术

丢弃远离其他簇的小簇
首先聚类所有对象，然后评估对象属于簇的程度

评估对象属于簇的程度：度量对象到簇原型的距离，使用Mahalanobis距离
离群点对初始聚类的影响：对象聚类，删除离群点，对象再次聚类
使用簇的个数
优点：时间空间复杂度为线性或接近线性，高度有效
缺点：产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性

蕴玉山辉，怀珠川媚

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
《数据挖掘导论》学习 | 第十章异常检测

目录第十章异常检测预备知识异常的成因异常检测方法类标号的使用问题统计方法检测一元正态分布中的离群点多元正态分布的离群点异常检测的混合模型方法基于邻近度的离群点检测基于密度的离群点检测基于聚类的技术第十章异常检测预备知识异常的成因数据来源于不同的类自然变异数据测量和收集误差异常检测方法基于模型的技术：与事先建立的数学模型不能完美拟合的对象基于邻近度的技术：基于距离的离群点...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。