《数据挖掘导论》学习 | 第十章 异常检测

第十章 异常检测

预备知识

异常的成因

  • 数据来源于不同的类
  • 自然变异
  • 数据测量和收集误差

异常检测方法

  • 基于模型的技术:与事先建立的数学模型不能完美拟合的对象
  • 基于邻近度的技术:基于距离的离群点检测技术
  • 基于密度的技术:对象的密度估计可以相对直接地计算

类标号的使用

  • 监督的异常检测:存在正常类和异常类的数据集
  • 非监督的异常检测:没有类标号
  • 半监督的异常检测:训练数据包含被标记的正常数据,但是没有关于异常对象的信息

问题

  • 用于定义异常的属性个数
  • 全局观点与局部观点
  • 点的异常程度:异常或离群点得分
  • 评估
  • 有效性

统计方法

离群点是一个对象,关于数据的概率分布模型,具有低概率
问题:

  • 识别数据集的具体分布
  • 使用的属性个数
  • 混合分布

检测一元正态分布中的离群点

在这里插入图片描述

多元正态分布的离群点

在这里插入图片描述
在这里插入图片描述

异常检测的混合模型方法

在这里插入图片描述
在这里插入图片描述

基于邻近度的离群点检测

一个对象的离群点得分由到它的k-最近邻的距离给定

基于密度的离群点检测

基于密度的离群点:一个对象的离群点得分是该对象周围密度的逆
在这里插入图片描述
使用相对密度的离群点检测
在这里插入图片描述
在这里插入图片描述

基于聚类的技术

  • 丢弃远离其他簇的小簇
  • 首先聚类所有对象,然后评估对象属于簇的程度
    在这里插入图片描述
    评估对象属于簇的程度:度量对象到簇原型的距离,使用Mahalanobis距离
    离群点对初始聚类的影响:对象聚类,删除离群点,对象再次聚类
    使用簇的个数
    优点:时间空间复杂度为线性或接近线性,高度有效
    缺点:产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值