《数据挖掘导论》学习 | 第十章 异常检测

第十章 异常检测

预备知识

异常的成因

  • 数据来源于不同的类
  • 自然变异
  • 数据测量和收集误差

异常检测方法

  • 基于模型的技术:与事先建立的数学模型不能完美拟合的对象
  • 基于邻近度的技术:基于距离的离群点检测技术
  • 基于密度的技术:对象的密度估计可以相对直接地计算

类标号的使用

  • 监督的异常检测:存在正常类和异常类的数据集
  • 非监督的异常检测:没有类标号
  • 半监督的异常检测:训练数据包含被标记的正常数据,但是没有关于异常对象的信息

问题

  • 用于定义异常的属性个数
  • 全局观点与局部观点
  • 点的异常程度:异常或离群点得分
  • 评估
  • 有效性

统计方法

离群点是一个对象,关于数据的概率分布模型,具有低概率
问题:

  • 识别数据集的具体分布
  • 使用的属性个数
  • 混合分布

检测一元正态分布中的离群点

在这里插入图片描述

多元正态分布的离群点

在这里插入图片描述
在这里插入图片描述

异常检测的混合模型方法

在这里插入图片描述
在这里插入图片描述

基于邻近度的离群点检测

一个对象的离群点得分由到它的k-最近邻的距离给定

基于密度的离群点检测

基于密度的离群点:一个对象的离群点得分是该对象周围密度的逆
在这里插入图片描述
使用相对密度的离群点检测
在这里插入图片描述
在这里插入图片描述

基于聚类的技术

  • 丢弃远离其他簇的小簇
  • 首先聚类所有对象,然后评估对象属于簇的程度
    在这里插入图片描述
    评估对象属于簇的程度:度量对象到簇原型的距离,使用Mahalanobis距离
    离群点对初始聚类的影响:对象聚类,删除离群点,对象再次聚类
    使用簇的个数
    优点:时间空间复杂度为线性或接近线性,高度有效
    缺点:产生的离群点集和它们的得分可能非常依赖所用的簇的个数和数据中离群点的存在性
  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据挖掘导论》是由范明编写的一本介绍数据挖掘基本概念和技术的教材,提供了丰富的知识和实践案例。本书共分为10章,内容包括数据挖掘概述、数据预处理、数据仓库与OLAP、数据立方体与关联规则、分类与预测、聚类、异常检测、演化与趋势、时序模式与关联规则、多媒体数据挖掘等。 《数据挖掘导论》首先介绍了数据挖掘的概念、历史和应用领域,使读者对数据挖掘有了整体的认识。随后,着重介绍了数据预处理的重要性和方法,包括数据清洗、数据集成、数据转换和数据规约等。接着,本书详细介绍了数据仓库和在线分析处理(OLAP)的基本概念和技术,以及数据立方体和关联规则的相关内容。 在分类与预测章节中,范明介绍了决策树、贝叶斯分类器、神经网络、支持向量机等常用的分类与预测算法,并对其进行了详细的解释和应用实例的讲解。在聚类章节中,范明介绍了K-means、层次聚类、DBSCAN等常见的聚类算法,并讲解了它们的原理和应用场景。 此外,本书还介绍了异常检测、演化与趋势、时序模式与关联规则、多媒体数据挖掘等一些进阶的数据挖掘技术。每一章节都提供了丰富的案例和实践项目,使读者能够理论与实践相结合,更好地掌握数据挖掘的技术和方法。 总的来说,《数据挖掘导论》是一本全面介绍数据挖掘的教材,适合作为初学者了解数据挖掘基本概念和技术的入门读物,同时也可作为高级读者深入学习和应用数据挖掘的参考书。它采用了简洁明了的语言和大量实例,对于读者快速了解和掌握数据挖掘具有很大的帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值