《数据挖掘概念与技术》读书笔记(五)

九. 离群点检测

1. 基本概念

离群点:显著不同于其他数据对象的对象。离群点不同于噪声数据,噪声是被观测变量的随机误差或方差。

全局离群点:显著偏离数据集的其余部分

情境离群点:在特定情境下显著偏离其他对象

集体离群点:数据对象的一个自己形成集体离群点

 

2. 检测方法:

监督、半监督、无监督方法

1). 监督方法:标记一个数据样本,样本用于训练和检验一个可以识别离群点的分类器。

2). 无监督方法:假定正常对象在某种程度上是聚类的。其基本思想是先找出簇,然后不属于任何簇的对象被检测为离群点。

该方法存在的问题:1. 不属于任何簇的对象可能是噪声,而非离群点

                                       2. 先找出簇,再找出离群点开销太大

3). 半监督方法:只有少量正常和离群点被标记。

 

其他方法还有统计学方法,基于邻近性的方法,基于聚类的方法

 

十. 数据挖掘发展趋势和研究前沿

1. 挖掘复杂的数据类型:

序列数据:时间序列数据(例如股票交易数据)、符号序列数据(例如顾客购买序列)、生物                 学序列(例如DNA和蛋白质序列)

图和网络:同质数据(节点具有相同类型)、异质数据(节点具有不同类型)

其他类型数据: 空间数据、时间空间数据、物流网系统数据、多媒体数据、文本数据、web                           数据、数据流

 

2. 数据挖掘的其他方法:

回归、广义线性模型、方差分析、混合效应模型、因素分析、判别式分析、生存分析、质量控制。

 

3. 数据挖掘发展趋势

1). 应用探索:开发面向特定领域的数据挖掘系统和工具,把数据挖掘功能嵌入到各种服务中。

2). 可伸缩的和交互的数据挖掘方法:基于约束的挖掘、与用户交互

3). 与搜索引擎、数据库系统、数据仓库系统、云计算系统集成

4). 挖掘社会和信息网络

5). 挖掘时间空间数据、移动对象和信息物理系统:移动电话、GPS、传感器等

6). 挖掘多媒体、文本、web数据

7). 生物学、生物医学数据

8). 数据挖掘和软件工程、系统工程

9). 可视和听觉数据

10). 分布式数据挖掘和实时数据流挖掘

11). 隐私保护和信息安全

 

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
电子图书资源服务系统是一款基于 Java Swing 的 C-S 应用,旨在提供电子图书资源一站式服务,可从系统提供的图书资源中直接检索资源并进行下载。.zip优质项目,资源经过严格测试可直接运行成功且功能正常的情况才上传,可轻松copy复刻,拿到资料包后可轻松复现出一样的项目。 本人系统开发经验充足,有任何使用问题欢迎随时与我联系,我会及时为你解惑,提供帮助。 【资源内容】:包含完整源码+工程文件+说明(若有),项目具体内容可查看下方的资源详情。 【附带帮助】: 若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步。 【本人专注计算机领域】: 有任何使用问题欢迎随时与我联系,我会及时解答,第一时间为你提供帮助,CSDN博客端可私信,为你解惑,欢迎交流。 【适合场景】: 相关项目设计中,皆可应用在项目开发、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面中 可借鉴此优质项目实现复刻,也可以基于此项目进行扩展来开发出更多功能 【无积分此资源可联系获取】 # 注意 1. 本资源仅用于开源学习和技术交流。不可商用等,一切后果由使用者承担。 2. 部分字体以及插图等来自网络,若是侵权请联系删除。积分/付费仅作为资源整理辛苦费用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值