九. 离群点检测
1. 基本概念
离群点:显著不同于其他数据对象的对象。离群点不同于噪声数据,噪声是被观测变量的随机误差或方差。
全局离群点:显著偏离数据集的其余部分
情境离群点:在特定情境下显著偏离其他对象
集体离群点:数据对象的一个自己形成集体离群点
2. 检测方法:
监督、半监督、无监督方法
1). 监督方法:标记一个数据样本,样本用于训练和检验一个可以识别离群点的分类器。
2). 无监督方法:假定正常对象在某种程度上是聚类的。其基本思想是先找出簇,然后不属于任何簇的对象被检测为离群点。
该方法存在的问题:1. 不属于任何簇的对象可能是噪声,而非离群点
2. 先找出簇,再找出离群点开销太大
3). 半监督方法:只有少量正常和离群点被标记。
其他方法还有统计学方法,基于邻近性的方法,基于聚类的方法
十. 数据挖掘发展趋势和研究前沿
1. 挖掘复杂的数据类型:
序列数据:时间序列数据(例如股票交易数据)、符号序列数据(例如顾客购买序列)、生物 学序列(例如DNA和蛋白质序列)
图和网络:同质数据(节点具有相同类型)、异质数据(节点具有不同类型)
其他类型数据: 空间数据、时间空间数据、物流网系统数据、多媒体数据、文本数据、web 数据、数据流
2. 数据挖掘的其他方法:
回归、广义线性模型、方差分析、混合效应模型、因素分析、判别式分析、生存分析、质量控制。
3. 数据挖掘发展趋势
1). 应用探索:开发面向特定领域的数据挖掘系统和工具,把数据挖掘功能嵌入到各种服务中。
2). 可伸缩的和交互的数据挖掘方法:基于约束的挖掘、与用户交互
3). 与搜索引擎、数据库系统、数据仓库系统、云计算系统集成
4). 挖掘社会和信息网络
5). 挖掘时间空间数据、移动对象和信息物理系统:移动电话、GPS、传感器等
6). 挖掘多媒体、文本、web数据
7). 生物学、生物医学数据
8). 数据挖掘和软件工程、系统工程
9). 可视和听觉数据
10). 分布式数据挖掘和实时数据流挖掘
11). 隐私保护和信息安全