目录
1.2 什么是数据挖掘
数据挖掘更正确的可以命名为“从数据中挖掘知识”。
一些人把数据挖掘视为另一个流行术语数据中的知识发现(KDD)的同义词,另一些人只是把数据挖掘视为知识发现过程的一个基本步骤。
知识发现过程,由以下步骤的迭代序列组成:
- 数据清理:消除噪声和删除不一致数据
- 数据集成:多种数据源可以组合在一起
- 数据选择:从数据库中提取与分析任务相关的数据
- 数据变换:通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式
- 数据挖掘:基本步骤,使用智能方法提取数据模式
- 模式评估:根据某种兴趣度度量,识别代表知识的真正有趣的模式
- 知识表示:使用可视化和知识表示技术,向用户提供挖掘的知识
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。
数据源包括数据库、数据仓库、Web、其他信息存储库或动态地流入系统的数据。
1.3可以挖掘什么类型的数据
1.3.1数据库数据
关系数据库是表的汇集,每个表都被赋予一个唯一的名字。每个表都包含一组属性(列或字段),并且通常存放大量元组(记录或行)。关系表中的每个元组代表一个对象,被唯一的关键字标识,并被一组属性值描述。
1.3.2数据仓库
数据仓库是一个从多个数据源收集的信息存储库,存放在一致的模式下,并且通常驻留在单个站点上。
通常,数据仓库用称作数据立方体(data cube)的多维数据结构建模。
数据立方体提供数据的多维视图,并允许预计算和快速访问汇总数据。通过以上特性,数据仓库非常适合联机分析处理。
1.3.3事务数据
事务数据库的每个记录代表一个事务,一个事务包含一个唯一的事务标识号,以及一个组成事务的项的列表。
在事务数据上的数据挖掘可以通过挖掘频繁项集实现目的。
1.3.4其他类型的数据
时间相关或序列数据:历史记录、股票交易数据、时间序列和生物学序列数据
数据流:视频监控和传感器数据、连续播送数据
空间数据:地图
工程设计数据:建筑数据、系统部件或集成电路
超文本和多媒体数据:文本、图像、视频和音频数据
图和网状数据:社会和信息网络
万维网:由Internet提供的巨型、广泛分布的信息存储库
(挖掘计算机网络数据,根据消息流的异常进行入侵检测。这种异常可以通过聚类、流模型的动态建模,或把当前的频繁模式与先前的比较来发现)
1.4可以挖掘什么类型的模式
1.4.1类/概念描述:特征化与区分
- 数据特征化:是目标类数据的一般特性或特性的汇总。输出可以用多种形式提供,饼图、条图、曲线、多维数据立方体和包括交叉表在内的多维表。结果描述也可以用广义关系或规则(称作特征规则)形式提供。
- 数据区分:将目标类数据对象的一般特性与一个或多个对比类对象的一般特性进行比较。输出的提供形式类似于特征描述,但是区分描述应当包括比较度量,以便帮助区别目标类和对比类。用规则表示的区分描述称为区分规则。
1.4.2挖掘频繁模式、关联和相关性
频繁模式类型:频繁项集、频繁子序列(又称序列模式)和频繁子结构。
关联分析