数据概化和基于汇总的特征化
概念描述
- 可以处理复杂数据类型的属性及其聚 集
- 一个更加自动化的过程
数据概化
- 可以处理复杂数据类型的属性及其聚 集
- 一个更加自动化的过程
数据库中的数据和对象通常包括原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念抽象到较高的概念层的过程。
主要方法
- 数据立方体(OLAP使用的方法)
- 面向属性的归纳方法
数据概化:数据立方体方法(不适用面向属性的归纳)
执行计算并将结果存储在数据立方体中
优点:
数据概化的一种有效实现
可以计算各种不同的度量值
- 如:count,sum,average,max
概化和特征分析通过一系列的数据立方体操作完成,比如上卷,下钻
缺点:
只能处理非数据类型的维和简单聚 集数值类型的度量值
缺乏智 能分析,不能自动确定分析中该使用哪些维,应该概化到个层次
什么是概念描述
描述性挖掘 vs. 预测性挖掘
- 描述性挖掘:以简洁概要的方式描述数据,并提 供数据的有趣的一般性质。
- 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。
概念描述:为数据的特征化和比较产生描述(当所秒速的概念所指的是一类对象时,也成为描述)
- 特征化:提 供给定数据集的简洁汇总。
- 区分:提 供两个或多个数据集比较描述。
概念描述 vs. OLAP
概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。
两者的主要区别:
概念描述
- 可以处理复杂数据类型的属性及其聚 集
- 一个更加自动化的过程
OLAP
- 实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的为何数值型的数据),表现为一种简单的数据分析模型。
- 一个由用户控制的过程。