数据挖掘笔记13-14(new)

数据概化和基于汇总的特征化

概念描述
  • 可以处理复杂数据类型的属性及其聚 集
  • 一个更加自动化的过程
数据概化

数据库中的数据和对象通常包括原始概念层的细节信息,数据概化就是将数据库中的跟任务相关的数据集从较低的概念抽象到较高的概念层的过程。


主要方法
  • 数据立方体(OLAP使用的方法)
  • 面向属性的归纳方法

数据概化:数据立方体方法(不适用面向属性的归纳)

执行计算并将结果存储在数据立方体中
优点:
数据概化的一种有效实现
可以计算各种不同的度量值
  • 如:count,sum,average,max
概化和特征分析通过一系列的数据立方体操作完成,比如上卷,下钻


缺点:
只能处理非数据类型的维和简单聚 集数值类型的度量值
缺乏智 能分析,不能自动确定分析中该使用哪些维,应该概化到个层次

概念描述:特征化与比较

什么是概念描述

描述性挖掘 vs. 预测性挖掘
  • 描述性挖掘:以简洁概要的方式描述数据,并提 供数据的有趣的一般性质。
  • 预测性数据挖掘:通过分析数据建立一个或一组模型,并试图预测新数据集的行为。
概念描述:为数据的特征化和比较产生描述(当所秒速的概念所指的是一类对象时,也成为描述)
  • 特征化:提 供给定数据集的简洁汇总。
  • 区分:提 供两个或多个数据集比较描述。


概念描述 vs. OLAP

概念描述和数据仓库的联机分析处理(OLAP)都跟数据概化密切相关,即以简洁的形式在更一般的抽象层描述数据,允许数据在抽象层概化,便于考察数据的一般行为。
两者的主要区别:
概念描述
  • 可以处理复杂数据类型的属性及其聚 集
  • 一个更加自动化的过程
OLAP
  • 实际使用的OLAP系统中,维和度量的数据类型都非常有限(非数值型的为何数值型的数据),表现为一种简单的数据分析模型。
  • 一个由用户控制的过程。
<
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值