数据仓库

  数据仓库:通常指数据库环境,而不是一件产品,提供数据挖掘功能。比如某公司的所有数据库在不同地区,要做决策,就要做etl,转入数据仓库,然后进行数据挖掘。

  数据仓库存储的都是结构化的数据,而现实有很多非结构化的数据需要处理,如视频等。

  特点:面向主题,集成,相对稳定,反应历史变化

  面向主题:看给谁看,就给出特定主题,建立很多维度,这些维度都是围绕一个特定的主题,如果需要的主题很多,就形成多主题

  数据集成:需要把各种数据库(关系/面向对象数据库/文档片段)集成起来,比如产品,要把国内外有无相关产品集成起来,所以说数据源是很多的,集成还有一个概念是统一格式,不一致的数据需要转换

  相对稳定,不可更新:只有两操作,load/delete

  反应时间:数据库是没有时间特性的,而数据仓库专门增加时间维

  数据挖掘需要数据,数据来源是数据仓库,数据挖掘才能提供决策支持,dw并不是dm唯一的数据源

  数据仓库例子:航空公司,主题:市场(生产),航班(生产),班期(载人,载货),决策支持:一段时间航空公司占有率,计划完成情况...比如西南地区出现负增长,需要得出原因,利用客户端查询全国各地区航空总周转量,和去年对比,去数据仓库服务器看,然后得出图表,然后发现在西南地区确实出现负增长(北京->西南),想看是货运出现问题还是客运,用数据仓库的下砖功能查,得出影响因素是客运,然后制表,然后看是西南地区的昆明出现问题还是重庆,发现是昆明,然后看为什么昆明出现问题,得出原因。

  数据挖掘在结构化数据仓库中很容易得出决策


  

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值