2-数据仓库 -建设步骤一

数据仓库的开发过程主要有几个方面:规划分析阶段、设计实现阶段、使用维护阶段

1、数据源分析
数据源是数据仓库系统所有信息的源头,主要是操作型业务应用系统存放的数据集合
数据源的分析的过程分为范围分析、格式分析、更新方式分析、质量分析4个方面
 1> 范围分析:是指分析数据的范围。用户需要确定数据仓库系统需要数据源中的哪些原始数据
 2> 格式分析:是指对原始数据在数据库中的物理存储方式进行分析。包括存储类型、存储长度、数据精度等
 3> 更新方式分析:是指对原始数据在应用系统中的更新方式、更新频率、更新内容进行分析判断
 4> 质量分析:是指分析业务数据的质量,主要是数据的完整性、准确性、一致性。通常这也是数据源分析中最重要和工作量最多的部分

2、数据迁移
 1> 数据的抽取
  数据抽取前需要清楚:数据源来自哪几个业务系统,各个业务系统的数据库管理系统分别是什么
  数据抽取可以有两种方式:直接抽取方式、间接抽取方式
  直接抽取是指数据抽取过程直接从业务源数据库到目标库,中间没有任何过度。但是直接抽取方式必须确定业务系统数据库为ETL过程提供的数据库用户名、授权给该用户访问的表名称,对该用户授权的方式、数据抽取式相关的安全措施等内容
  间接抽取是指采用文件交换的方式进行数据抽取,考虑网络连接、数据库的分布等客观因素。也叫异步ETL方式

3、数据转换
 数据转换是将业务系统的各种源数据,通过自定义的转换脚本或者其他计算方法,将源数据转换成符合数据仓库要求的数据

4、数据转载
 数据经过清洗、转换后,需要装载到目标数据库中

5、数据粒度
数据仓库粒度的划分是设计的重要内容,因为它直接影响了数据仓库查询的效率、查询的灵活性和数据仓库数据量的大小
 数据仓库的粒度级别越低,则它的细节程度越高;反之,则相反
 在数据仓库设计过程中,应该慎重考虑粒度的问题,既要满足所有的查询需求,也需要考虑查询的效率、存储空间等问题

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值