1、影响ETL系统设计和开发的需求

1、 ETL设计的外部约束:业务需求、源数据系统、预算、处理窗、现有职员的技能状况

2、 影响ETL系统设计和开发的需求:

1) 业务需求:是DW/BI系统用户的信息需求,业务用户在进行业务决策的过程中所需的信息内容。

2) 合规性:说明数据的正确性是如何保证的。一般数据仓库中需要谨慎处理的需求包括,保存数据源和随后数据登台的存档副本;为改变任何数据结果的完整的事务处理流程提供证明;完整记录用于分配、调整和推到的算法;随着时间推移为数据副本的保密性提供证明,包括在线和离线两种。

3) 数据质量:高层最关注的问题之一,数据质量的巨大压力来自于业务用户,并非仅来自于IT本身。数据质量无法由ETL系统独立解决。

4) 安全性:安全性要求对数据进行限制,只有那些需要了解的用户才能访问数据;安全性必须扩展到物理备份中。应当邀请一位经验丰富的安全管理员加入到设计团队中。

5) 数据集成:最终目标是要使所有的系统无缝连接、协调工作。通常表现为数据仓库中的一致性维度和一致性事实。

6) 数据等待时间:源系统数据通过DW/BI系统提交给业务用户的时间。巧妙的处理算法、并行化处理和强有力的硬件支持可以加速处理传统的面向批处理的数据流;另一种更快的方式:流处理方式。

7) 存档和沿袭:建议在ETL管道的每个主要活动之后都进行数据的登台(将其写入磁盘)——当数据被抽取、清洗和一致化,以及提交的时候。所有的登台数据都应当进行存档,除非已经有明确的决策说明某种特定的数据集今后不需要再恢复了。存档时,每个登台/存档数据集都应当有相应的元数据描述其来源和产生该数据的处理步骤。

8) 用户提交界面:不负责任的将数据提交给BI应用程序会大大增加应用程序的复杂度,降低查询和创建报表的速度,并且使业务用户感到数据过于复杂。ETL团队和数据模型师需要和BI应用程序开发人员紧密合作,确定出数据提交的准确需求。

9) 可用的技能:有些ETL设计决策必须基于建立和管理系统时所能获得的人力资源来制定。

10) 遗留许可证

 

摘自《数据仓库生命周期工具箱(第二版)》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值