根据以往数据仓库项目的经验,在一个数据仓库项目中,ETL设计和实施的工作量一般要占总项目工作量的40%-60%,而且数据仓库项目一般会存在二次需求的问题,客户在项目的实施过程中或者使用过程中会提出新的业务需求,而任何前端业务模型的改变都会涉及到ETL设计,因此ETL工具的选择对于整个数据仓库项目的成功是非常重要的。Oracle在收购Sunopsis后宣称自己的ETL工具是基于EL-T架构的,很多同行都在问:ETL到底和ET-L有什么区别?
本人认为,要了解传统的ETL架构和EL-T架构的区别,首先应该清楚选择一个好的数据清洗转化加载工具应该考虑哪几个方面:
1. 工具的图形化设计、维护方面:在ETL中,其实最关键的是T(transform),而这一部分也是随着需求的变更经常变化的,因此对其中的业务逻辑进行维护非常关键,ETL工具必须提供非常简单易用的维护界面来定义和维护这种变化,同时能提供相关元数据管理,以便于将来对整个ETL过程进行维护和监控。在这一方面,原来基于传统ETL架构的厂商象Ascentia,Informatica都比较早地提供了一个相对比较傻瓜型的IDE环境,非常适合入门级用户。而Teradata早期的automation采用EL-T架构,所有的东西就是一大堆基于操作系统的SHELL脚本,使用起来难度比较大,比较适合专业级用户,直到Sunopsis的出现,基于EL-T架构的IDE环境才能和