ETL分别是Extract(抽取)、 Transform(转换)、 Loading(装载)三个英文单词的首字母缩写。
抽取:
将数据从各种原始的业务系统中读取出来,这是所有工作的前提。
转换:按照预先设计好的规则将抽取得数据进行转换、清洗,以及处理一些冗余、歧义的数据,使本来异构的数据格式能统一起来。
装载:将转换完的数据按计划增量或全部的导入到数据仓库中。
在技术上主要涉及增量、转换、调度和监控等几个方面的处理。
ETL作为BI/DW的核心和灵魂,
按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程
,是实施数据仓库的重要步骤。如果说数据仓库的模型设计是一座大厦的设计蓝图,数据是砖瓦的话,那么ETL就是建设大厦的过程。在整个项目中最难部分是用户需求分析和模型设计,而ETL规则设计和实施则是工作量最大的,其工作量要占整个项目的60%-80%,这是国内外从众多实践中得到的普遍共识。
整个商务智能/数据仓库系统由三大部分组成: