1、Extract-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程。
Extract
设计原则
为提高ETL效率,数据在进入ETL系统后的EXF文件都将转换为Flat Text文件格式
从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Pull的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力
由于Batch Windows的限制,如果日源数据量大于5GB则必须考虑采用Push的方式以提高传送速度,如,可以由源系统将数据转换为Flat Text文件后,由ETL程序采用FTP的方式进行传送
EXF的文件格式接近数据源的数据结构定义
在Extract过程中过滤数据仓库不需要的数据记录和字段
Push和Pull
Push
在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理。
Pull
由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理。
Transform
EXF (Extracted Format)
由数据源Extract产生的文件,文件结构与Source相似,经过过滤,部分字段被忽略。
CIF (Common Interface Format)
CIF是ETL经过C/S/S过程产生的中间数据文件。
PLF (Pre-Load Format)
经过数据转换,用于直接加载到数据仓库的文本文件,其数据结构与数据仓