基本概念:
一、 BI:商业智能系统,也称DSS(决策支持系统)。
二、 OLTP:独立事务系统,也称在线事务处理系统。
对比:
指标 OLTP 数据仓库
系统覆盖范围 单一业务处理系统 多个业务主体
数据源 单个 多个
数据模型 静态 动态
主要查询类型 插入/更新 制度
数据量 小 大
三、 ETL:将数据从OLTP系统中转移到数据仓库中的一系列操作的集合即抽取、转换、加载等。
1、 抽取:一般抽取过程需要连接到不同的数据源,以便为随后的步骤提供数据。这一部分看上去简单而琐碎,实际上它是ETL解决方案成功实施的一个主要障碍。
2、 转换:在抽取和加载之间的任何对数据的处理过程都是转换。这些处理过程通常包括:1)移动数据;2)根据规则验证数据;3)数据内容和数据结构的修改;4)集成多个数据源的数据;5)根据处理后的数据计算派生值和聚集值。
3、 加载:将数据加载到目标系统的所有操作
ELT:(抽取、加载、转换)即数据首先从源数据进行抽取,加载到目标数据库中,在转换为所需格式。数据库系统更适合处理负荷在百万级以上的数据集成,且通常对I/O进行优化,提高处理速度。
但ELT需要知道如何使用目标数据库平台相应的SQL方言,因此闭源的ETL厂商如微软(Integration)、甲骨文(Warehouse Builder)出了ETLE,即支持抽取、转换、加载、转换的场景。