数据治理是将采集与汇聚的数据进行清洗、转换,生成可用的数据存入数据仓库中。
ETL逻辑结构按照处理过程可划分为ETL预处理、ETL转换清洗、ETL目标数据装载。对于数据提供者,包括业务系统以及管理系统,通过ETL预处理,数据装载入数据缓冲区。ETL转换清洗通过连接、合并、分割,按照清洗规则对数据缓冲区、数据存储区的数据进行加工、汇总,最终装载入数据存储区。
ETL预处理:
加载源系统数据,增加时间拉链,数据装载入数据缓冲区。对源数据做数据平衡检查、稽核数据有效性,报告数据质量问题。
ETL清洗:
对数据缓冲区数据标准化,统一数据表达格式,排序数据,筛选重复数据,合并或分割数据项,装载入数据存储区的基础数据层,报告数据转换清洗异常。
ETL转换:
对操作型存储区的贴源标准化数据,按照业务转换规则、通用数据清洗规则,加工数据,装载入数据仓库区的基础层。ETL3处理是耗时最长,逻辑处理最复杂的阶段,需要非常重视。
ETL再转换:
从数据仓库层进行适量的维度、指标建模。一些低粒度数据逐步向高粒度数据归并和汇总。
ETL目标数据装载:
提供数据存储区的层数据。本模式提供历史仓库允许的相应时间段的历史数据支持。
PowerBI - 7.业务数据中心数据清洗工序
最新推荐文章于 2023-08-06 21:44:12 发布
![](https://img-home.csdnimg.cn/images/20240611030827.png)