此过程是ETL系统为数据增值的步骤,为业务机构提高了数据的价值。该子系统可以设计用来创建能够对源系统中的错误进行诊断的元数据,这样的诊断最终可能会导致业务过程的再设计提案,从而解决产生脏数据的根本原因,并随着时间推移而改进数据质量。
解决数据质量问题的技术性尝试只有成为源自机构高层的整个质量文化的一部分,才能够取得成功。
解决数据质量问题的九步法模板:
1) 宣布高层对数据质量的委托事项
2) 在执行层驱动业务过程重构
3) 投资改善数据录入的环境
4) 投资改善应用程序集成
5) 投资改善业务过程的工作方式
6) 提高团队的端到端质量意识
7) 提高各部门之间的协作
8) 公开宣传注重数据质量的好处
9) 不断度量并提高数据质量
4、数据清洗系统
此过程用于修正脏数据,并提高数据的准确描述。 清洗子系统的目的是汇集多种技术提高数据质量,目标包括:对数据质量问题的早期诊断和鉴别分类,让源系统和集成工作提供更优质的数据,具有为ETL过程遇到的数据错误提供特定描述的功能,具有能够随着时间推移捕捉所有数据质量错误和度量数据质量的框架,对最终数据的质量可信度进行度量的附加功能。
1) 质量筛选 在数据管道流中充当诊断过滤器,包括的类型:列筛选、结构筛选、业务规则筛选。
2) 相应质量事件 当错误抛出时发生的事件:中断处理、向悬挂文件发送损坏的记录以便以后进行处理、仅标记数据并且将其传送到管道的下一步骤。建议采用第三种方式。
5、错误事件模式
记录质量筛选所抛出的每一个错误事件,需要错误事件事实表,每一个质量筛选错误都在该表中恰好产生一条记录。
6、审计维装配器
ETL系统会在后台为每个事实表装配一个审计维,包含了创建特定事实表记录时的元数据上下文,每个不同的审计条件一条记录。
7、重复数据删除系统
存活:将一系列匹配的记录整合为统一的像,将匹配结果中质量最高的列整合成为一个一致行。
8、一致化系统
包括将维度中某些或所有列和数据仓库其他部分的另一个相同或相似的维度中的列进行对准所需的所有步骤。一致化子系统负责创建和维护一致性维度和一致性事实,以一致化像的形式使数据的内容行实现标准化。一致化过程的大部分工作是删除重复结构、匹配和存活处理。
摘自《数据仓库生命周期工具箱(第二版)》