数据治理:
-
数据质量 (0.8天)
-
元数据管理Atlas : 定位数据质量的问题 (0.5天)
-
数据安全 (0.5天)
1.0 数据质量
1.1 数据质量
- 数据治理:
- 标准量化 : 将数据的健康程度具体化量化,目标(期望值)具体量化
- 数据质量监控(校验) : 及时的提醒数据质量有问题
- 数据质量保障(维护) : 发现问题,及时解决
- 数据质量标准分类:
- 数据完整性 : null值(空值,空记录) ; 数据增长(数据丢不丢失)(长期数据异常和短期数据异常)
- 数据一致性 : 前后两层数据一致
- 数据不重复性 : 遇到的较多. 同一个表的同一个分区,不允许有同一条记录.
- 数据质量管理解决方案 :
- Shell命令和Hive脚本 : 详细讲
- Griffin :
- 版本的依赖导致我们的数仓无法使用,但是有部分公司正在使用
- 数据一致性的校验不精确–>数据量一大 校验不精确
1.2 ODS层数据校验
ODS层没有必要校验一致性 可以校验但是没有必要
对于ods层只要校验完整性和不重复性
- 校验的指标 :
- 重复值记录数
- 空值记录数
- 全表的记录数
- 增量数据的记录数
- 指标存放 : hive
1.3 DWD层数据校验
- 只要检验一致性 和 不重复性
- 对于完整性–>null值:ods已经检验了null值,dwd校验了一致性 就没有必要校验null值. -->增长:ods层已经校验好了 增长这份指标就没有必要重复校验了
1.4 DWS层数据校验
-
没办法进行一致性(因为有进行了轻微的聚合)
-
通过上面的ods和dwd层 我们大致可以保证一致性了
-
参考了ods层
-
重复值记录数
-
空值记录数
-
全表记录数据记录数
1.5 DWT层数据校验
-
在宽表阶段数据已经经过了一定的判断、过滤和变换等操作,因此在DWT层也将检验当日宽表记录数量是否在合理的范围之内,同时检验关键字段为空的记录的记录数量。
-
还是参考了ods层
-
重复值记录数
-
空值记录数
-
全表记录数据记录数
1.6 ADS层数据校验
- 各个指标是否在合理范围(因为数据已经经过了高度的聚合计算)
1.7 数据质量之Griffin
- 有严重的版本依赖 只是做了研究 还没有上线 如果后期版本有进行优化的话 也会考虑使用
2.0 元数据管理之Atlas
2.1 Atlas入门
- 数据(海量日志或数据)的数据(描述海量日志或数据的信息)
- 数据字典(可能有公司为了节约成本 不使用数据字典)
- 对数据进行描述,编排成一个字典
- student(id,name,age,total)
- 血缘关系
- 追踪数据的流向,定位数据质量的问题
- 两件事:表与表之间的血缘依赖 | 字段与字段之间的血缘依赖
2.2 Atlas安装及使用
-
solr --> 图形的索引
-
Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr
-
Atlas安装前的环境准备: JDK8 Hadoop3.1.3 zookeeper3.5.7 kafka2.4.1 hbase2.0.5 solr5.2.1 hive3.1.2 Azkaban3.8.4 Atlas2.0
-
Atlas集成外部框架: hbase solr kafka 其他配置 hive
-
如果日志不更新了才算是真正起来了 或者 查看21000的端口号有没有被使用 不能只看命令打印的信息(和kafka的stop有点像)
external
2.3 界面查看
-
登录–> hadoop102:21000
-
问题定位
2.4 编译Atlas源码
3.0 数据安全
3.1 Ranger概述
功能模块:
支持框架:
Ranger架构:
工作原理: