数据治理

最新推荐文章于 2021-06-09 22:47:53 发布

潭中镜月

最新推荐文章于 2021-06-09 22:47:53 发布

阅读量220

点赞数

分类专栏： 16_数据管理

本文链接：https://blog.csdn.net/weixin_48699240/article/details/108477366

版权

16_数据管理专栏收录该内容

1 篇文章 0 订阅

订阅专栏

数据治理:

数据质量 (0.8天)
元数据管理Atlas : 定位数据质量的问题 (0.5天)
数据安全 (0.5天)

1.0 数据质量

1.1 数据质量

数据治理:
1. 标准量化 : 将数据的健康程度具体化量化,目标(期望值)具体量化
2. 数据质量监控(校验) : 及时的提醒数据质量有问题
3. 数据质量保障(维护) : 发现问题,及时解决
数据质量标准分类:
1. 数据完整性 : null值(空值,空记录) ; 数据增长(数据丢不丢失)(长期数据异常和短期数据异常)
2. 数据一致性 : 前后两层数据一致
3. 数据不重复性 : 遇到的较多. 同一个表的同一个分区,不允许有同一条记录.
数据质量管理解决方案 :
1. Shell命令和Hive脚本 : 详细讲
2. Griffin :
  1. 版本的依赖导致我们的数仓无法使用,但是有部分公司正在使用
  2. 数据一致性的校验不精确–>数据量一大校验不精确

1.2 ODS层数据校验

ODS层没有必要校验一致性可以校验但是没有必要

对于ods层只要校验完整性和不重复性

校验的指标 :
- 重复值记录数
- 空值记录数
- 全表的记录数
- 增量数据的记录数
指标存放 : hive

1.3 DWD层数据校验

只要检验一致性和不重复性
对于完整性–>null值:ods已经检验了null值,dwd校验了一致性就没有必要校验null值. -->增长:ods层已经校验好了增长这份指标就没有必要重复校验了

1.4 DWS层数据校验

没办法进行一致性(因为有进行了轻微的聚合)
通过上面的ods和dwd层我们大致可以保证一致性了
参考了ods层
重复值记录数
空值记录数
全表记录数据记录数

1.5 DWT层数据校验

在宽表阶段数据已经经过了一定的判断、过滤和变换等操作，因此在DWT层也将检验当日宽表记录数量是否在合理的范围之内，同时检验关键字段为空的记录的记录数量。
还是参考了ods层
重复值记录数
空值记录数
全表记录数据记录数

1.6 ADS层数据校验

各个指标是否在合理范围(因为数据已经经过了高度的聚合计算)

1.7 数据质量之Griffin

有严重的版本依赖只是做了研究还没有上线如果后期版本有进行优化的话也会考虑使用

2.0 元数据管理之Atlas

2.1 Atlas入门

数据(海量日志或数据)的数据(描述海量日志或数据的信息)

数据字典(可能有公司为了节约成本不使用数据字典)
- 对数据进行描述,编排成一个字典
- student(id,name,age,total)
血缘关系
- 追踪数据的流向,定位数据质量的问题
两件事:表与表之间的血缘依赖 | 字段与字段之间的血缘依赖

2.2 Atlas安装及使用

solr --> 图形的索引
Atlas安装分为：集成自带的HBase + Solr；集成外部的HBase + Solr
Atlas安装前的环境准备: JDK8 Hadoop3.1.3 zookeeper3.5.7 kafka2.4.1 hbase2.0.5 solr5.2.1 hive3.1.2 Azkaban3.8.4 Atlas2.0
Atlas集成外部框架: hbase solr kafka 其他配置 hive
如果日志不更新了才算是真正起来了或者查看21000的端口号有没有被使用不能只看命令打印的信息(和kafka的stop有点像)

external

2.3 界面查看

登录–> hadoop102:21000
问题定位

2.4 编译Atlas源码

3.0 数据安全

3.1 Ranger概述

功能模块:

支持框架:

Ranger架构:

工作原理:

3.2 range的安装

3.3 安装RangeUsersync

3.4 安装Range Hive-plugin

3.5 使用ranger对hive进行权限管理

3.6 官网其他权限配置

潭中镜月

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
数据治理

数据治理:数据质量 (0.8天)元数据管理Atlas : 定位数据质量的问题 (0.5天)数据安全 (0.5天)1.0 数据质量1.1 数据质量数据治理:标准量化 : 将数据的健康程度具体化量化,目标(期望值)具体量化数据质量监控(校验) : 及时的提醒数据质量有问题数据质量保障(维护) : 发现问题,及时解决数据质量标准分类:数据完整性 : null值(空值,空记录) ; 数据增长(数据丢不丢失)(长期数据异常和短期数据异常)数据一致性 : 前后两层数据
复制链接

扫一扫