数据治理

数据治理:

  1. 数据质量 (0.8天)

  2. 元数据管理Atlas : 定位数据质量的问题 (0.5天)

  3. 数据安全 (0.5天)

1.0 数据质量

1.1 数据质量

  1. 数据治理:
    1. 标准量化 : 将数据的健康程度具体化量化,目标(期望值)具体量化
    2. 数据质量监控(校验) : 及时的提醒数据质量有问题
    3. 数据质量保障(维护) : 发现问题,及时解决
  2. 数据质量标准分类:
    1. 数据完整性 : null值(空值,空记录) ; 数据增长(数据丢不丢失)(长期数据异常和短期数据异常)
    2. 数据一致性 : 前后两层数据一致
    3. 数据不重复性 : 遇到的较多. 同一个表的同一个分区,不允许有同一条记录.
  3. 数据质量管理解决方案 :
    1. Shell命令和Hive脚本 : 详细讲
    2. Griffin :
      1. 版本的依赖导致我们的数仓无法使用,但是有部分公司正在使用
      2. 数据一致性的校验不精确–>数据量一大 校验不精确

1.2 ODS层数据校验

ODS层没有必要校验一致性 可以校验但是没有必要

对于ods层只要校验完整性和不重复性

  • 校验的指标 :
    • 重复值记录数
    • 空值记录数
    • 全表的记录数
    • 增量数据的记录数
  • 指标存放 : hive

1.3 DWD层数据校验

  • 只要检验一致性 和 不重复性
  • 对于完整性–>null值:ods已经检验了null值,dwd校验了一致性 就没有必要校验null值. -->增长:ods层已经校验好了 增长这份指标就没有必要重复校验了

1.4 DWS层数据校验

  • 没办法进行一致性(因为有进行了轻微的聚合)

  • 通过上面的ods和dwd层 我们大致可以保证一致性了

  • 参考了ods层

  • 重复值记录数

  • 空值记录数

  • 全表记录数据记录数

1.5 DWT层数据校验

  • 在宽表阶段数据已经经过了一定的判断、过滤和变换等操作,因此在DWT层也将检验当日宽表记录数量是否在合理的范围之内,同时检验关键字段为空的记录的记录数量。

  • 还是参考了ods层

  • 重复值记录数

  • 空值记录数

  • 全表记录数据记录数

1.6 ADS层数据校验

  • 各个指标是否在合理范围(因为数据已经经过了高度的聚合计算)

1.7 数据质量之Griffin

  • 有严重的版本依赖 只是做了研究 还没有上线 如果后期版本有进行优化的话 也会考虑使用

2.0 元数据管理之Atlas

2.1 Atlas入门

  • 数据(海量日志或数据)的数据(描述海量日志或数据的信息)
  1. 数据字典(可能有公司为了节约成本 不使用数据字典)
    • 对数据进行描述,编排成一个字典
    • student(id,name,age,total)
  2. 血缘关系
    • 追踪数据的流向,定位数据质量的问题
  3. 两件事:表与表之间的血缘依赖 | 字段与字段之间的血缘依赖

2.2 Atlas安装及使用

  • solr --> 图形的索引

  • Atlas安装分为:集成自带的HBase + Solr;集成外部的HBase + Solr

  • Atlas安装前的环境准备: JDK8 Hadoop3.1.3 zookeeper3.5.7 kafka2.4.1 hbase2.0.5 solr5.2.1 hive3.1.2 Azkaban3.8.4 Atlas2.0

  • Atlas集成外部框架: hbase solr kafka 其他配置 hive

  • 如果日志不更新了才算是真正起来了 或者 查看21000的端口号有没有被使用 不能只看命令打印的信息(和kafka的stop有点像)

external

2.3 界面查看

  • 登录–> hadoop102:21000

  • 问题定位

2.4 编译Atlas源码

3.0 数据安全

3.1 Ranger概述

功能模块:

支持框架:

Ranger架构:

工作原理:

3.2 range的安装

3.3 安装RangeUsersync

3.4 安装Range Hive-plugin

3.5 使用ranger对hive进行权限管理

3.6 官网其他权限配置

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值