数仓开发和数据治理

数据痛点及其解决方案:

数据孤岛 - 划分主题域
数据库名,表名不规范 - 制定规范,统一命名管理
指标定义混乱 - 数据字典
找数据困难 - 数据地图,元数据管理,血缘
业务方自建数据仓库 - 开放ODS,DW层,自建ADS层
DB全量数据同步慢 - 增量同步binlog信息
敏感数据不安全 - 权限控制
数据存储空间不够 - 数据生命周期管理

数仓分层:

ODS 数据采集 flume sqoop canal dbus - 按照业务主题域进行划分
DWD/DWS 数据计算 hive flink spark
ADS 数据存储 hbase es mysql - 按数据主题进行划分

应用层 -》 推荐系统 用户画像 漏斗分析 即席查询 OLAP查询(doris kudu clickhouse druid)

命名规范:
数据库库名命名:{公司名}{部门名}{数仓分层名}
数据库表名命名:
ODS_{业务描述}{更新方式}{时间粒度}
DWD_{业务描述}{更新方式}{时间粒度}
DWS_{业务主题域}{业务描述}{更新方式}{时间粒度}
DIM
{维度类型}{更新方式}{时间粒度}
ADS_{业务主题域}{业务过程描述}{更新方式}_{时间粒度}

数据开发流程/维度建模:

1、数据调研,需求分析 =》 确定业务板块,确定数据域

***元数据管理中,建表的时候可以增加维度和指标
2、构建维度
事实总线矩阵
维度管理:
维度类型,名称,描述,父维度,数据类型,关联指标数量

3、明确统计指标 =》原子指标(业务过程+度量值) 派生指标(日期周期+修饰词+原子指标)
指标管理:
原子指标管理:类型,名称,描述,关联指标数量
修饰词管理:类型,名称,描述,关联指标数量
日期周期管理:类型,名称,描述,关联指标数量

概念:
事实表,维度,度量,指标

数据治理:

元数据管理
数据血缘
数据安全(库、表、列级别权限控制)
数据质量(维度和指标管理系统)
生命周期管理 (表保留周期)
数据报表、工具、平台监控

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值