第十一讲主题:如何评价数仓好坏

文章讨论了数仓建设的五个要素,包括数据质量、评估方法、流程、模型建设和管理。重点提到数据质量的产生原因和评估,如准确性、及时性、一致性和流程完整性。同时强调了模型建设的规范度、复用性和稳定性,并提到了数据安全、成本/性能优化以及提升用户用数体验的重要性。
摘要由CSDN通过智能技术生成

如何评价数仓好坏?

[B站搜索 踏踏实实练SQL, 这个B站UP主(语兴呀)是某大厂数仓大佬,可加好友学习,他人很好]

前言--
大声说一遍 数仓建设5要素!!!

数据质量
a产生质量不好原因
b评估方法
c流程

a产生质量不好原因:
1技术:
1.1缺少流程制定
1.2数据模型设计存在问题
1.3数据源本身存在问题
1.4数据清洗加工疏忽

2业务

3管理
3.1人才缺乏
3.2流程管理不完善
3.3奖惩机制不明确
如果下游出问题,要找到原因,解决方式,还有检讨
或者谁出错,谁多值一周的班,多熟悉项目


b评估方法:
1准确性 -
2及时性
3一致性
4流程完整性

1准确性 
---描述数据和客观实体特征是否一致
1.1是否基础dqc覆盖全链路
1.1.1表不为空
1.1.2主键(联合主键)唯一
1.1.3字段不为空
1.1.4表行数波动

c核心表 业务dpc是否配置
业务dpc
因为核心表影响下游很多方面,所以核心表dpc还是要跟业务那边确认后,尽量都配置 业务dpc


2及时性
制定基线, 基线sla覆盖度, 会不会破线(超出时间截止点)
(如果超出了,被下游抓到了,可以往前调一下时间段)


3一致性
---描述同一个信息主体在不同数据集中的数据是否相同
a数据收口
b指标中心 可以自己㦰


4.流程完整性
4.1 数据质量长期跟踪检测体系
4.2 数据质量问题报告
4.3 流程指定

4.1

4.2 数据质量问题报告
★★★可以给下游leader看,咱们有个体系在检测,在干活

4.3 流程指定
任务上线流程--可以强管控

c流程
1事前,预防
2事后,复盘完善

1事前,预防
1.1制定质量管理机制,开发/变更/上线流程
1.2工具/代码监控
1.3dqc全链路覆盖
2事后,复盘完善


模型建设
a技术
开发之前制定规范
模型建设不可复用/不可扩展 都不大行

b业务
对业务流程,环节理解不够

c管理
团队模型建设指导不足
无模型评审机制(非常重要,很重要,其他人帮忙做评审,最好让高级别的同学帮忙看看)


模型建设--评估方法
规范度-完善度-复用度-稳定性-扩展性-合理性

*规范度
制定命名规范
是否具有建设规范:1.模型5要素 2.模型分层具体操作内容(知道每层干啥的,比如为啥维度退化,要在dwd层坐, 准确位置,只改一次, 不准确,可能要改多次)
是否有模型评审流程
主题域归属

*完善度--元数据补充

复用度--是否为无效模型,模型被下游引用程度

*稳定性-- 运行时长,是否数据倾斜,对产出的影响

扩展性-- 1,,,    2新增模型与老模型是否冲突

*合理性  分层情况(保障引用合理) 跨层引用率 ods穿透率
模型5要素 是啥,大声说一遍!

事前预防
做模型前,可以先把业务图划出来

事后复盘
完善数据标准
加强模型建设意识 --做一些文档
模型评论打分(命名规范 消耗时长等等打分,之后去完善)

数据安全

成本/性能
---保证数据价值和成本匹配
产生原因:
技术原因
/表运行时间过长(时长和价值不匹配)
/运行报错(要不要加参数,还是流程是不是没做好卡点)
/重复建设

管理原因:
不要各种烟囱开发
/资源成本急剧上升
/


评估方法


流程
事前预防很小, 也能做点(比如 小文件合并)
(比如 任务实验跑检查运行时间,可以在上线之前解决掉)
事后,复盘完善--(每日/周推送top榜(消耗,资源村粗top榜)---谁消耗的多,谁去治理)

用户用数体验
解决找数难,用数难,  可以通过一个字段 找到对应的表 还有对应`的业务
让下游用数爽

数字资产覆盖

核心点 数字资产核心是 用户画像方面
等等

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值