数据血缘分析

大数据私房菜

已于 2023-06-26 13:33:08 修改

阅读量1.1k

点赞数

分类专栏：数据仓库文章标签：大数据

于 2023-06-21 14:24:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zuochang_liu/article/details/131327085

版权

数据仓库专栏收录该内容

47 篇文章 3 订阅 ¥299.90 ¥99.00

订阅专栏

超级会员免费看

引入

做过大数据或者接触过数仓的同学，相信都有听到过数据治理、血缘分析的专业术语。不知道大家有没有思考过以下几个问题：
1、什么是血缘分析？主要分析什么东西？
2、为什么要做血缘分析，主要是为了解决什么痛点？做出来之后有什么价值？如何衡量这些价值？
3、如何做血缘分析？
关于第1，2个问题是需要结合每个企业实际的情况来思考，当然分析其本质就是方便数据梳理。那么本篇主要侧重于第3个问题，通过工程+方法论的方式来为读者们揭开血缘分析功能的神秘面纱。

效果展示

关于如何做血缘分析，其实每个企业的做法都大差不差，主要差别在于实现的深度。例如：有的企业是直接引用现有的开源工具，有的企业是结合自身的产品进行自研，有的企业可能只做到表级别，有的企业做到字段级别。那么本篇将会为读者们提供一种表级别粒度的分析功能，并通过可视化的方式为大家展示，当然本篇文章是属于抛砖引玉，主要是给大家提供一种思路。先为读者们展示最终效果图：

执行底层

在数仓工作职责内，大部分都是SQL化，因此血缘分析大多数都是基于SQL解析来做。当然也有非SQL的场景，不过其思想和做法都是一样的，只是API层面的调用不同而已。本篇就以Spa

了解本专栏

超级会员免费看

大数据私房菜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
数据血缘分析

例如：有的企业是直接引用现有的开源工具，有的企业是结合自身的产品进行自研，有的企业可能只做到表级别，有的企业做到字段级别。那么本篇将会为读者们提供一种表级别粒度的分析功能，并通过可视化的方式为大家展示，当然本篇文章是属于抛砖引玉，主要是给大家提供一种思路。2、spark通过analyzer结合catalog对未解析的逻辑计划，进行一系列的规则绑定，应用数据信息，生成Resolved Logical Plan，此时的计划也是按照原来的节点原封不动进行绑定，并没有做任何的优化.1、什么是血缘分析？
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据私房菜 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。