SQL数据分析之血缘解析

饭九钦vlog

于 2023-02-28 21:04:13 发布

阅读量915

点赞数

分类专栏： sql 文章标签：数据分析大数据数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wtfsb/article/details/129269748

版权

sql 专栏收录该内容

12 篇文章 0 订阅

订阅专栏

大数据场景下，每天可能都要在离线集群，运行大量的任务来支持产品、运营的分析查询。任务越来越多的时候，就会有越来越多的依赖关系，每一个任务都需要等需要的input表生产出来后，再去生产自己的output表。最开始的时候，依赖关系自然是可以通过管理员来管理，随着任务量的加大，就需要一个分析工具来解析SQL的血缘关系，并且自行依赖上血缘表。

血缘解析本身如果数据层级就一层的话，实际上解析就不那么重要，因为肉眼就可以找到，但是实际情况是随着数据量的增加，字段不仅仅依赖一层就可以解决，原生字段固然重要，但是随着etl过程开始也要产生衍生字段，而且随着维度的增加，不得不从原来一层级拓宽到多层应用，仓库--落到集市---集市落到应用，应用落到报表，一层层来说，如果不做好血缘解析，基本一个数据项的来源就显得可信度不高，其次对应数据项报送，必须要有哪里来的萝卜，哪个组件种的，要填入到哪个报表的坑位，这个必须要有一个明确的来源和结束点。

血缘解析好比是从报表报送的那个数据项看做一个垃圾，那么这个从消费到回溯到生产到原料进而细分到加工原料的组成成分，那么这个就是一个完整的血缘解析过程，我们要从这个垃圾进入垃圾桶，还要知道垃圾的来源出处，进而判断这个垃圾进的垃圾桶对不对，是不是可再生垃圾，还是不可再生垃圾，银行报送端是否采纳对应的数据。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
SQL数据分析之血缘解析

etl数据之血缘解析,sql回溯字段源头，拆分组件，拆分数据来源
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

饭九钦vlog 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。