数据治理工具:基于SQL图形化数据血缘系统的概念及设计

一、背景介绍

  1. 数据对于企业的重要性不必赘述;
  2. 目前文本数据的存储格式,大体分为两种:结构化和非机构化;
  3. 由于关系型数据库的广泛使用,大量数据采用结构化方式进行存储和加工。最为广泛的加工方式使用是SQL语言。

二、痛点

就代码本身而言,SQL已经做到足够简洁。

但随着业务需求复杂度的增长,数据的加工流程越来越长,且纵横交错。想了解数据起点与终点的关系,变得越来越困难。

这时候,假设当某一节点数据出现问题,需要向上查找原因,或向下分析影响时,往往只能通过分析脚本或调度作业的方式进行。这两种方式都有缺点,前者耗时易错,后者不够详细。

而数据出现问题,也只是数据治理中一个痛点而已。

三、解决方案

建立一套数据血缘系统。

使得用户不用再通过分析SQL代码,也可以轻松直观查询到数据节点之间的关系。

四、方案设计需求

数据血缘系统,应当满足以下功能:

  1. 用户可以不需要特别了解SQL也能使用,操作简单;
  2. 用户可以根据任何一个数据节点,快速地向上或向下追溯数据的加工路径;
  3. 数据节点的可追溯颗粒度要尽量的细。

五、系统设计

# 针对需求1:

  • 为了方便用户使用,需要有操作界面。
  • 为了使得界面能清晰直观的表达出数据血缘关系,本系统采用将SQL代码图形化的做法,形成代码矢量图。
  • 根据这个流程矢量图,用户可以清楚地看出数据加工的各个节点。

# 针对需求2:

  •  用户可以选中矢量图中任意节点,然后点击按钮,实现以此节点为起点(终点),向下(向上)追溯其影响到的其他节点路径。
  •  对于影响到的节点路径,在矢量图中应当使用不同的颜色标识出来,便于辨别。

# 针对需求3:

  • 数据库SQL加工的数据最小颗粒度是字段。
  • 因此,数据血缘系统可追溯的数据节点的最小颗粒度,也应该是字段级。
  • 为了实现这个目标,需要对SQL代码进行详细的解析,形成表级和字段级的数据血缘关系信息。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值