数据血缘系列（15）—— 数据血缘6步落地法

最新推荐文章于 2024-11-01 17:13:19 发布

大数据流动

最新推荐文章于 2024-11-01 17:13:19 发布

阅读量552

点赞数 12

文章标签：人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiangwang2206/article/details/141339507

版权

大家好，我是独孤风。在当今数据驱动的商业环境中，数据治理成为企业成功的关键因素之一，而数据血缘正是数据治理成功的一个关键。

在明确数据血缘建设方式以后，就是具体的落地实现了，本文介绍数据血缘的6步落地法，可以按此步骤实现数据血缘的落地。

本文为《数据血缘分析原理与实践》一书读书笔记，部分观点参考自书中原文，如需更详细的了解学习，请大家支持原作者的辛苦付出。

本文思维导图如下所示：

六步法是建立数据血缘的系统化方法，旨在帮助企业有效管理和追踪数据流动和关系。这个方法包括明确目标、制定需求范围、构建系统、完成数据收集、初始化系统以及实现可视化。通过这一过程，企业能够实现数据的透明化和可追溯性，提升数据质量和完整性，从而优化数据管理和支持决策制定。

一、明确数据血缘目标

建立数据血缘的第一步是明确项目的目标和需求。这一阶段包括对企业当前数据管理现状的调研、成熟度评估及未来建设级别的确定。通过对数据管理机制、数据对象使用现状和企业产品状况的调查，企业可以更好地了解自身的数据管理水平。同时，评估数据管理成熟度（从初始级到优化级），并根据评估结果确定未来的数据血缘建设级别（从不具备能力到全覆盖应用场景），为项目的推进制定清晰的目标。

在明确目标的过程中，还需收集管理人员对数据血缘项目的预期，了解各相关方的需求和目标，制定项目的总体目标，如确保数据资产的完整性、提升数据质量、保护隐私、分析数据变更对下游的影响等。此外，项目组织的建立（包括决策组、管理组和执行组）和主项计划的制定（从准备阶段到上线后维护阶段）也是关键步骤。最后，召开项目启动会，发布项目章程，授权项目经理并介绍项目背景和计划，标志着数据血缘项目的正式启动。

二、制定数据血缘需求范围

在确定了数据血缘的目标后，下一步是制定需求范围。这包括对全员进行普及和培训，确保相关人员了解数据血缘的定义、特征及其带来的价值，同时分享标杆企业的案例，明确调研工作安排。需求调研需要涵盖IT开发人员、业务操作人员和数据管理人员，以确保全面了解不同角色对数据血缘的需求。

确定数据血缘的字段范围是关键，包括数据字段的定义、管理规则及数据生产和应用系统。基于这些需求，完善数据血缘的详细计划，包括项目的各阶段（如准备阶段、蓝图设计阶段、系统实现阶段等）及项目复盘，以确保各项工作有序推进。

三、构建数据血缘系统

构建数据血缘系统是实现目标的核心步骤。首先，需要制定数据血缘蓝图方案，通过对业务流程、需求、系统进行分层和分类，形成数据需求、流程和系统的血缘系统覆盖地图。基于这些信息设计数据血缘蓝图，明确系统设计的总体框架。

随后，进行数据血缘系统的搭建，包括数据采集、处理追踪、可视化、分析和报告，确保数据的安全等级、质量监控和版本管理。选择合适的存储技术（如结构化数据存储、非结构化数据存储、数据湖或图数据库）也是关键步骤。系统的测试和部署同样重要，需要准备测试环境和工具，执行系统测试，确保系统上线后的平稳运行。

四、完成数据血缘收集

数据血缘收集是数据血缘建立中的实际操作环节。首先，需要确定数据血缘的收集方法，包括自动解析、系统跟踪、人工智能推导和人工收集等。不同方法适用于不同的数据环境和需求，选择适当的方法有助于提高数据收集的效率和准确性。

在收集过程中，需明确数据源，进行数据清洗，并执行数据血缘收集和存储。收集后的数据质量需要复核，包括异常值判别、缺失值处理和格式内容清洗，确保数据的完整性和准确性。

五、完成数据血缘初始化

数据血缘的初始化是系统上线后的重要环节。初始化过程包括自动同步和手动同步，确保系统能够有效地处理和更新数据血缘信息。自动同步可以提高数据更新的效率，而手动同步则可以在特定情况下提供灵活性。

六、实现数据血缘的可视化

数据血缘的可视化能够帮助用户直观地理解数据流动和关系。设置可视化内容，包括数据抽取、加工和装载，是实现可视化的基础。同时，需要确定数据更新频率，设置更新任务和参数，并进行更新测试，以保证数据的及时性和准确性。

选择合适的展示方式（如图形模式和列表模式）可以提升用户体验。同时，设置自动预警机制（包括准确率、覆盖率和时效性）有助于实时监控数据血缘系统的运行状态，并及时响应潜在问题。

数据血缘落地了，该用在哪里呢？下一章我们来看看数据血缘的应用场景。

下一章再见！

大数据流动

关注

12
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

大数据流动 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。