受治理的数据湖将增加价值。对于那些在运营战略中优先考虑数据的组织来说,数据湖是理想的解决方案。当多个团队需要访问企业数据时,安全的数据共享是一个关键因素。为了帮助管理这种使用,组织可以依赖一个受治理的数据湖,该湖容纳原始结构化和非结构化数据,这些数据是可信的、安全的和受治理的。
对于那些从数据中获取价值的组织,包括关于客户、员工、交易和其他资产的数据,受治理的数据湖为识别、理解、共享和自信地对这些信息采取行动创造了机会。
一、受治理数据湖的体系结构
关键的设计决策描述了受治理数据湖的体系结构。数据存储库由三个主要部分组成。数据湖存储库提供了存储数据和运行尽可能接近数据的分析的平台。数据湖服务定位、访问、准备、转换、处理和移动数据,并将其移入和移出数据存储库。最后,数据管理和治理结构有助于治理和管理数据湖中的数据。治理功能验证并增强数据质量,旨在保护数据不被滥用。此度量可确保在生命周期的适当时刻刷新、保留并最终删除数据。
治理,即数据的组织和对数据质量有保证的能力,是管理数据湖的一个重要方面。虽然数据湖旨在提供对数据的灵活访问,但必须要有一个治理系统来确保数据具有完备的安全性、受保护性并继续有用。受治理的数据湖可以按其层次进行说明,如下所示:
•基础,主要基于数据治理
•中级,它用新的和附加的数据类型和数据行为扩展初始数据湖存储库
•高级,支持自助服务分析
每个层为组织中的不同数据消费者保存特定的值。架构师可以从发布的参考体系结构中获益,该体系结构由单个和通用的元数据存储库支持。数据科学家受益于一个控制区域,在那里他们可以存放正在进行的沙箱。
数据湖的基本好处来自于治理。治理推动了“数据优先”的文化,在这种文化中,业务用户拥有数据的所有权,并就规则和策略达成一致。共享定义创建了相互理解,这有助于避免团队之间或团队之间的混淆。有了这一共同点,我们可以访问可信数据,并加快分析应用程序的洞察力。业务价值从对数据及其重要性的认识转变为随时进