摘要:2021云栖大会云原生企业级数据湖专场,阿里云智能高级解决方案架构师周皓为我们带来《企业级数据湖最佳实践》的分享。
本文主要分享了数据湖的核心能力及几个最佳实践案例。
以下是精彩视频内容整理
一、统一数据存储,多引擎对接,运存分离
在这一节开始之前,先回顾一下数据湖几个核心的能力:
- 集中存储、多种引擎对接
各种类型的数据用集中方式统一存储在OSS,无缝对接如 EMR 等各类计算引擎,支持开源计算生态
- 数据无需处理、直接存储
对接多种数据输入源,提供便捷的数据接入和数据消费通道,多种类型数据都可以按照原始产生的形态直接存储,随需再进行处理,对比传统数仓 schema 限制结构,更适配业务快速发展的应用场景
- 更灵活架构、运存分离
存算分离架构带来非常好的灵活性,通过计算与存储解耦合提供更灵活的系统架构设计空间,让计算、存储资源具备更好的扩展性,充分提高资源利用率,极大降低运维管理难度、优化 TCO。这也是本文介绍案例中,客户选择数据湖方案的一个重要原因。