什么是湖仓一体

数据湖回顾

在之前的文章《什么是数据湖》中提到数据湖遇到的几个挑战:

  1. 不支持事务,缺乏对数据质量和治理的约束,缺乏性能优化的手段。
  2. 缺乏对数据质量和治理的约束,数据存在可靠性的问题
  3. 元数据存储的扩展性差,随着数据湖的数据越来越多,查询性能变得越来越慢

湖仓是如何解决这些挑战的

如何解决数据湖面临的挑战?在数据湖的基础之上引入事务层,把数据湖和数据仓库的优点有机结合在一起,形成了一个可以同时支持数据分析、数据科学、机器学习运行的系统。

什么是湖仓

湖仓的主要特性:

  • 事务支持:一个企业级的湖仓会有同时多个数据流并发的读和写。ACID事务的支持可以保证并发读写数据时的一致性。
  • BI支持:支持通过BI工具直接访问数据,以降低延迟、并且降低了成本(一份数据不需要同时在数据湖和数据仓库中存储两个拷贝)。存算分离:存储和计算分开在不同集群,方便扩展以支持存储更多的数据和支持更多的并发访问。
  • 开放:存储格式开放,如Parquet; 提供标准化的访问API以支持各种不同的工具和引擎高效地操作数据。
    支持各种不同的数据类型,非结构化到结构化:湖仓支持各种应用程序存储、修改、分析、访问像图像、视频、音频、半结构化数据和文本。
  • 支持不同的工作负载:包括数据科学、机器学习、SQL和分析。
  • 端到端的流:实时报表是企业中常见的应用。对流的支持,使得企业不需要再额外搭建一套系统来服务实时的应用。

以上都是湖仓的主要特性。当然,企业级的应用还需要其他额外的特性,如数据安全、访问控制,审计、生命周期、血缘等数据治理方面的能力,以及数据目录、数据指标等。

数据仓库 vs 数据湖 vs 湖仓

对比项传统数据仓库数据湖湖仓
成本¥¥¥¥¥
存储格式专有格式开放开放
可扩展性扩展成本高昂、指数级增长扩展成本低扩展成本低
面向的用户数据分析师数据科学家数据分析师、数据科学家、机器学习工程师
可靠性数据质量高,高可靠数据质量低、可能成为数据沼泽数据质量高、高可靠
易用程度简单困难,数据缺乏组织和管理,简单
性能

在这里插入图片描述

当前主流的湖仓方案

DeltaLake, Hudi , Iceberg, 具体可见文章《湖仓方案DeltaLake、Hudi、Iceberg功能对比》

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

修破立生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值