开源湖仓平台LakeSoul设计理念详解

首先,附上Github链接

LakeSoul:https://github.com/meta-soul/LakeSoul

一、导语

从 Hadoop 诞生至今,大数据系统开源生态已经走过了近 15 个年头。在这 15 年里,大数据领域不断涌现出各类计算、存储框架。但整体上在大数据架构领域,仍然没有到达一个收敛的状态,面对云原生、流批一体、湖仓一体的大趋势,还有很多问题需要解决。

LakeSoul 是数元灵研发并开源的流批一体表存储框架,围绕大数据架构体系新趋势做了大量的设计优化。本文从总体设计理念出发,为大家详解 LakeSoul 的核心概念和设计原理。

二、大数据系统架构的演进趋势

近年来,大数据领域涌现出一批新的计算、存储框架。例如,计算框架出现了以Spark、Flink 为代表的通用计算引擎、以Clickhouse 为代表的 OLAP 系统。存储方面,对象存储成为新的存储标准,代表了数据湖、湖仓一体的重要底座,同时也出现了 Alluxio、JuiceFS 等本地缓存加速层。我们可以看到大数据领域业内的几个重点演进方向:

1.云原生。无论是公有云还是私有云,都提供了对计算和存储硬件的抽象,将传统的 IaaS 层的管理运维抽象出来。云原生的一个重要特点是计算和存储都提供了弹性的能力,而怎样用好弹性能力,在提升资源利用率的同时降低成本,是计算和存储框架都需要考虑的问题。

2.实时化。传统 Hive 为代表的离线数仓,提供 T+1 的数据处理流程,已经很难适应新的业务需求。传统的 LAMBDA 架构引入复杂性和数据不一致性也无法满足业务需求。那么怎样构建一个高效的实时数仓体系,以及怎样在低成本的云存储上实现实时或准实时的写入更新和分析,对于计算和存储框架来说都是新的挑战。

3.计算引擎多样化。大数据领域的计算引擎呈现百花齐放的状态,虽然 MapReduce 已经逐渐没落,但是 Spark、Flink 和各类 OLAP 框架仍在蓬勃发展。每个框架都有自己设计上的侧重点,有一些深耕垂直场景,另一些功能特性在互相融合,而大数据框架的选型也变得越来越繁多。

4.湖仓一体。在湖仓一体上,维基没有给出具体定义,我们认为:它兼顾了数据湖和数据仓库两者的优势,即在开放式格式的低成本云存储之上,实现与数据仓库中的数据结构和数据管理功能类似的功能。具体包含如下几个特性:并发读取和写入数据、具有数据治理机制的架构支持、直接访问源数据、存储和计算资源分离、开放存储格式、支持结构化和半结构化类型(音频、视频)数据以及端到端流式传输等。

从技术成熟度发展来看,数据湖处于稳步爬升复苏期,而湖仓一体还处于期望膨胀期,技术上还未完全收敛,在具体的业务场景上仍然存在着多种问题。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值