Lakehouse: 统一数据仓库和高级分析的新一代开放平台

最新推荐文章于 2024-08-13 09:56:50 发布

xleesf

最新推荐文章于 2024-08-13 09:56:50 发布

阅读量560

点赞数 1

分类专栏： ApacheHudi

本文链接：https://blog.csdn.net/weixin_45914070/article/details/113064045

版权

随着数据仓库面临诸多挑战，Lakehouse架构应运而生，结合数据湖的开放格式和数据仓库的高级分析功能。这种架构解决了数据陈旧、可靠性、总成本等问题，支持机器学习和高效SQL查询。通过元数据层提供ACID事务，支持数据版本控制，同时优化SQL性能。随着行业趋势的发展，Lakehouse有望成为未来数据分析的主流平台。

摘要由CSDN通过智能技术生成

在这里插入图片描述

1. 摘要

数仓架构在未来一段时间内会逐渐消亡，会被一种新的Lakehouse架构取代，该架构主要有如下特性

基于开放的数据格式，如Parquet；
机器学习和数据科学将被作为头等公民支持；
提供卓越的性能；

Lakehouse可以解决数据仓库面临的几个主要挑战，如数据陈旧，可靠性，总成本，数据格式不开放和有限场景支持。

2. 数据分析平台发展

数据仓库将业务数据库的数据收集到集中式仓库来帮助企业领导者获得分析见解，然后将其用于决策支持和商业智能（BI），仓库使用写模式（schema-on-write）写入数据，对下游消费者进行了优化，此为第一代数据分析平台。

在这里插入图片描述

慢慢地第一代系统开始面临若干挑战，首先是计算与存储耦合使得扩容成本增加；其次越来越多的数据集是非结构化的，例如视频，音频和文本文档，数据仓库无法存储和查询这些数据。

为了解决这些问题，引入第二代数据分析平台，其将所有原始数据导入数据湖：具有文件API的低成本存储系统，该API以通用且通常是开放的文件格式保存数据，例如Apache Parquet和ORC，可以基于HDFS实现低成本数据湖存储，数据湖是一种读模式（schema-on-read）架构，可以灵活地以低成本存储任何数据。

该架构中的一小部分数据随后将被ETL到下游数据仓库以提供最重要的决策支持和BI应用程序。

在这里插入图片描述

从2015年起，S3，ADLS，GCS，OSS等云数据湖开始取代HDFS，云上的架构与第二代系统中的架构基本相同，云上有Redshift、Snowflake和ADB等数据仓库，这种两层的数据湖+数仓架构在行业中占主导地位（财富500强企业中几乎都在使用）。但这种架构也面临了一些挑战，尽管由于分开的存储（例如S3）和计算（例如Redshift）而使云数据湖和仓库的体系架构表面上便宜，但是对于用户来说，两层体系结构却非常复杂。在第一代平台中所有数据都从运营数据系统直接ETL到仓库，而在这种架构中，数据首先被ETL到数据湖，然后又被ELT到数仓，引入额外的复杂性、延迟和故障率，而且企业用例中包括机器学习之类的高级分析，数据湖和仓库都支持得不理想，具体来说，当前的数据架构通常会遇到如下四个问题：