数据湖学习笔记No.02(湖仓一体)

数仓一体

什么是数据仓库

框架如图所示:

  1. 在这里插入图片描述

为了统计结果,比如最终在数据集市层获得一个销量的指标

Lambda架构到Kappa架构

在这里插入图片描述

Lambda(两套代码 两套数据)->Kappa

在Lambda 的基础上进行了优化,删除了 Batch Layer 的架构,将数据通道以消息队列进行替代。因此对于Kappa架构来说,依旧以流处理为主,但是数据却在数据湖层面进行了存储,当需要进行离线分析或者再次计算的时候,则将数据湖的数据再次经过消息队列重播一次则可。

Kappa架构缺点:

1、无法存储历史数据

2、不支持sql,无法支持搞笑的OLAP

3、无法复用数据血缘管理体系

4、Kafka不支持update/upsert

数据湖的出现是为了解决Kappa架构的痛点问题

数据湖

数据湖是一个集中式的存储库,允许你以任意规模存储多个来源、所有结构化和非结构化的数据,对数据进行加工(大数据处理、实时分析、机器学习)帮助企业更好得决策。

至今为止,数据湖最火的三个技术是Hudi、Deltalack、Iceberg
在这里插入图片描述

Iceberg支持增删改查,并且它的存储单表可以达到PB级别

Kafka擅长的领域是可以快速把数据接过来 作为缓存

Iceberg特点

1、Iceberg是一种数据湖的解决方案

2、Iceberg格式表单表可以存储数10PB数据 (知道数据的大小和具体位置)

3、支持实时/批量数据写入和读取,支持Spark/Flink计算引擎

4、支持SQL查询,支持添加、删除、更新数据

Iceberg数据存储格式:(分层的目的是为了便于删除、增加)

在这里插入图片描述

快照:每当生成一个parquet生成一个快照,快照记录当前拥有多少数据。

manifest file:记录数据在哪里(快照来找manifest)

元数据(metadata):存储着数据存在哪?大小多少?描述数据的数据 找到当前的快照是谁

查询数据:元数据->快照->找manifest要数据

Iceberg数据查询原理

在这里插入图片描述

元数据找到当前快照的位置-> 在快照找到manifest文件 ->在其中找到数据

在这里插入图片描述
在这里插入图片描述

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值