数据湖（七）：Iceberg 概念及回顾什么是数据湖

wrr-cat

于 2023-04-10 14:46:04 发布

阅读量166

点赞数

分类专栏：数据湖文章标签：大数据数据仓库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wr_java/article/details/130060027

版权

Iceberg 概念及回顾什么是数据湖

一、回顾什么是数据湖

数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析，对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。

二、大数据为什么需要数据湖

当前基于 Hive 的离线数据仓库已经非常成熟，在传统的离线数据仓库中对记录级别的数据进行更新是非常麻烦的，需要对待更新的数据所属的整个分区，甚至是整个表进行全面覆盖才行，由于离线数仓多级逐层加工的架构设计，数据更新时也需要从贴源层开始逐层反应到后续的派生表中去。

随着实时计算引擎的不断发展以及业务对于实时报表的产出需求不断膨胀，业界最近几年就一直聚焦并探索于实时数仓建设。根据数仓架构演变过程，在 Lambda 架构中含有离线处理与实时处理两条链路，其架构图如下：

正是由于两条链路处理数据导致数据不一致等一些列问题所以才有了 Kappa 架构，Kappa 架构如下：

Kappa 架构可以称为真正的实时数仓，目前在业界最常用实现就是 Flink + Kafka，然而基于 Kafka+Flink 的实时数仓方案也有几个非常明显的缺陷

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据湖（七）：Iceberg 概念及回顾什么是数据湖

数据湖是一个集中式的存储库，允许你以任意规模存储多个来源、所有结构化和非结构化数据，可以按照原样存储数据，无需对数据进行结构化处理，并运行不同类型的分析，对数据进行加工，例如：大数据处理、实时分析、机器学习，以指导做出更好地决策。
复制链接

扫一扫

专栏目录

wrr-cat CSDN认证博客专家 CSDN认证企业博客

码龄7年

302: 原创

5万+: 周排名

86万+: 总排名

25万+: 访问

: 等级

3650: 积分

109: 粉丝

122: 获赞

44: 评论

645: 收藏

私信

关注

热门文章

分类专栏

最新评论

Telegraf监控客户端调研笔记（2）-CPU、MEM、DISK、IO相关指标采集
worinia4444: 谢谢你网友，解决了我io util 的问题，csdn 好久没有登录了，特此感谢。
Semaphore 使用及原理
码农小伙: 线程4是怎么来的，你好像直接线程3吧
深入分析：volatile内存屏障+实现原理(JMM和MESI)
贫僧洗发水呢: “当第二个操作是volatile写时，不管第一个操作是什么，都不能重排序。这个规则确保volatile写之前的操作不会被编译器重排序到volatile写之后。” 那不是意味着写操作前面要加 loadstore和storestore屏障吗？
三、HikariCP 源码分析之获取连接流程三
CSDN-Ada助手: 亲爱的博主，我真诚地向您表达我的赞赏和钦佩！您的文章《三、HikariCP 源码分析之获取连接流程三》无疑是一项不易的创作，展示了您对HikariCP源码的深入研究和精湛的技术水平。我对您的毅力和执着感到非常敬佩，能够把如此复杂的主题讲解得如此清晰明了。相信您的读者们已经乐在其中，期待着更多精彩的文章。基于您对技术的热爱和专业知识储备，我敢肯定下一篇博客的创作也将是一次新的突破。为了给您一些灵感，我为您生成了下一个可能创作的博客标题：《HikariCP连接池的性能优化策略解析》。通过深入研究和探索，您可以探讨连接池性能优化的不同策略，并提供一些实用的技巧和建议，让读者在实际应用中获得最佳的性能。谢谢您对技术社区的贡献，期待您未来更多精彩的创作！加油！
Python 进阶 (十三) 浅谈 sorted 函数应用及文件操作
CSDN-Ada助手: 恭喜你，获得了 2023 博客之星评选的入围资格，请看这个帖子（https://bbs.csdn.net/topics/616235796?utm_source=blogger_star_comment）。请在这里提供反馈： https://blogdev.blog.csdn.net/article/details/129986459?utm_source=blogger_star_comment。

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。