大数据架构演变

最新推荐文章于 2024-07-17 16:13:12 发布

LG_985938339

最新推荐文章于 2024-07-17 16:13:12 发布

阅读量1.4k

点赞数

分类专栏：数据与数据库文章标签：大数据架构 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44228698/article/details/126472372

版权

本文探讨了大数据架构从传统离线处理到Lambda、Kappa架构的演变，以及湖仓一体实时数仓架构的出现。内容包括各架构的优缺点，如Lambda架构的实时链路与离线数仓，Kappa架构的批流统一，以及如何根据业务需求选择合适的大数据架构。

摘要由CSDN通过智能技术生成

大数据架构演变

一、传统离线大数据架构

在这里插入图片描述

一般在刚引入大数据架构是开始使用，比较适合做批量处理，T+1数据处理等

优点是做批量计算性能比较高，特别适合做批量数据的聚合分析计算。

缺点：这种架构不好支持实时业务数据的开发。一般这种离线数仓分层计算之间都是通过Mapreduce/SparkSQL做批量处理来实现聚合分析，除了数据落库的磁盘IO等比较慢以外，还有一点就是批处理是需要数据来了以后等待一会，聚集一批数据在处理，这样数据从头到尾下来就需要等待和处理较长的时间。而对于一些对实时性要求高的数据来说，这种滞后性是无法容忍的。

二、Lambda架构（离线处理+实时链路）-传统实时开发

在这里插入图片描述

从原有离线处理架构的基础上加上了实时处理链路部分，实现了实时业务数据的处理。

对于批处理任务，还是使用原有的传统离线架构不变，支持高性能的离线批处理。

对于实时性要求比较高的场景和需求，单独采用实时链路进行开发，数据流过来了能直接处理，而不需要积累一定的时间或量级再进行处理，尽可能的提高数据从流入到结果产出的时间效率。
缺点：实时链路的业务数据处理是烟囱式的开发，不能对实时链路处理的中间结果做复用处理，每一个

最低0.47元/天解锁文章

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
3
评论
大数据架构演变

（其实我觉得大部分应该都是这样，短链路处理就是实时链路，长链路处理就是实时数仓，对于后端开发人员来说，尤其微服务架构化之后，同一链路的各种数据处理应该都是按功能分配在不同的服务中，而服务与服务之间的数据传递，就需要用到kafka，实际这就已经类似于实时数仓了）上面的实时链路没有对中间结果进行保存，当有大量的实时需求需要开发时，需要尽可能的对中间结果进行复用，以此来提交效率，因此需要把这些中间结果保存起来，使用kafka作为实时数仓。对于批处理任务，还是使用原有的传统离线架构不变，支持高性能的离线批处理。
复制链接

扫一扫

专栏目录

LG_985938339 CSDN认证博客专家 CSDN认证企业博客

码龄6年

79: 原创

6万+: 周排名

79万+: 总排名

14万+: 访问

: 等级

1486: 积分

762: 粉丝

187: 获赞

76: 评论

611: 收藏

私信

关注

热门文章

分类专栏

最新评论

xxl-job在k8s中日志丢失的适配方案
两碗白米饭: 最近也是准备换成xxljob，遇到个问题k8s中一组执行器pod怎么注册到调度器的呢
缓存击穿、缓存穿透及其解决方案
稚白: 如何判断一个key是热点key并设置永不过期？
C#中队列的实现原理
像Cube一样: 两个问题哪个大神看到可以告诉一下吗第一个_version这个东西的作用是什么呢？第二个出队之后，数组还是继续的再往后增加，这样会不会出现一个非常大的数组呢？
virtualbox创建k8s集群（两分钟完成）
zjjblue: kubectl get nodes提示Unable to connect to the server: dial tcp 10.0.2.15:6443: connect: network is unreachable
pg分区表的实践
Mfeeling: PG10开始不就是内置分区表了吗

最新文章

目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。