【附下载】实时数仓架构设计与选型

本文介绍了实时数仓的架构设计,对比了Lambda和Kappa架构的优缺点。Lambda架构需要维护批处理和流处理两套计算引擎,而Kappa则主张全流式计算。目前多数大厂依然采用Lambda架构,但Flink在流批一体中受到关注。实时计算产品选型涉及数据源、通道、计算引擎和存储,如Kafka、Flink、Redis、Hbase等。文章列举了美团、字节跳动和有赞的实时数仓实践,强调选型应考虑具体需求和应用场景。
摘要由CSDN通过智能技术生成

这是彭文华的第99篇原创

好几位朋友在后台留言,说要看看各大厂都是咋玩实时数仓的。其实,实时数仓和离线数仓在模型设计的时候是一样一样的,只是需要计算引擎和存储不太一样而已。然后再解决实时计算场景中的几个问题就齐了。今天给大家分享实时数仓的架构。

实时计算架构选型

目前实时架构方法是Lambda和Kappa。

1、Lambda 架构

Lambda架构核心就三个:批数据处理层、流数据处理层和服务层。批数据处理层应对历史长时间数据计算,流数据处理层应对短时间实时数据计算。如果一个需求要历史到当前所有数据的累加结果,那就在服务层将两部分数据进行累加就好了。

Lambda架构需要维护两套计算引擎,如果需要历史到现在实时数据的累加,则需要在两边同时做相同的计算,然后还得加总一下,非常麻烦。因此就有了最近非常火热的Kappa架构。

appa 架构

Kappa架构的设计很有意思。Lambda架构反正还是分离线和实时两部分的,所以可以从离线库和实时消息队列取数,分别计算后,在服务层加总就可以了。

Kappa的设计理念是:干脆不要离线了,全部都进行流式计算。流式计算的数据来源是消息队列,那我把所有需要计算的数据放在消息队列里就好了,然后让流计算引擎计算所有数据不就好了?

因为所有数据都存在Kafka,上面接Flin

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值