大数据实战【千亿级数仓】项目总结

本文总结了一个大数据离线数仓项目,包括项目架构和技术选型。数据来源为MySQL,通过Kettle同步到Hive,利用Hive的ODS、DW、ADS三层结构进行数据处理,使用Kylin进行预计算提升查询效率。项目中选择了MySQL而非NoSQL,Hive而非传统RDBMS,以及Kettle而非Sqoop,都是基于性能和适用场景的考量。
摘要由CSDN通过智能技术生成

        前段时间做过一个大数据离线数仓的项目,前后花了有好几周的时间。一共是6个阶段,想关注阶段细节的朋友可以查看👉大数据实战项目这个专栏。

        现在项目结束了,理应对此进行一个总结,好好回顾一下这个项目中遗漏的细节…
在这里插入图片描述


项目架构

在这里插入图片描述
① 原始数据在mysql中存储

② 使用kettle将数据从mysql同步到数据仓库(hive)

    同步分为全量同步+增量同步
    增量同步需要使用到拉链表(目标:既能够保存历史数据,又不会有数据冗余)

③ 数据储存到hive

    hive数仓内结构:
    ODS : 存储着数据源同步过来的数据
    DW : 对ODS层数据机型预处理(数据过滤,数据填充),以及数据的拉宽,将业务中需要的字段,但是字段不在一个表里。使用拉宽(join)将这些字段拉到一个表中。
    ADS:存储最终结果

④ 使用kylin对hive内的数据进行预计算,提高查询效率

⑤ 部分数据同步至mysql,使用sqoop/kettle同步


技术选型

★ 数据来源: MySQL

★ 数据存储: Hive

★ 数据同步: Kettle</

评论 59
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

大数据梦想家

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值