重磅来袭 | 尚硅谷在线教育大数据项目发布

该项目涵盖了数据采集、离线及实时数仓的构建,包括Shell脚本、用户行为日志数据、业务数据表和数仓分层表。利用MaxWell和DataX进行数据采集,Hive和Flink分别用于离线和实时处理,DolphinScheduler负责任务调度,构建了完整的指标网络和数仓建模理论体系。
摘要由CSDN通过智能技术生成

教程共分三大部分:采集系统、离线数仓、实时数仓。项目拥有完善的离线指标体系和实时指标体系,各指标体系均进行了完整的指标拆解与分析,形成了庞大的指标网络。涵盖40多个Shell脚本,5大类用户行为日志数据,30多张业务数据原始表格,100多张数仓分层表,分析展示了上百个离线指标、几十个实时指标。

项目采用MaxWell和DataX作为数据采集工具,灵活设计数据采集策略,将采集来的数据同时服务于离线数仓和实时数仓。结合阿里巴巴成熟的数仓构建实践,总结出一套数仓建模理论体系,并梳理出通用的数仓建模步骤。分别使用Hive和Flink构建离线数仓和实时数仓,采用了流行的任务流调度系统DolphinScheduler。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值