离线--千亿级数仓项目-黑马

最新推荐文章于 2024-08-12 15:06:40 发布

紫金小飞侠

最新推荐文章于 2024-08-12 15:06:40 发布

阅读量958

点赞数

分类专栏： # 大数据项目

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yangshengwei230612/article/details/116395468

版权

大数据项目专栏收录该内容

3 篇文章 2 订阅

订阅专栏

大数据数仓项目简介

业务流程

本次数仓业务流程主要分为两类，

一类是用户下单、提交订单、支付、退款这一条线，
另一类是我们收集用户的页面行为数据：用户搜索商品、添加购物车、提交订单、支付订单的日志数据，分析电商网站常见的PV，UV，GMV，

GMV (Gross Merchandise Volume)：主要是指网站的成交金额，而这里的成交金额包括：付款金额和未付款。

千亿级数仓模仿阿里巴巴双十一的大屏显示功能实现的互联网电商指标的离线分析，同时也模仿了阿里巴巴大数据平台上面数据仓库的设计思想和理念。大家通过学习这个项目，能够掌握以下三个核心技能：

1、数据仓库的概念和建设过程

2、离线数据仓库的功能、使用场景和常用的技术栈

大数据离线数仓项目架构

在这里插入图片描述

项目具体技术简介

Kettle
缓慢变化维(拉链表):时间维度，脚本生成，时间维度生成之后不会变化，SCD问题我们使用拉链表来解决；
Hive
kettle：导出数据的工具
Spark SQL：计算引擎
Kylin：计算引擎，进行预计算之后的多维统计分析可以达到亚秒级别。

项目环境介绍

业务数据量
- 用户数：300W
- 每日订单量：10W
- 每日交易额：700W
- 商家数：5W
- 商品数：45W
- PV：500W
- UV：50W
数据在hdfs中平均每天 40G左右的速度增长，存储3份，每天增长大概120G,存储hive表时

会说过parquet格式+snappy压缩
硬件资源
- 数量：30台
- CPU资源：24核
- 内存：128G
- 硬盘：4T

紫金小飞侠

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。