大数据数仓项目简介
业务流程
本次数仓业务流程主要分为两类,
- 一类是用户下单、提交订单、支付、退款这一条线,
- 另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车 、提交订单、支付订单 的日志数据,分析电商网站常见的PV,UV,GMV,
GMV (Gross Merchandise Volume):主要是指网站的成交金额,而这里的成交金额包括:付款金额和未付款。
千亿级数仓模仿阿里巴巴双十一的大屏显示功能实现的互联网电商指标的离线分析,同时也模仿了阿里巴巴大数据平台上面数据仓库的设计思想和理念。大家通过学习这个项目,能够掌握以下三个核心技能:
1、数据仓库的概念和建设过程
2、离线数据仓库的功能、使用场景和常用的技术栈
大数据离线数仓项目架构
项目具体技术简介
- Kettle
- 缓慢变化维(拉链表):时间维度,脚本生成,时间维度生成之后不会变化,SCD问题我们使用拉链表来解决;
- Hive
- kettle:导出数据的工具
- Spark SQL:计算引擎
- Kylin:计算引擎,进行预计算之后的多维统计分析可以达到亚秒级别。
项目环境介绍
-
业务数据量
- 用户数:300W
- 每日订单量:10W
- 每日交易额:700W
- 商家数:5W
- 商品数:45W
- PV:500W
- UV:50W
-
数据在hdfs中平均每天 40G左右的速度增长,存储3份,每天增长大概120G,存储hive表时
会说过parquet格式+snappy压缩
-
硬件资源
-
数量:30台
-
CPU资源:24核
-
内存:128G
-
硬盘:4T
-