离线--千亿级数仓项目-黑马

大数据数仓项目简介

业务流程

本次数仓业务流程主要分为两类,

  • 一类是用户下单、提交订单、支付、退款这一条线,
  • 另一类是我们收集用户的页面行为数据:用户搜索商品、添加购物车 、提交订单、支付订单 的日志数据,分析电商网站常见的PV,UV,GMV,

GMV (Gross Merchandise Volume):主要是指网站的成交金额,而这里的成交金额包括:付款金额和未付款。

千亿级数仓模仿阿里巴巴双十一的大屏显示功能实现的互联网电商指标的离线分析,同时也模仿了阿里巴巴大数据平台上面数据仓库的设计思想和理念。大家通过学习这个项目,能够掌握以下三个核心技能:

1、数据仓库的概念和建设过程

2、离线数据仓库的功能、使用场景和常用的技术栈

大数据离线数仓项目架构

在这里插入图片描述

项目具体技术简介

  • Kettle
  • 缓慢变化维(拉链表):时间维度,脚本生成,时间维度生成之后不会变化,SCD问题我们使用拉链表来解决;
  • Hive
  • kettle:导出数据的工具
  • Spark SQL:计算引擎
  • Kylin:计算引擎,进行预计算之后的多维统计分析可以达到亚秒级别。

项目环境介绍

  • 业务数据量

    • 用户数:300W
    • 每日订单量:10W
    • 每日交易额:700W
    • 商家数:5W
    • 商品数:45W
    • PV:500W
    • UV:50W
  • 数据在hdfs中平均每天 40G左右的速度增长,存储3份,每天增长大概120G,存储hive表时

    会说过parquet格式+snappy压缩

  • 硬件资源

    • 数量:30台

    • CPU资源:24核

    • 内存:128G

    • 硬盘:4T

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值