大数据--数据仓库1--电商数据仓库项目最全总结1

本文详述了一个电商数据仓库项目的来源、概念、需求分析和架构设计,涵盖数据采集、存储、查询优化等方面,使用的技术包括Flume、Kafka、Hadoop、Hive、Presto、Superset等,并探讨了数据仓库的分层和优化策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

 

目录

一:项目来源:

二:数据仓库概念

2.1 业务数据

2.2用户行为数据 

2.3数据仓库结构图

三:项目需求及架构设计

3.1项目需求分析

3.2.1 技术选型

3.2.2 系统数据流程设计

3.2.3 框架版本选型

3.2.4测试集群服务器规划

四:数据生成模块

4.1目标数据

五:数据采集模块

六:电商业务简介

6.1电商业务流程

6.2电商业务表结构

七 业务数据采集模块

7.1 Mysql安装,配置

7.2 业务数据生成:sql脚本

7.3 Sqoop安装

7.4 同步策略

八:数据仓库分层

8.1 数据仓库分层

8.2范式理论和函数依赖

8.3 维度表和事实表(*)

8.4 维度模型分类:

8.5 数据仓库建模(*)

8.5.1 ODS层

8.5.2 DWD层

8.5.3 DWS层与DWT层

8.5.4 ADS层

8.5.5 业务术语

九:Superset

9.1介绍:

9.2 使用

十:即时查询

10.1 Presto介绍

10.2 Presto优化之数据存储

10.3 Presto优化之查询SQL

十一:Azkaban

十二:其他


一:项目来源:

参考项目:尚硅谷电商数据仓库2.0/3.0

参考书籍:大数据分析--数据仓库项目实战

参考视频:https://www.bilibili.com/video/BV1Hp4y1z7aZ?from=search&seid=8803428276557895543 (哔哩哔哩)

数仓项目总结2参考我的另一篇博客:https://blog.csdn.net/yezonghui/article/details/117391336 (接着这篇博客的总结)

二:数据仓库概念

2.1 业务数据

    就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录,下单,支付等过程中产生的数据。业务数据通常存储在MySql中

2.2用户行为数据 

    用户在使用产品过程中,与客户端产品交互过程中产生的数据,比如页面点击,停留,评论,点赞,收藏等。用户行为数据通常存储在日志文件中

2.3数据仓库结构图

三:项目需求及架构设计

3.1项目需求分析

1)用户行为数据采集平台搭建

2)业务数据采集平台搭建

3)数据仓库维度建模

4)分析用户,流量,会员,商品,销售,地区,活动等电商核心主题,统计的报表指标接近100个。

5)采用即席查询工具,随时进行指标分析。

6)对集群性能进行监控,发生异常需要报警

7)元数据管理

8)质量监控

3.2项目框架

3.2.1 技术选型

数据采集传输:Flume,Kafka,Sqoop

数据存储:Mysql,Hdfs

数据计算:Hive(引擎:Tez换成Spark)

数据查询:Presto,Druid,Kylin

数据可视化:Superset

任务调度:Azkaban

集群监控:Zabbix

元数据管理:Atlas

3.2.2 系统数据流程设计

3.2.3 框架版本选型

产品 版本
Hadoop 3.1.3
Flume 1.9.0
kafka 2.4.1
HIve 3.1.2
Sqoop 1.4.6
Java 1.8
zookeeper 3.5.7
Presto 0.189

3.2.4测试集群服务器规划

服务名称

子服务

服务器

hadoop102

服务器

hadoop103

服务器

hadoop104

HDFS

NameNode

 

 

DataNode

SecondaryNameNode

 

 

Yarn

NodeManager

Resourcemanager

 

 

Zookeeper

Zookeeper Server

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值